Enviar pesquisa
Carregar
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
•
1 gostou
•
5,026 visualizações
moai kids
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 7
Baixar agora
Baixar para ler offline
Recomendados
NoSQLデータベースと位置情報
NoSQLデータベースと位置情報
Koji Ichiwaki
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
データベース01 - データベースとは
データベース01 - データベースとは
Kenta Oku
chapter6
chapter6
ymk0424
超入門データベース基礎の基礎
超入門データベース基礎の基礎
Matsuzawa Fumiaki
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
Takahiro Inoue
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
Masao Takaku
ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索
Masao Takaku
Recomendados
NoSQLデータベースと位置情報
NoSQLデータベースと位置情報
Koji Ichiwaki
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
データベース01 - データベースとは
データベース01 - データベースとは
Kenta Oku
chapter6
chapter6
ymk0424
超入門データベース基礎の基礎
超入門データベース基礎の基礎
Matsuzawa Fumiaki
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
Takahiro Inoue
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
Masao Takaku
ムダ知識との出会いを求めて - ふわっと関連検索
ムダ知識との出会いを求めて - ふわっと関連検索
Masao Takaku
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
20140418 info talkセミナー資料
20140418 info talkセミナー資料
Takahiro Iwase
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
20180922 jazug8 cosmosdb_search
20180922 jazug8 cosmosdb_search
Kazuhiro Wada
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
s. kaijima
20110301 Mongo Tokyo
20110301 Mongo Tokyo
Kenichi Masuda
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
Takahiro Inoue
データベース入門
データベース入門
拓 小林
MongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDB
ippei_suzuki
マイクロサービスとABテスト
マイクロサービスとABテスト
圭輔 大曽根
図書館でAPIをスルメのように 味わうには
図書館でAPIをスルメのように 味わうには
Takanori Hayashi
New lead campaign dee allomong
New lead campaign dee allomong
Infusionsoft
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Ronald G. Shapiro
Η θική επένδυση - Ethican Investement
Η θική επένδυση - Ethican Investement
Niki Lambropoulos PhD
Fronts
Fronts
Dick Oostenink
Greystripe Consumer Insights Report Q1
Greystripe Consumer Insights Report Q1
Dev Khare
How I Created A News Startup
How I Created A News Startup
Lisa Williams
sitTokyo2023_App&Dev_01_ariyama.pptx
sitTokyo2023_App&Dev_01_ariyama.pptx
yuichiariyama
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
Mais conteúdo relacionado
Mais procurados
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
20140418 info talkセミナー資料
20140418 info talkセミナー資料
Takahiro Iwase
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
20180922 jazug8 cosmosdb_search
20180922 jazug8 cosmosdb_search
Kazuhiro Wada
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
s. kaijima
20110301 Mongo Tokyo
20110301 Mongo Tokyo
Kenichi Masuda
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
Takahiro Inoue
データベース入門
データベース入門
拓 小林
MongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDB
ippei_suzuki
マイクロサービスとABテスト
マイクロサービスとABテスト
圭輔 大曽根
図書館でAPIをスルメのように 味わうには
図書館でAPIをスルメのように 味わうには
Takanori Hayashi
Mais procurados
(13)
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
20140418 info talkセミナー資料
20140418 info talkセミナー資料
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
20180922 jazug8 cosmosdb_search
20180922 jazug8 cosmosdb_search
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
20110301 Mongo Tokyo
20110301 Mongo Tokyo
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
データベース入門
データベース入門
MongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDB
マイクロサービスとABテスト
マイクロサービスとABテスト
図書館でAPIをスルメのように 味わうには
図書館でAPIをスルメのように 味わうには
Destaque
New lead campaign dee allomong
New lead campaign dee allomong
Infusionsoft
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Ronald G. Shapiro
Η θική επένδυση - Ethican Investement
Η θική επένδυση - Ethican Investement
Niki Lambropoulos PhD
Fronts
Fronts
Dick Oostenink
Greystripe Consumer Insights Report Q1
Greystripe Consumer Insights Report Q1
Dev Khare
How I Created A News Startup
How I Created A News Startup
Lisa Williams
Destaque
(6)
New lead campaign dee allomong
New lead campaign dee allomong
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Newport RI - Tall Ships Parade Of Sail -- July 09, 2012
Η θική επένδυση - Ethican Investement
Η θική επένδυση - Ethican Investement
Fronts
Fronts
Greystripe Consumer Insights Report Q1
Greystripe Consumer Insights Report Q1
How I Created A News Startup
How I Created A News Startup
Semelhante a 掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
sitTokyo2023_App&Dev_01_ariyama.pptx
sitTokyo2023_App&Dev_01_ariyama.pptx
yuichiariyama
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
Daisuke Masubuchi
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
オープンデータ・プラットフォーム KYOTO OPEN DATA
オープンデータ・プラットフォーム KYOTO OPEN DATA
惠 紀野
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
EPUB3以降とReadium
EPUB3以降とReadium
Makoto Murata
JavaOne2017参加報告 Microservices topic & approach #jjug
JavaOne2017参加報告 Microservices topic & approach #jjug
Yahoo!デベロッパーネットワーク
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Hideo Takagi
Ignite update databricks_stream_analytics
Ignite update databricks_stream_analytics
Ryoma Nagata
インストールマニアックス5中間セミナー Windows Azureって何? インストールする前に相手を知ろう!
インストールマニアックス5中間セミナー Windows Azureって何? インストールする前に相手を知ろう!
満徳 関
Microsoft Search - Microsoft Graph connector と Search Federation の概要
Microsoft Search - Microsoft Graph connector と Search Federation の概要
Ai Hirano
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Takanori Kawahara
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
Azure Datalake 大全
Azure Datalake 大全
Daiyu Hatakeyama
Firebase & BigQuery で Android アプリの成⻑を支える
Firebase & BigQuery で Android アプリの成⻑を支える
健一 辰濱
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
Big Data Architecture 全体概要
Big Data Architecture 全体概要
Knowledge & Experience
Semelhante a 掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
(20)
sitTokyo2023_App&Dev_01_ariyama.pptx
sitTokyo2023_App&Dev_01_ariyama.pptx
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
AWSで作る分析基盤
AWSで作る分析基盤
Big data解析ビジネス
Big data解析ビジネス
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
オープンデータ・プラットフォーム KYOTO OPEN DATA
オープンデータ・プラットフォーム KYOTO OPEN DATA
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
EPUB3以降とReadium
EPUB3以降とReadium
JavaOne2017参加報告 Microservices topic & approach #jjug
JavaOne2017参加報告 Microservices topic & approach #jjug
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Ignite update databricks_stream_analytics
Ignite update databricks_stream_analytics
インストールマニアックス5中間セミナー Windows Azureって何? インストールする前に相手を知ろう!
インストールマニアックス5中間セミナー Windows Azureって何? インストールする前に相手を知ろう!
Microsoft Search - Microsoft Graph connector と Search Federation の概要
Microsoft Search - Microsoft Graph connector と Search Federation の概要
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Azure Datalake 大全
Azure Datalake 大全
Firebase & BigQuery で Android アプリの成⻑を支える
Firebase & BigQuery で Android アプリの成⻑を支える
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Big Data Architecture 全体概要
Big Data Architecture 全体概要
Mais de moai kids
中国最新ニュースアプリ事情
中国最新ニュースアプリ事情
moai kids
FluentdとRedshiftの素敵な関係
FluentdとRedshiftの素敵な関係
moai kids
Twitterのsnowflakeについて
Twitterのsnowflakeについて
moai kids
Programming Hive Reading #4
Programming Hive Reading #4
moai kids
Programming Hive Reading #3
Programming Hive Reading #3
moai kids
"Programming Hive" Reading #1
"Programming Hive" Reading #1
moai kids
Casual Compression on MongoDB
Casual Compression on MongoDB
moai kids
Introduction to MongoDB
Introduction to MongoDB
moai kids
Hadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきました
moai kids
HBase本輪読会資料(11章)
HBase本輪読会資料(11章)
moai kids
snappyについて
snappyについて
moai kids
第四回月次セミナー(公開版)
第四回月次セミナー(公開版)
moai kids
第三回月次セミナー(公開版)
第三回月次セミナー(公開版)
moai kids
Pythonで自然言語処理
Pythonで自然言語処理
moai kids
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
moai kids
Yammer試用レポート(公開版)
Yammer試用レポート(公開版)
moai kids
中国と私(仮題)
中国と私(仮題)
moai kids
不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料
moai kids
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法について
moai kids
Analysis of ‘lang-8’
Analysis of ‘lang-8’
moai kids
Mais de moai kids
(20)
中国最新ニュースアプリ事情
中国最新ニュースアプリ事情
FluentdとRedshiftの素敵な関係
FluentdとRedshiftの素敵な関係
Twitterのsnowflakeについて
Twitterのsnowflakeについて
Programming Hive Reading #4
Programming Hive Reading #4
Programming Hive Reading #3
Programming Hive Reading #3
"Programming Hive" Reading #1
"Programming Hive" Reading #1
Casual Compression on MongoDB
Casual Compression on MongoDB
Introduction to MongoDB
Introduction to MongoDB
Hadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきました
HBase本輪読会資料(11章)
HBase本輪読会資料(11章)
snappyについて
snappyについて
第四回月次セミナー(公開版)
第四回月次セミナー(公開版)
第三回月次セミナー(公開版)
第三回月次セミナー(公開版)
Pythonで自然言語処理
Pythonで自然言語処理
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
Yammer試用レポート(公開版)
Yammer試用レポート(公開版)
中国と私(仮題)
中国と私(仮題)
不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法について
Analysis of ‘lang-8’
Analysis of ‘lang-8’
Último
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Último
(7)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
1.
研究課題:掲示板時間軸コーパスを用いたワードトレンド解析
新規開発局 プログラマ 大平哲也 1
2.
1
はじめに 検索大手の「バイドゥジャパン1」は対外的に「Baidu ブログ・掲示板時間軸コーパス」を公開して おり、Baidu コーパスダウンロード広場2より入手可能である。当該データを用いる事で時系列での トレンドワードの解析を行えるため非常に有益であるが、当該データを用いた解析アプリが公知の ものが存在しないため、今回作成を試みた。 2 本論の流れ 本論では、実際に作成したアプリケーションの紹介を行った上で、コーパスデータや解析に用い た技術などの背景的な内容について説明を行う。 3 アプリケーションについて 3.1 URL 以下の URL で公開をしている。 http://nd-ilab.jp/timeline/word/detail 3.2 スクリーンショット 下記は、過去約10年間における「モーニング娘」と「AKB48」、それぞれのワードの出現傾向を 可視化したものである。(黄色が AKB48,緑がモーニング娘) 図 1 3.3 機能概要 ・ 時系列でのワードトレンドの表示 2000 年7月から 2010 年7月までのデータを表示対象として、調べたいワードの出現傾向の確 認ができる。ワードは最大で5つまで入力可能である。 グラフは「出現頻度」と「比率」の2種類の表示が可能である。 「出現頻度」はコーパス上に記載されている数値をそのまま用いたもの、「比率」は各月の総単 語出現数との比率を計算した上でグラフ表示したものである。 1 http://www.baidu.jp/ 2 http://www.baidu.jp/corpus/ 2
3.
各月ごとにブログ・掲示板で書かれた記事数、ワード数や、バイドゥ社のクロール対象の範囲
も異なると思われるため、相対的な比較を行ないたい場合は「比率」を参照することが望まし い。 ・ ワードサジェスト 補助機能であるが、検索ワード入力時の入力サポートとしてサジェスト機能を実装している。 図 2 3.4 結果サンプル ・ 「ワールドカップ」「オリンピック」「WBC」 図 3 黄色がワールドカップ、緑がオリンピック、青が WBC である。 それぞれのワードとも開催時期が一番ワードの言及される可能性が高いため、グラフ化す ると開催時期が一目瞭然となっている。 ・ 「逝ってよし」「ショボーン」「ktkr」 掲示板サイト「2チャンネル」で有名なネットスラング各種である。 古目の「逝ってよし(黄)」が最近はあまり用いられなくなり、「ショボーン(緑)」は 2002 年ころか ら、「ktkr(青)」は 2007 年頃から使われ始めていることが分かる。 3
4.
図 4 4
背景 4.1 Baidu ブログ・掲示板時間軸コーパス 先述の通りバイドゥ社が対外的に提供しているコーパスデータで、営利目的での使用は不可能 だが誰でも自由に入手が可能なデータである。 当該データは以下説明にあるように、バイドゥ社がクロールしたブログや掲示板などの CGM サ ービス上の書き込みを元に作成したコーパスである。 Baidu のクロールしたウェブデータから、 掲示板の書き込みおよびブログの本文を、 書き込まれた正確な時間とともに抽出し時系列に並べたデータを元にして作成し たコーパスです。 2000 年 1 月~2010 年 7 月の期間に対して、各 1 ヶ月ごとにスライスし、N グラム (1 グラム~3 グラム)の統計を計算しています。1 当該データを用いることで、約 10 年分の CGM サイトへの書き込み内容のスナップショットを時 系列で解析することが可能となり、トレンドワードの変遷などの解析を行うのに有用である。 データの詳細については説明(ReadMe.txt)を参照されたい。2 データの中身は以下のようになっている。(2000 年 1 月、3グラムデータより抜粋) は プログラム だ 2 は 一般 的 2 は 利用 を 2 は 好き だ 2 は 少し 寝坊 2 は 思え ない 2 は 無 差別 2 は 無料 。 2 1 「Baidu コーパスダウンロード広場」内の説明書きより引用 2 http://www.baidu.jp/corpus/blogforum/readme.txt 4
5.
4.2 データ解析 4.2.1
固有表現の抽出 コーパスデータ記載のワードは形態素解析器を用いて機械的に単語分割を実施済みのものな ので、公知の固有名詞、人名などが細かく分割され過ぎている傾向がある。そのためコーパスデー タをそのまま使用するのではなく、より一般的な固有表現の抽出を試みた。 今回は、日本語版 Wikipedia1の項目名を教師データとして、項目名として存在するワード群の みを解析対象とした。データは Wikipedia サイトから提供されている MySQL ダンプデータ(2010 年9月10日版)を用いた2。 さだ 361 …1-gram さだ まさし 227 …2-gram さだ まさし の 127 …3-gram 3 例えば上記のようなデータがコーパスに存在する場合、単語分割されているものを前方から結 合し「さだ(1-gram)」「さだまさし(2-gram)」「さだまさしの(3-gram)」という単語に再構成する。その 上で、Wikipedia の項目名と完全一致するものだけを解析対象とした(この場合は「さだまさし4」の みが対象となる)。 4.2.2 各月のコーパスデータ統合 提供されているコーパスデータは1グラム~3グラムそれぞれファイルが分かれている為、上述の 固有表現の抽出を行った上で一つのファイルにまとめた。 解析処理には Hadoop(0.20.2:CDH3 Beta25)を用い、各月について単語と出現頻度の対と なるデータを生成した。 なお、今回は任意の出現頻度閾値でデータの足切りをしている。 解析した結果、各月のワード異なり数は以下となった(抜粋して紹介)。 2000 年7月 969 2002 年7月 4,027 2004 年7月 6,059 2006 年7月 13,923 2008 年7月 20,093 2010 年7月 29,889 4.2.3 データの保存 データの保存先には今回は MySQL5.0 系を用いた。ただし通常の使い方ではなく、MyISAM 形のテーブルを Key-Value ストアのようなテーブル構成にして用いている。 具体的なテーブル定義は以下である。 1 http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3% 82%B8 2 http://download.wikimedia.org/jawiki/ 3 数値ならびに語の組み合わせは仮のものである。 4 http://www.sada.co.jp/index.html 5 https://wiki.cloudera.com/display/DOC/Downloading+CDH+Releases#DownloadingCDHReleases-id4 65778 5
6.
図 5 データアクセスのための簡易的なアプリケーションフレームワークを用意しており、ユーザーが直 接値を書き込むのは「id(Key)」「json(Value)」部のみに制限している。Value
部に構造的なデー タを格納したい場合は JSON を用いたテキスト形式か MessagePack1を用いたバイナリ形式を用 いる事ができるようになっている。 今回については各年・月ごとにテーブルを用意し、それぞれの月のデータをそれぞれのテーブ ルに格納している(ex. 2010 年7月→ ngram201007) 4.2.4 サジェスト用辞書作成 一般的なワードと思われるものについてはワード入力欄でサジェストを行っている。そのための 辞書の作成を行った。 今回は、各月のコーパスデータを元に獲得したワード全てを対象とし、そのうち以下のようなヒュ ーリスティックなルールで足切りを行った。 ・ 出現頻度 ・ 単語長(今回は2文字以上入力されたらサジェストするようにしているため、3文字以上の単 語のみをサジェスト候補とした) サジェストワードの候補語は、今回は 8,975 語となった。 当該データを、Trie 木2をベースとした自 作の簡易フレームワークを用いて候補語データを格納しサジェスト機能を実現している。 4.3 アプリケーション UI のアプリケーションは既存の枯れた技術の採用となり、目新しいところは特に無い。 以下使用技術を羅列する。 実行環境・ミドルウェア Java(1.6) Tomcat(6.0.29) MySQL(5.0.77) Java ライブラリ SpringFramework(2.5、コアならびに SpringMVC)3 MySQL Connector(5.1.6)4 FreeMarker(2.3.8) 5 Apache Commons ライブラリ6各種 等 JavaScript ライブラリ 1 http://msgpack.org/ 2 http://ja.wikipedia.org/wiki/%E3%83%88%E3%83%A9%E3%82%A4%E6%9C%A8 3 http://www.springsource.org/ 4 http://www.mysql.com/ 5 http://freemarker.sourceforge.net/ 6 http://commons.apache.org/ 6
7.
JQuery1 Google Visualization API(dygraphs)2 等 5 まとめと考察 バイドゥ社が提供するコーパスデータを用いて、過去のトレンドワードの傾向を可視化するアプリ ケーションの開発を行った。時系列コーパスデータを用いることでこういったアプリが比較的容易に 開発が可能であることが確認できた。 ナイーブな解析しか行っていないため細かい精度については課題があると思われるが、大枠で は非常に有益なデータベースとなっていると思われるため、社内の多くの人に参考にして欲しいと 考えている。また、自社データを用いて同様のアプリ開発が可能であれば検討したい。 6 おわりにかえて 同種のアプリケーションで、世間に公開されているものに Google トレンドがある。3 こちらのアプリケーションは、Google が抱える膨大なクロールデータ、クリックデータ等を用いて解 析を行っているため、より高度な解析結果が提供されている。 ワードのバースト地点で何が起こったのかの理解補助のために当該地点での関連ニュースが表 示されるなど、マイニングツールとしての完成度は高い。 図 6 同じようなクオリティのアプリケーションを作るためには膨大なデータと高度な解析推論アプロー チが必要と思われるが、弊社でも同水準のアプリケーションが開発できるよう、日々研鑽をしていき たいと考えている。 7 参考文献・URL [1] Baidu ブログ・掲示板時間軸コーパス」公開、「藁」の激減傾向もくっきり http://internet.watch.impress.co.jp/docs/news/20100831_390579.html [2] 次の 10 年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる http://www.publickey1.jp/blog/10/10_3.html 1 http://jquery.com/ 2 http://danvk.org/dygraphs/ 3 http://www.google.co.jp/trends 7
Baixar agora