bigdata2012nlp okanohara

2012/12/6@情報処理理学会連続セミナー：
　　　　　　　ビッグデータ時代の⾃自然⾔言語処理理

⼤大規模・⾼高速・⾼高精度度な
⾃自然⾔言語処理理を⽀支える技術

岡野原　⼤大輔

株式会社Preferred Infrastructure 　
hillbig@preferred.jp

会社紹介
株式会社 Preferred Infrastructure
l  略略称 PFI
l  代表者⻄西川徹
l  設⽴立立 2006年年3⽉月
l  社員数 26名
l  所在地〒113-‐‑‒0033 東京都⽂文京区本郷2-‐‑‒40-‐‑‒1
l  事業概要
l  検索索/分析分野での製品開発, 販売, サービス提供
l  ⼤大規模分散分析エンジンの共同研究開発

最先端の技術を最短路路で実⽤用化
リサーチとエンジニアリングの融合
世の中に必要とされる中で特に重要で困難な課題に対し解を提供

2

Preferred Infrastructure
メンバー構成
l  フルタイム26⼈人中23⼈人がエンジニア/研究者
l  以下の情報/理理/⼯工学博⼠士

l  ⾃自然⾔言語処理理/機械学習/計算量量理理論論/データマイニング/⽂文字列列解析
l  ICPCプログラミングコンテスト世界⼤大会（=⽇日本代表） 7名
l  未踏プロジェクト 5名
l  TopCoder世界上位や、世界プログラミングコンテスト優勝者など
l  各種コミュニティへの働きかけ
l  ⽇日本Hadoopユーザー会⽴立立ち上げ, ⾃自然⾔言語処理理若若⼿手の会委員⻑⾧長

l  ⽇日本語⼊入⼒力力本, Haskel本, 各種雑誌記事, 専⾨門書

その他、データ圧縮、UI/UX、セキュリティ、分散システム、
ソフトウェア⼯工学など様々な分野の専⾨門家

3

アジェンダ

l  ⾃自然⾔言語処理理を取り巻く世界の変化
l  情報フィルタリング
l  業界別の⾃自然⾔言語処理理
l  ⾃自然⾔言語処理理を⽀支えるツール
l  Bazil

l  Jubatus

4

⾃自然⾔言語処理理を取り巻く
世界の変化

多⾔言語化 (1/3)

l  世の中の⾔言語の種類は多様化している
l  twitterの場合、⾮非英語は60%であり、⾮非英語の伸びが著しい

l  新興国でのスマートフォンの普及により、他⾔言語コンテンツが増加

非英語 61%

英語 39%
2010年時は50%

http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter

多⾔言語化（2/3）

l  スマートフォンの普及により、これまでのインターネットユーザ
ーとは異異なる⾮非英語圏の利利⽤用者が急速に増加
l  c.f. LINEはスペイン語圏、アラビア語圏で利利⽤用者が急激に増加

l  東南アジアの諸⾔言語、インドの⽅方⾔言利利⽤用者の⼈人⼝口は数千万単位

l  多⾔言語を統⼀一的に解析可能なツールは殆ど存在しない
l  特にアジア⾔言語に弱い場合が多い
l  機械翻訳は技術的には向上しつつあるが、発展途上
l  基本的な⾃自然⾔言語処理理のツール：キーワード抽出，検索索、レコメ
ンド、名寄せ、⽂文書分類・整理理、などを多⾔言語向けに提供できて
いない

多⾔言語化（3/3)

l  これまでのNLPのツールは英語、ヨーロッパ⾔言語、中国語、⽇日本
語などがサポートされる場合が多かった
l  研究者が多い、先進国、

アメリカが注⽬目している国（昔はロシア・⽇日本、今は中国・アラ
ビア語）

l  ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない
l  Google翻訳は数年年で50⾔言語強にスケールした

l  ⾔言語のスケーラビリティに対する徹底的な意識識が必要

⾔言語資源の⼤大規模・リアルタイム化 (1/4)

l  Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人/企業/研究機関
でもビッグデータが⼿手に⼊入れられるような時代になってきた

l  世の中のデータは年年率率率45%ずつ増えており、2020年年には
現在の40倍になると推定されている
l  今後、⾳音声認識識、⾃自動議事録、電⼦子カルテなど⾔言語資源は量量・種

類ともに増加することが予想されている


l  SNS
l  Twitter : 100億 tweets / ⽉月, 5.17億 user（active 1.4億）*1

l  Facebook : 1200億 message /⽉月, >10億 user *2

l  LINE : 300億 message / ⽉月, 7500万 user*3

l  論論⽂文
l  Peer reviewed Journal で 135万 article / 年年*4

l  年年率率率 4〜～10%の増加, 15年年で2倍に
l  conference proceedings などは更更に⾼高い増加率率率

*1 http://weekly.ascii.jp/elem/000/000/084/84331/
*2 http://qconlondon.com/dl/qcon-london-2011/slides/
KannanMuthukkaruppan_HBaseFacebook.pdf
*3 http://www.slideshare.net/sunsuk7tp/hbase-at-line
*4 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909426/
10


l  専⾨門家すら全ての情報に触れることは困難
l  関連する領領域も急速に拡⼤大している

l  SNS, 電⼦子ジャーナルなど情報発信能⼒力力は急激に増えたが、⼈人の
処理理能⼒力力は急激に増えないのでアシストツールが必須
l  ⼤大量量の情報から必要な情報のみを集める

l  情報フィルタリングツール

l  情報要約ツール

l  SNSを中⼼心に情報はリアルタイムで発⽣生する
l  秒間数千〜～万, これらの結果に反応できるか

11


l  ⼤大規模な辞書も様々な形で利利⽤用可能
l  Google N-gram, Wikipedia, twitter

l  例例：⾔言語横断のコンセプト辞書 *1
l  English Wikipediaの各コンセプトに対応するキーワード

l  他⾔言語の英語の関係はWikipediaでの対応から抽出
l  各wikipediaのエントリへのリンクの際のアンカーテキストの統
計情報を利利⽤用して、キーワードとコンセプトの関係を抽出
l  31億リンクの情報から2.9億キーワード-コンセプトペアを抽出
l  ウェブから抽出しているので、様々な⾔言語が存在

*1 “A Cross-Lingual Dictionary for English Wikipedia Concepts”,  
V. I. Spitkovsky, A. X. Chang, LREC 2012
http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/
12

情報フィルタリング

13

情報フィルタリング

l  関連する情報だけを⼊入⼿手する
l  アドホック検索索：クエリが動的、対象⽂文書が静的

l  Googleなどのウェブ検索索などいわゆる普通の剣作
l  情報フィルタリング：クエリが静的、対象⽂文書が動的
l  近年年のSocial News Curatorがこれらの技術に近づいている

クエリが動的クエリが静的
（ユーザーが毎回⼊入⼒力力）（決まっている）
結果はpull型結果はpush型
⽂文書が動的情報フィルタリング
（ニュース、
twitter）はてブのカテゴリ、
Social News Curator
⽂文書が静的（ウェブアドホック検索索
ページ、製品情報）（ウェブ検索索など⼀一般の
検索索の概念念はこれ）

例例：Prismatic
l  ニュースやブログ記事などにあらゆるトピックタグをつける
l  タグ付けの精度度は⾮非常に⾼高く、網羅羅性も⾼高い
l  ユーザーの嗜好ピックは、サービス利利⽤用履履歴から⾃自動推定

15

例例：災害対策

地域、トピック、時間で情報をフィルタリング
16

例例：ユーザー属性フィルtリング
各ユーザー属性にに関連するtweetのみを抽出する

17

例例：会社情報
各会社情報に関連するtweetのみを抽出する

18

例例：⾔言語横断でのフィルタリング
appleに関
⾔言語横断で特定情報をフィルタリングすることも可能連する情報
フィルタリ
ング例例

19

その他の情報フィルタリングサービス

l  Crowsnest
l  フォローユーザーのツイート情報を元にユーザーの興味にあう情

報が収集される
l  Facebook
l  EdgeRankに基づき、興味ある情報のみニュースフィードに表⽰示

EdgeRank = 親密度度 * ⾏行行動タイプに基づく重み * 新鮮度度

l  論論⽂文・特許・医療療情報・官報など特定分野における情報フィルタ
リングツールも重要となっている

20

情報フィルタリング・まとめ

l  ⼤大量量の⾔言語情報が⽣生成される中、関連する必要な情報のみをフィ
ルタリングして収集できるツール・サービスは重要度度を増している
l  従来のウェブ検索索を補完する形で

l  様々な軸でフィルタリングすることが可能
l  トピック

l  企業

l  製品

l  地域

l  ユーザー属性

l  利利⽤用ユーザー関連　

l  今後、研究・実⽤用化は増えていくとおもわれる

21

実社会の中でのNLP

22

利利⽤用事例例

l  実社会の中でNLPがどのように使われているのかを紹介する
l  いずれもこれまで対象としていなかった⼤大規模なデータを対象に

している

l  医療療・ヘルスケア
l  製造
l  EC
l  ⽂文献・特許
l  社内情報
l  広告

23

医療療・ヘルスケア

l  電⼦子カルテの⼊入⼒力力⽀支援・情報抽出
l  診断⽀支援 c.f. IBM Watson
l  伝染病の流流⾏行行予測
l  Google Flu 下図（特定クエリログの検索索回数履履歴から推定）

http://www.google.org/ﬂutrends/about/how.html

24

製造

l  部品名の名寄せ: 　国毎、⼯工場毎に違う名前を使っており、必要な
部品を融通しようと思った時に分からない
l  ⾃自由⽂文で書かれたノウハウ（故障履履歴、作業改善案）を機械的に
処理理可能にする仕組み
l  octopart（画⾯面を通じて紹介）
l  カタログから製品情報を⾃自動抽出で絞込み可能に

25

例例：Octpart

26

EC

l  楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索
l  ECサイトの多くは、外部検索索エンジン（Googleなど）から直接

来た後に商品を絞り込むために利利⽤用する場合が多い
l  ECサイトによって⾃自作・チューニングしている場合も多い

l  各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い
楽天、Amazon、ZOZOTOWN など
l  必要なNLP技術
l  クエリ拡張（製品名などはそのままヒットしない）

l  商品属性の抽出（製品名、原材料料、⾊色、キャッチコピー）

l  名寄せ　この商品とこの商品は同じ？バージョン違い？

l  レコメンド
l  商品情報の⽂文章から、お薦めできるかどうかを分析する

⽂文献・特許

l  研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用
l  漏漏れは許されない．関連結果を全て調べる．数千件⾒見見る場合も

l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい

l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べ

る必要がある
l  各企業、政府が今どのような⽅方針をとっているのかも調べたい

→⾦金金融業界などでの利利⽤用も多い

l  誰が⾔言っているのか、影響はどのくらいかの分析も重要
l  情報フィルタリングと同じように、クエリを仕掛けておいて、新
しい情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも

⼈人材・⼈人事

l  ⽂文書と組織のマッチング
l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべ

き⼈人に⾃自動的に必要な情報をpushする
l  組織変更更があった時に、どの⽂文書（情報）をどの組織に割り当て

るのかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う

l  ⼈人事への応⽤用
l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に

⾃自動推定し、その結果を検索索などで利利⽤用できるようにする
l  レジュメを⽂文書分類する．正解データはクラウドソーシングで作る
l  転職斡旋会社や、⼤大企業の⼈人事などで使われる
l  linkedinなどで⼤大規模な適⽤用例例をみることができる

社内情報

l  業務⽂文書解析
l  メール、議事録、掲⽰示板、契約書、設計書、部品書

l  例例：ミーティングの場所、出席者、議題などを⾃自動抽出

過去の関連⽂文書を全て⾒見見つける
l  エンタープライズ検索索
l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流流⾏行行とと

もにデータベース市場、BI市場と融合してきつつある
l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆

買収された．Fast（MS）、Autonomy (HP）、Endeca（Oracle）
l  ⽂文書の⾃自動分類（タグ付）、整理理、組織名や⼈人名、製品名の抽出
、そして、それらの名寄せが利利⽤用される
l  ⽂文書分類、固有表現抽出、照応解析

広告

l  ユーザーの属性分析
l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族

構成、年年収、各製品/企業への嗜好などが分析できる
l  ある商品がどのような⼈人にウケている、外れているといったマー

ケティング分析への利利⽤用
l  第三者広告配信の広まりとともに、ユーザーと広告のマッチング

はキーテクノロジーになっている
この⼈人なら、この広告は⾼高確率率率
l  第三者配信で押すから、⾼高値で⼊入札！

広告を 
広告出したい人達

広告を出せる枠を持った人 
(ウェブサイトを持っている人）
第三者配信

Bazil

（弊社開発中のベータ版サービス）

32

Bazil: 誰でも簡単にデータ解析を

l  データ解析の敷居を下げるためのASPサービス
l  基本的なデータ解析を誰でも使えるようなツールを⽬目指す

l  Excelが使えれば、使えるレベルを⽬目指す

プログラムが書ける
Bazilの
ターゲット
Excelが使える
ユーザーデータ
解析ツール

コンピュータが 
使えない

データ解析で  データ解析の基本的な  データ解析、機械学習 
何ができるか  知識を持っている
NLPのマスター
分からない

Bazil：利利⽤用概念念図

l  様々な⽂文章・数値データにに対応
l  少数の正解を与え学習することで、指定したカテゴリに⾃自動的に分類される
学習予測

社内情報 R&D
・R&D
・営業営業

・経済ニューススポーツ
・政治経済
・スポーツ
・芸能 etc

レディース
・メンズ商品情報
・レディースキッズ
・キッズ
・ベビー etc

Bazil Farm 学習結果分析例例(1) Tweet年年齢推定:
20代⼥女女性のTweetに対する10-19歳モデル適⽤用結果
l  10-19歳っぽい表現：⼥女女の⼦子／ameblo／かわいかっ／もう少し
l  10-19歳っぽくない表現：酒／頑張ら／出⾝身／結婚式／楽しんで

10-19歳(不不正解)モデルに反応した表現

青文字：プラスに働いた
赤文字：マイナスに働いた
35

Bazil Farm 学習結果分析例例(2) Tweet年年齢推定:
20代⼥女女性のTweetに対する20-29歳モデル適⽤用結果
l  20-‐‑‒29歳っぽい表現：結婚式／出⾝身／パン／酒／多趣味／♡／可愛い
l  20-‐‑‒29歳っぽくない表現：クリパ／下さい／かわいかっ／暮らし／部屋

20-29歳(正解)モデルに反応した表現


Bazil Farm 学習結果分析例例(3) Tweet性別推定:
⼥女女性のTweetに対する男性モデル適⽤用結果

l  男性っぽい表現：
あんまり／ずっと／⾒見見た⽬目／
サッカー／選ん／えらい／疲れ
試合／歩い／マジ／悔しい

l  男性っぽくない＝
⼥女女性っぽい表現：
私／捨て／おじさん／お菓⼦子／
塗り／途中／まま／本／♡


Bazil Farm学習結果分析例例(4): 分析結果⼀一覧

38

全体まとめ

l  ⾃自然⾔言語処理理はより⼤大規模・リアルタイムに
l  数百億〜～１兆件, 秒間数千の⾔言語資源が利利⽤用可能に

l  情報フィルタリングがより重要に
l  ⾔言語情報の⽣生成速度度は⼈人の処理理可能な量量を遥かに超えている

l  ツールを使いこなして、必要な情報を集める仕組みが必要

l  様々なビジネスの場⾯面での⾃自然⾔言語処理理の利利⽤用が進む
l  Bazil :
l  誰でも簡単に⾃自然⾔言語処理理・データ解析を⾏行行えるASPサービス

l  Jubatus（今回紹介無）:
l  ⼤大規模・リアルタイム解析を可能とするビッグデータ処理理基盤

39

bigdata2012nlp okanohara

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to bigdata2012nlp okanohara

Similar to bigdata2012nlp okanohara (20)

More from Preferred Networks

More from Preferred Networks (20)

bigdata2012nlp okanohara