知識を紡ぐための言語処理と、そのための言語資源

知識を紡ぐための言語処理と、
そのための言語資源
NEologd Casual Talks | #neologd
2016/04/26 @ LINE corp.
東北大学情報科学研究科
松田耕史 (@conditional)
1

2
東北大学自然言語処理研究室
研究スタッフ
学部
修士
博士
研究生
スタッフ
乾健太郎
教授
岡崎直観
准教授
松林優一郎
特任助教
田然
特任助教
折田奈甫
特任助教
水本智哉
特任助教
井之上直也
助教
松田耕史
研究員
0
10
20
30
40
50
2010 2011 2012 2013 2014 2015 2016
山口健史菅原真由美
高橋容市福原裕一

自然言語の解析から応用へ
（ｅ）意見情報抽出
3

言語構造解析による
一般・専門知識の自動獲得
ディープラーニングによる
意味の分散表現の学習
WD(w)∧ e(edis, Disappoint, w, s)∧ fact(edis)∧ shareholders(s)∧ but(edis, etout),
they(t)∧ e(etout, ToughOut, t, l)∧ fact(etout)∧ momentary-loss(l)
Western Digital disappointed their shareholders this season.
But they toughed out the momentary losses.
Semantic
Parsing
Observation O:
Candidate hypothesis H:
expected-fact(es)∧ expected-non-fact(es)∧
assoc(edis, es)∧ assoc(etout, es)
∧ but(edis, etout)
e(e1, Make, w, l2)∧ expected-fact(e1)
∧ loss(l2)∧ rel(l2, s)∧ assoc(edis, e1)
∧ e(edis, Disappoint, w, s)∧ fact(edis)
assoc(etout, es)∧ expected-non-fact(es)
∧ e(es, Avoid, t, l)
∧ e(etout, ToughOut, t, l)∧ fact(etout)
Input :
Axiom of discourse
Axiom of causality
Axiom of ontological relation
e(es, Avoid, s, l2)∧ expected-fact(es)∧ assoc(edis, es),
∧ e(e1, Make, w, l2)∧ expected-fact(e1)∧ loss(l2)∧ rel(l2, s)
Axiom of causality
s=t,
l=l2
Explanation of contrast relation ``but’’
・s=t: they is coref with shareholders
・l=l2: ``memontary loss’’ is coref
with inferred loss
Shareholders were expected
to avoid the loss
Shareholders were
expected to make a loss
論理仮説推論による
「行間を読む」言語理解
世界最高速の仮説推論エンジン
（判断の根拠を説明できる機械）
意味解析
グラウンディング
高度に構造化された
一般・専門知識ベース
質問
応答
情報
分析
知識
推論
シーン
理解
世界最大規模の知識獲得基盤
カ
フ
カ
変
身
カ
ミ
ュ
異
邦
人
… …
不
注
意
交
通
事
故
タ
バ
コ
病
気
… …
Xが執筆したY
Xの作品Y
…
Xが起こすY
Xが原因のY
… … … … … … …
0 0 … 32 57 …
0 0 … 23 68 …
… … … … … …
34 22 … 0 0 …
43 24 … 0 0 …
パターン（フレーズ）×関係インスタンス行列
著者
関係
因果
関係
大規模コーパス
（60億文, 600GB）
powered by:
パターン抽出行列構築
大規模なデータ
に対して高速・
高効率に動作
東北大NLPの戦略
「行間を読む」言語解析
判断の根拠を説明できる
達成事項
達成事項
達成事項
達成事項
画像との統合理解へ多様な同義・反義関係を計算
4

言語理解には「知識」が不可欠
田端酒造の『羅生門』は何賞を受賞したか？
モンドセレクション金賞
ヴェネツィア国際映画祭金獅子賞
受賞
受賞監督
知識
製造
5

知識を紡ぐ言語処理
自動処理された
言語データ
世界を記述する
知識ベース
言語データ
言語データ
知識ベース
知識ベース
言語データから
知識を獲得
知識を用いた意味解析
6

新湘南バイパスでタンクローリーが横転してて大渋
滞発生。電車で帰った方が良さそう…
①場所参照表現のグラウンディング
言語情報のグラウンディング
(知識を用いた意味付け)
地名/施設名辞書
約550万エントリ
②一般固有表現のグラウンディング
Wikipedia
グラウンディング/意味付け処理
（データベースレコードにリンク）
・コーパス開発
・グラウンディング
エンジン
・コーパス開発
・グラウンディング
エンジンの研究開発
(Wikification)
新湘南バイパスタンクローリー
意味付けの
なされていない
ソーシャルストリーム
地図にマップ
応用
知識に基づく推論
マルチリソース
統合
(ジオパーズ)
7

エンティティ・リンキング
(Wikification)
テキスト中の固有表現に、適切な実体を付与
メンションエンティティ
8

日本語 Wikification コーパス
[Jargalsaikhan et al., 2016]
日本語新聞記事340記事にWikipediaのエンティティ情報を付与
9合計 2万5千メンション：世界的に見ても大規模なコーパス
http://www.cl.ecei.tohoku.ac.jp/jawikify/

場所参照表現タグ付きコーパス
[松田ら, 2015], [Matsuda et al., 2015]
宮城県白石市，武家屋敷近くのバス停で
事故発生．通行時は気をつけてください．
白石沢端バス停
北緯38.00 東経140.62
地名辞書施設名辞書
人手で対応を付与
Web上のデータから辞書を構築
宮城県
北緯38.26 東経140.87
宮城県白石市
北緯38.00 東経140.62
武家屋敷
北緯38.00 東経140.62
事故発生．通行時は気をつけてください．
事故発生．通行時は気をつけてください．SNSからサンプリング
10

11
場所参照表現の自動解析
場所参照表現データセット(公開済)
タグ付きコーパス
地名辞書
施設名辞書
Step 2. Entity Resolution
表現が指すエンティティの曖昧性解消
Wikipediaから自動獲得した
知識に基づいた曖昧性解消
Step 1. Mention Detection
場所に対する言及を抽出する
確率モデルに基づく系列ラベリング
藤沢バイパス ROAD、辻堂 LOCATIONから茅ヶ崎
LOCATIONまで渋滞だよ
藤沢バイパス、辻堂から茅ヶ崎まで渋滞だよ

ここからは、辞書の話をします
12

拡張固有表現+Wikipediaデータ
[関根ら, 2016], [鈴木ら, 2016]
(ランゲージクラフト／ニューヨーク大学関根聡先生との共同研究)
製品 > 主義方式 > 競技
世界のありとあらゆるものを 200クラスに階層化した辞書
イベント > 催し物 > 競技会
組織 > 競技組織
地名> GPE > 市区町村施設 > GOE > 競技施設 13
http://www.languagecraft.com/enew/

名前名前_その他
人名
組織名組織名_その他
国際組織名
公園組織名
家系名
民族名民族名_その他
競技組織名競技組織名_その他
法人名法人名_その他
政治的組織名政治的組織名_その他
国籍名
プロ競技組織名
競技リーグ名
企業名 / 企業グループ名
政府組織名 / 政党名 /
内閣名 / 軍隊名
地名地名_その他
温泉名
GPE GPE_その他
地域名地域名_その他
地形名地形名_その他
天体名天体名_その他
アドレスアドレス_その他
市区町村名 / 郡名
都道府県州名 / 国名
大陸地域名
国内地域名
山地名 / 島名 / 河川名
湖沼名 / 海洋名 / 湾名
恒星 / 惑星 / 星座
郵便住所 / 電話番号
電子メイル / URL
施設名施設名_その他
施設部分名
遺跡名遺跡名_その他
GOE GOE_その他
路線名路線名_その他
古墳名
公共機関名 / 学校名 / 研究機
関名 / 取引所名 / 公園名 / 競
技施設名 / 美術博物館名 / 動
植物園名 / 遊園施設名 / 劇場
名 / 神社寺名 / 停車場名 / 電
車駅名 / 空港名 / 港名
電車路線名 / 道路名 / 運河名
航路名 / トンネル名 / 橋名
製品名製品名_その他
材料名 / 衣類名 / 貨幣名 /
医薬品名 / 武器名 / 株名 /
賞名 / 勲章名 / 罪名 / 便名
等級名 / キャラクター名 /
識別番号
乗り物名乗り物名_その他
食べ物名食べ物名_その他
芸術作品名芸術作品名_その他
出版物名出版物名_その他
主義方式名主義方式名_その他
規則名規則名_その他
称号名称号名_その他
言語名言語名_その他
単位名単位名_その他
車名 / 列車名 / 飛行機名
宇宙船名 / 船名
料理名
絵画名 / 番組名 / 映画名 /
公演名 / 音楽名 / 文学名
新聞名 / 雑誌名
文化名 / 宗教名 / 学問名 /
競技名 / 流派名 / 運動名
理論名 / 政策計画名
条約名 / 法令名
地位職業名
国語名
通貨名
イベント名
催し物名催し物名_その他
事件事故名事件事故名_その他
自然現象名自然災害名_その他
例祭名 / 競技会名
会議名
戦争名
自然災害名
地震名
自然物名自然物名_その他
元素名
化合物名
鉱物名
生物名生物名_その他
真菌類名 / 軟体動物_節足動
物名 / 昆虫類名 / 魚類名両生
類名 / 爬虫類名 / 爬虫類名 /
鳥類名 / 哺乳類名 / 植物名
生物部位名生物部位名_その他
病気名病気名_その他
動物病気名
神名
色名色名_その他
自然色名
数値表現数値表現_その他
金額表現 / 株指標 / ポイン
ト / 割合表現 / 倍数表現 /
頻度表現 / 年齢 / 学齢 / 序
数 / 順位表現 / 緯度経度
寸法表現寸法表現_その他
個数個数_その他
長さ / 面積 / 体積 / 重量 /
速度 / 密度 / 温度 / カロ
リー / 震度 / マグニチュー
ド
人数 / 組織数 / 場所数_そ
の他 / 国数 / 施設数 / 製品
数 / イベント数 / 自然物数
_その他 / 動物数 / 植物数
時間表現
時刻表現 / 日付表現 / 曜日表
現 / 時代表現 / 期間_その他 /
時刻期間 / 日数期間 / 週数期
間 / 月数期間 / 年数期間
動物部位名 / 植物部位名
14

拡張固有表現+Wikipediaデータ
[関根ら, 2016], [鈴木ら, 2016]
{ "SID": 161224,
"wikipedia_ID": "259974",
"entry": "東京都立新宿高等学校",
"clean_entry": "東京都立新宿高等学校",
"page_property": "Normal",
"redirect_to": "",
“redirect_from”: [“新宿高校”, “新宿高等学校”, “都立
新宿高等学校”, “東京都立新宿高校", "東京府立第六中学校
"],
"link_from_N": 276,
“link_anchor”: [{“count”: 1, “anchor”: “新宿高等学
校"}, {"count": 1, "anchor": "東京都立新宿高校"}],
“category_info”: [“東京都区部の公立高等学校|しんしゆ
く”, “新宿区の学校|しんしゆくこう”, “学校記事”],
“first_sentence”: “東京都立新宿高等学校(とうきょうと
りつしんじゅくこうとうがっこう)は、東京都新宿区内藤町
に所在する都立高等学校。",
“listed_in”: [“旧制中等学校・新制高校のナンバース
クール一覧”, “東京都立新宿高等学校の人物一覧", "東京都
高等学校一覧", "旧制中等教育学校の一覧 (東京都)"],
"ENE": ["学校名”],
"annotation_flag": "HAND.LC_annotator_201511”
}
拡張固有表現クラス
リダイレクト
元
リンク元
カテゴリ情報
自動付与？
手動付与？
扱いやすい JSON 形式：
他の分析にも是非！！
15
Wikipedia 日本語記事 200万記事に対してディープラーニング
で自動でラベル付与した結果を公開 (精度 : 90%くらい)

日本語 Wikipedia Entity ベクトル
[鈴木ら, 2016]
16
Wikipedia記事間のリンク構造と、リンク元の文脈を利用
一般の「単語」と Wikipedia記事を同じベクトル空間に
学習はSGNS
(word2vecと同じ)
http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
Word2vec は「単語」をベクトルに変換
「Wikipediaの記事」に対しても同じアイディアが適用できないだろうか？

日本語 Wikipedia Entity ベクトル
エンティティ同士の演算ができます
に類似したエンティティは？ヤマハ
に類似したエンティティは？ヤマハ発動機
17
北海道札幌市沖縄におけるはでいうと？

NEologd ファミリーへの期待
• 現状：継続的にメンテナンスされる言語資源
は殆ど無い！
– 毎月更新されてる！すごい！
• 現状：研究者／エンジニアは「手法」に関心
が行きがち
– 「リソース」も同程度に重要！
• 現状：「言語リソースは客観性が重要」「リ
ソース作成過程も再現性が無くては」
– 関根先生(関根の拡張固有表現階層)、佐藤さん
(Neologd) ：「個人の主観が入ったっていいじゃ
ない！」← 超同感
18

まとめ:「知識」を扱う言語処理
• エンティティ・リンキング(Wikification)
– テキスト中の固有表現に、適切な実体を付与
• 拡張固有表現 + Wikipedia データ
– Wikipedia の記事に対して、「それが何であ
るか」を自動付与
• 日本語 Wikipedia Entity ベクトル
– Wikipedia 記事一つ一つをベクトル化
19
「知識」を存分に使ったアプリを是非考えてみてください！

投げっぱなしはなんなので…
• 「知識」を使うとこんなことができそう
– ツイートを地図にマップする
– 賢い対話ボットを作る
– ユーザーの意図や好みを認識したレコメンド
– 新しい料理を提案する
– 災害から起こる危険を予測する
20

リソースの配布元
• 日本語 Wikification コーパス
– http://www.cl.ecei.tohoku.ac.jp/jawikify/
• 場所参照表現タグ付きコーパス
– http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
• 日本語 Wikipedia Entity ベクトル
– http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
• 拡張固有表現 + Wikipedia データ
– http://www.languagecraft.com/enew/
– ランゲージクラフト研究所の担当者にお問い合わ
せ下さい
21

Reference
• [Jargalsaikhan et al., 2016] Davaajav Jargalsaikhan, 岡崎直観, 松
田耕史, 乾健太郎. 日本語Wikificationコーパスの構築に向けて.
pp.793-796, 言語処理学会第22回年次大会, March 2016.
• [松田ら, 2015] 松田耕史, 佐々木彬, 岡崎直観, 乾健太郎. 場所参照表
現タグ付きコーパスの構築と評価. 情報処理学会研究報告自然言語
処理（NL）, 2015-NL-220(12), pp.1-10, January 2015.
• [Matsuda et al., 2015] Koji Matsuda, Akira Sasaki, Naoaki Okazaki
and Kentaro Inui. Annotating Geographical Entities on Microblog
Text. In Proceedings of the 9th Linguistic Annotation Workshop
(LAW IX 2015), pp.85–94, June 2015.
• [鈴木ら, 2016] 鈴木正敏, 松田耕史, 関根聡, 岡崎直観, 乾健太郎.
Wikipedia記事に対する拡張固有表現ラベルの多重付与. pp.797-800,
言語処理学会第22回年次大会, March 2016.
• [関根ら, 2016] 関根聡, 安藤まや, 松田耕史, 鈴木正敏, 乾健太郎.
「拡張固有表表現+Wikipedia」データ. pp.41-44, 言語処理学会第
22回年次大会, March 2016.
22

知識を紡ぐための言語処理と、そのための言語資源

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Koji Matsuda

Mais de Koji Matsuda (19)