Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...

Reading Wikipedia to Answer
Open-Domain Questions
Danqi Chen, Adam Fisch
Jason Weston and Antoine Bordes
ACL2017
読み人: 松田耕史(東北大)
図はすべて、著者のポスターから拝借しています
http://cs.stanford.edu/people/danqi/presentations/acl2017_poster.pdf
1

どういう論文？
• Wikipedia全体を情報源に用いたオープンド
メイン質問応答システムを作りました
– machine reading at scale (MRS)
– Document Retriever: 答えを含む記事をざっくり
検索する
– Document Reader: 答えを含むスパンを注意深く
探し出す(読解)
• Finding: 読解モジュールの学習において、自
動生成したパラグラフ-答えペアを使う(マル
チタスク学習)ことで性能が改善される
2

おさらい: SQuAD
[Rajpurkar+ EMNLP2016]
3
from: https://rajpurkar.github.io/mlx/qa-and-squad/

①Qを単語にバラして検索
Top n記事を取り出す
②読解モジュールでスパンを
当てる
4

文書検索モジュール
• TF-IDFで重み付けされた BoW+ bigramの
類似度
– 超シンプル(学習なし)
5

文書読解モジュール
• 入力: 文書, 出力: 答え(スパン)
6

7
さっき見てみたら・・・

読解における工夫
• SQuADだけではなく、他のデータセットか
らも学習
– CuratedTREC, WebQuestions, WikiMovies
8

Heterogeneous Supervision for
Relation Extraction: A Representation
Learning Approach
Liyuan Liu, Xiang Ren , Qi Zhu , Huan Gui,
Shi Zhi, Heng Jiand Jiawei Han
EMNLP 2017
読み人: 松田耕史(東北大)
11

どういう論文？
• 関係抽出における Distant Supervisionの一
般化:異種教師あり学習
– さまざまな種類の教師付け(ラベリング関数)
を統合して扱う仕組み
• 本論文:
– 「ラベリング関数」と「事例」の相性をモデ
ル化
– あるラベリング関数の信頼性が高い事例の集
合(Proficient subset)を近くに埋め込む
12

13from: https://www.slideshare.net/naoakiokazaki/modeling-missing-data-in-distant-supervision-for-information-
extraction-ritter-tacl-2013

Heterogeneous Supervision
異種教師あり学習(?)
• Distant Supervisionを含めた様々な「教師
信号」を統合的に扱う枠組み
• 鍵となる概念: ラベリング関数
1. 知識ベースのエントリにマッチしているか
を返す
2. エキスパートが書いた表層パターン
3. ドメイン知識
4. 他の分類器の予測結果 etc…
14

ラベリング関数の例
関数によってエラー率やカバレッジにばらつきが存在する
互いにコンフリクトする場合も存在する
たがいに相関をもっているような場合もある
（既存のルールとほとんど意味が同じルールを重複して書いてしまう）
⇒ラベリング関数の信頼性をモデル化 / Denoising
from: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
15

異種教師あり学習の例:
Data Programming [Ratner+, NIPS2016]
from: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
16

17
専門家を招いて８時間のハッカソンをしたら
F値が10ポイント上がった [Ratner+, NIPS2016]

本論文: 異種教師あり学習に対する
表現学習によるアプローチ
18
①文脈を埋め込む
②ラベリング関数を適用
③「真のラベル」を推定
④「真のラベル」から関係抽出器を訓練
④ ③①
Joint で訓練:
SGNS
Softmax

③ノイジーなアノテーションから
真のラベルを推定
• ラベリング関数と事例の「相性」を考える
– ある事例において信頼できるラベリング関数は、
似た事例でも信頼できるだろう
– あるラベリング関数 iが信頼できる事例の集合
• Proficient subset : Si へのメンバシップ確率をモデル
19
文脈ラベリング
結果

20
全ラベルを利用
文脈非依存な
Truth Dicovery
提案: 文脈依存
Truth Discovery

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...

Semelhante a Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more... (20)

Mais de Koji Matsuda

Mais de Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...