SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Wikipedia	
  Templateから抽出した	
  
意味的関係インスタンスによる質問応答手法	
真嘉比 愛†,S#jn	
  De	
  Saeger‡,	
  
鳥澤 健太郎‡,呉 鍾勲‡,山本 和英†	
  
	
  
†長岡技術科学大学 電気系	
  
‡(独)	
  情報通信研究機構 ユニバーサルコミュニケーション研究所	
  
研究の目的	
•  質問応答システム「一休」を拡張	
  
網羅性・即時更新性の高いWikipedia	
  Templateに着目	
  
 →	
  Wikipedia	
  Template中の情報を知識源として利用	
  
   した質問応答システムを提案	
ゴーヤを
使った	
  
料理は?	
塩焼きそば,	
  
ゴーヤチャン
プルー,	
  
…	
Webデータ	
Web文書中から	
  
質問の回答を	
  
リアルタイム検索	
質問応答システム: 一休
Wikipedia	
  Template	
データを	
  
自動的に取得	
記事名	
 Template名	
 属性名	
 属性値	
アバター	
 Film	
 監督	
 ジェームズ・キャメロン	
アバター	
 Film	
 出演者	
 サム・ワーシントン	
記事名:アバター(映画)	
  
	
  
{{Infobox	
  Film	
  
|	
  作品名 =	
  アバター	
  
|	
  監督 =	
  [[ジェームズ・キャメロン]]	
  
|	
  脚本 =	
  [[ジェームズ・キャメロン]]	
  
|	
  出演者 =	
  サム・ワーシントン<br	
  /
>[[シガニー・ウィーバー]]<br	
  />ゾー
イ・サルダナ	
  
	
  …..	
 各種情報を	
  
自動的に抽出
用語の定義	
•  関係名	
  
– 	
  Template名と属性名の組み合わせ	
  
  e.g.	
  Film	
  出演者	
  
•  関係インスタンス	
  
– 	
  記事名+属性値	
  
  e.g.	
  アバター,サム・ワーシントン	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
   アバター,シガニー・ウィーバー	
  
 	
  
 1つの関係名は	
  
 複数の関係インスタンス	
  
 を持つ	
  
研究の目的	
•  質問文が問うている関係名を自動的に特定
することで,対応する回答を提示する質問
応答システムを提案	
  
Q:アバターに出演している人は誰?	
  
Q:	
  アバターで有名な人は誰?	
A:	
  サム・ワーシントン	
  
  	
  シガニー・ウィーバー	
Film	
  出演者	
  
→	
  回答が自明でない質問に対しても回答を返すことができる
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
オフライン処理	
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
オフライン処理	
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
関係名対応パタンの獲得	
  1/2	
•  各関係名毎に係り受け解析した6億ページの
Web文書から,換言により拡張した関係インス
タンスが共起する構文パタンを獲得	
  
	
  	
  	
  e.g.	
  アバターに出演するサム・ワーシントン	
  
    → Aに出演するB	
  (関係名:	
  Film	
  出演者)	
  
	
  	
  	
  e.g.	
  アバターでサム・ワーシントンが乗る翼竜	
  
    → AでBが乗る	
  (関係名:	
  Film	
  出演者)	
  
– 全ての関係名に対し,「Aの(属性名)はB」という構
文パタンを追加(e.g.	
  Aの出演者はB)	
  
関係名対応パタンの獲得 2/2	
•  データ過疎性を考慮し,活用の違いを無視するため
に,構文パタンから内容語のみを抽出した単語集合
を獲得	
  
	
  	
  	
  e.g.	
  Aに出演したB → 	
  A	
  B	
  出演	
  
	
  	
  	
    	
  Bが出演するA	
  	
  	
  → 	
  A	
  B	
  出演	
  
これらを	
  
「関係名対応パタン」	
  
と見なす	
回答候補は質問文中の名詞と特定の関係名を持つ語に	
  
限定される(=強い意味クラスの制限を受ける)	
  
 → 助詞を考慮しない事で大きな影響はないと予想	
e.g.	
  アバターに出演している人は誰ですか?	
  
	
  
   アバター (Film	
  出演者) 	
  	
  	
  サム・ワーシントン	
  
          (Film	
  監督)   ジェームズ・キャメロン	
回答候補
関係名対応パタンへスコアを付与	
華町
ンス
タン
マト,
本語
ス ID
1.3,
関係
して
演).更に抽出したパタン群を関係名を表現する代表的
なパタンのスコアが高くなるよう重み付けする.ここ
では情報検索における一般的な特徴単語の重み付け手
法である TF-IDF 法に則り,関係名 r におけるパタン p
の重み wgt(r, p) を式 (1) で定義する.
wgt(r, p) =
np,r
x nx,r
× log2
|R|
|Rp|
+ 1 (1)
ここで np,r は関係名 r 中の全インスタンスに対するパ
タン p の共起頻度, x nx,r は関係名 r 中のパタン総数,
|R| は関係名の総数,|Rp| はパタン p がその関係インス
タンスと共起する関係名の総数をそれぞれ表している.
例外的に導入した「A の (属性名) は B」というパタン
に対しては,関係名中で最も高かったスコアと同等の値
•  関係名を表現する関係名対応パタンのスコアが高くな
るよう重み付けを行う	
  
•  TF-­‐IDF法にのっとり,関係名rにおけるパタンpの重み
wgt(r,	
  p)を定義	
関係名中に頻繁に出現するパタンはスコアが高くなる	
多くの関係名に出現するパタンはスコアが低くなる	
ブラック・ラグーン hotel 設計 ホテルエンパイア
ハヤテのごとく! ダム 施行業者 上郷ダム
ケータイ少女 ダム 施工業者 内村ダム
人類は衰退しました ダム 施工業者 美和ダム
ホットギミック ダム 施工業者 八汐ダム
神のみぞ知るセカイ ダム 施工業者 七色ダム
レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム
演).更に抽出したパタン群を関係名を表現する代表的
なパタンのスコアが高くなるよう重み付けする.ここ
では情報検索における一般的な特徴単語の重み付け手
法である TF-IDF 法に則り,関係名 r におけるパタン p
の重み wgt(r, p) を式 (1) で定義する.
wgt(r, p) =
np,r
x nx,r
× log2
|R|
|Rp|
+ 1 (1)
ここで n は関係名 r 中の全インスタンスに対するパ
ブラック・ラグーン hotel 設計 ホテルエンパイア
ハヤテのごとく! ダム 施行業者 上郷ダム
ケータイ少女 ダム 施工業者 内村ダム
人類は衰退しました ダム 施工業者 美和ダム
ホットギミック ダム 施工業者 八汐ダム
神のみぞ知るセカイ ダム 施工業者 七色ダム
レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム
,
演).更に抽出したパタン群を関係名を表現する代表的
なパタンのスコアが高くなるよう重み付けする.ここ
では情報検索における一般的な特徴単語の重み付け手
法である TF-IDF 法に則り,関係名 r におけるパタン p
の重み wgt(r, p) を式 (1) で定義する.
wgt(r, p) =
np,r
x nx,r
× log2
|R|
|Rp|
+ 1 (1)
ここで n は関係名 r 中の全インスタンスに対するパ
・ラグーン hotel 設計 ホテルエンパイア
ごとく! ダム 施行業者 上郷ダム
少女 ダム 施工業者 内村ダム
退しました ダム 施工業者 美和ダム
ミック ダム 施工業者 八汐ダム
知るセカイ ダム 施工業者 七色ダム
タンの恋人 ダム 施工業者 天ヶ瀬ダム
抽出したパタン群を関係名を表現する代表的
のスコアが高くなるよう重み付けする.ここ
検索における一般的な特徴単語の重み付け手
F-IDF 法に則り,関係名 r におけるパタン p
(r, p) を式 (1) で定義する.
(r, p) =
np,r
x nx,r
× log2
|R|
|Rp|
+ 1 (1)
は関係名 r 中の全インスタンスに対するパ
要塞マクロス 体育館 施行 府中市立総合体育館
ク・ラグーン hotel 設計 ホテルエンパイア
のごとく! ダム 施行業者 上郷ダム
イ少女 ダム 施工業者 内村ダム
衰退しました ダム 施工業者 美和ダム
ギミック ダム 施工業者 八汐ダム
ぞ知るセカイ ダム 施工業者 七色ダム
アタンの恋人 ダム 施工業者 天ヶ瀬ダム
に抽出したパタン群を関係名を表現する代表的
のスコアが高くなるよう重み付けする.ここ
検索における一般的な特徴単語の重み付け手
TF-IDF 法に則り,関係名 r におけるパタン p
gt(r, p) を式 (1) で定義する.
gt(r, p) =
np,r
x nx,r
× log2
|R|
|Rp|
+ 1 (1)
: 関係名の総数	
: パタンpが出現する	
  
 関係名の総数	
: 関係名rにおける	
  
 パターンpの出現頻度	
: パタンpの出現頻度	
  
パタンの拡張	
•  より多くの換言表現を獲得する	
  
  → 関係名パタンの内容語をALAGINの動詞含意  	
     
	
     関係データベースで換言し,パタンを拡張	
  
	
  
	
  
	
  
	
  
※拡張で得られた関係名表現パタンには,元パタンと	
  
 同様のスコアがふられる	
  
※「A	
  B	
  (属性名)」の関係名対応パタンには,関係名中	
  
 で最も高いスコアと同じ値がふられる	
A	
  B	
  出演	
   	
   	
   	
  0.507292	
  
	
  →	
  A	
  B	
  演じる 	
   	
  0.507292	
  
	
  →	
  A	
  B	
  出る	
   	
   	
  0.507292
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
提案手法の概要	
質問: アバターに出演している人は誰?	
Film	
  出演者,A	
  B	
  出演	
  =	
  0.507292	
  
Film	
  監督,A	
  B	
  出演	
  =	
  	
  0.012332	
  
回答: サム・ワーシントン,・・・	
関係名と質問文パタンの組合せに	
  
対応するスコアを割り当てる	
スコアの高い関係名の順に	
  
対応する回答を提示	
質問文パタンの抽出	
  
回答候補(+関係名)を取得	
オフライン処理	
サム・ワーシントン (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
	
  
Aに出演しているB	
  →	
  A	
  B	
  出演	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演	
  	
  	
  	
  	
  0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.234533	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB	
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
質問応答部の処理	
  1/2	
質問文:アバターに出演している人は誰?	
トピック候補: アバター,人,誰,出演	
  
A	
  B	
  出演, A	
  B	
  演じる, A	
  B	
  出演 人	
サム・ワーシントン,…	
  	
  	
  (Film	
  出演者)	
  
ジェームズ・キャメロン (Film	
  監督)	
  
J-­‐POP	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  (album	
  ジャンル)	
  
構文パタン:Aに出演しているB,	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Aに出演している人はB,…	
  
関係名-­‐関係インスタンスDB	
関係名:	
  Film	
  出演者	
  
	
  アバター,S・ワーシントン	
  
	
  アバター,S・ウィーバー	
  
関係名:Film	
  監督	
  
アバター,J・キャメロン	
  
関係名:album	
  ジャンル	
  
人,J-­‐POP	
  
→	
  質問文パタンの集合	
→	
  回答候補集合,関係名
質問応答部の処理	
  2/2	
Film	
  出演者  A	
  B	
  出演 	
  0.507292	
  
Film	
  出演者  A	
  B	
  演じる 0.507292	
  
Film	
  監督    A	
  B	
  出演 0.103215	
  
Film	
  監督 	
  	
  	
  	
  	
  A	
  B	
  演じる	
  0.103215	
  
Film	
  出演者 =	
  0.507292+0.507292=1.014584	
  
Film	
  監督 =	
  0.103215+0.103215=0.20643	
  
関係名ごとに	
  
スコア合計値を計算	
  
回答:サム・ワーシントン,シガニー・ウィーバー,…	
スコアが高い順に回答	
  
候補集合から回答を提示	
質問中で共起した関係名,質問文パタンの組み合わせ
についてスコアを獲得	
  
関係名:	
  Film	
  出演者	
  
	
  A	
  B	
  出演 0.507292	
  
	
  A	
  B	
  演じる 	
  	
  0.507292	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ……	
  
関係名-­‐関係名対応パタンDB
実験
実験方法	
•  アノテーター3名で,特定の条件を満たす100個
の関係名に対し,関係インスタンスを3つずつ選
択し,質問回答のペアを作成	
  
–  重複した質問を削除	
  →	
  893個の質問回答ペアを作成	
  
•  893個の質問に対する提案手法の出力を以下の
2つの尺度で評価	
  
–  上位N(N=1,	
  3,	
  5,	
  10)件以内に正答を含む確率	
  
–  Mean	
  Average	
  Precision	
  (MAP)	
  
※Wikipedia上で正解とされる結果が複数あった場合,
そのうちのどれが出力されても正解と見なす	
  
•  e.g.	
  アバターに出演していたのは誰ですか?	
  
–  サム・ワーシントン,シガニー・ウィーバー	
  
比較手法	
•  提案手法の結果を2つの手法と比較	
  
– 比較手法1	
  
•  質問文中の名詞と関係インスタンスを成す語(回答候
補集合)の中から無作為に回答を提示する手法	
  
–  6億ページのWeb文書から得られたパタンの有効性を確認	
  
–  パタンを利用した関係名特定の有効性を確認	
  
– 比較手法2	
  
•  パタンの抽象化,パタンの換言を行わず,構文パタン
をそのまま用いる手法	
  
–  データ過疎性を考慮したパタン抽象化,およびパタン換言の
有効性を確認
実験結果	
比較手法1	
  (%)	
 比較手法2	
  (%)	
 提案手法	
  (%)	
精度@1	
 31.3	
 47.9	
 53.1	
精度@3	
 45.3	
 58.3	
 65.2	
精度@5	
 52.5	
 64.4	
 71.2	
精度@10	
 64.3	
 71.8	
 76.8	
MAP	
 33.9	
 52.1	
 65.7	
•  上位10件以内に正答を含む確率(精度@10):	
  76.8	
  %	
  
•  Mean	
  Average	
  Precision:	
  65.7	
  %	
  
•  比較手法1,比較手法2に対して出力精度が向上	
  
–  提案手法の有効性を確認	
  
出力結果例	
質問: タイタニックで有名な人は誰?	
  
	
  
 レオナルド・ディカプリオ (Film	
  出演者)	
  
 ケイト・ウィンスレット (Film	
  出演者)	
  
 ジェームズ・キャメロン (Film	
  監督)	
  
 ジェームズ・ホーナー (Film	
  音楽)	
  
 ジョン・ランドー (Film	
  制作)	
  
 ジョン・ランドー (Film	
  製作総指揮)	
  
 コンラッド・パフ (Film	
  編集)	
  
 リチャード・A・ハリス (Film	
  編集)	
  
 アメリカ合衆国 (Film	
  製作国)	
  
 20世紀フォックス (Film	
  配給)	
  
質問: 大林組が携わった建物は何?	
  
	
  
 名古屋市総合体育館 (体育館 施工)	
  
 大阪市中央体育館 (体育館 施工)	
  
 府立市立総合体育館 (体育館 施工)	
  
 ホテルエンパイア (hotel	
  設計)	
  
 上郷ダム (ダム 施工業者)	
  
 内村ダム (ダム 施工業者)	
  
 美和ダム (ダム 施工業者)	
  
 八汐ダム (ダム 施工業者)	
  
 七色ダム (ダム 施工業者)	
  
 天ヶ瀬ダム (ダム 施工業者)	
  
※()内は関係名	
•  提案手法の出力結果上位10件の例
まとめ	
•  質問文のパタンから質問文が問うている関係
名を特定し,対応する回答を提示する質問応
答システムを構築	
  
– Wikipedia	
  Templateを質問応答の知識源として利
用する手法を提案	
  
•  提案手法は出力結果上位10件以内に正答を
含む確率が76.8%,MAP値が65.7%
関係インスタンスの拡張	
•  以下の条件で関係インスタンスの単語を換言し,
構文パタン獲得に利用	
  
–  2文字よりも長い末尾の単語で換言	
  
•  e.g.	
  NICT,京都府精華町 → NICT,精華町	
  
–  Wikipedia上でリダイレクトされている単語で換言	
  
•  e.g.	
  ヤマト運輸,航空輸送 → クロネコヤマト,航空輸送	
  
–  高度言語情報融合フォーラム(ALAGIN)の言語資源
を用いて換言	
  
•  日本語異表記データベース中の異表記対で換言	
  
–  e.g.	
  ジャパンタイムス,新聞業 → ジャパン・タイムズ,新聞業	
  
•  基本的意味関係の事例ベース中の同義語対で換言	
  
–  e.g.	
  マイクロソフト,開発 → MS社,開発	
  
構文パタンの獲得結果	
•  10,468個の関係名に対し,2,946,385個の構
文パタンが得られた.	
– 構文パタンが得られなかった例	
  
•  関係インスタンスが疎な関係名	
  
–  e.g.	
  関係名: 天体軌道 近日点距離	
  
•  関係インスタンスの情報が記号で表現されているもの	
  
–  e.g.	
  関係名: 駅情報 社色	
  
    	
  関係インスタンス: 大阪駅,#0072bc	
  
•  Wikipedia	
  Templateの抽出誤りによるもの	
  
言い換えによる関係インスタンスの追加	
  1/2	
•  基本的意味関係の事例ベース(Ver.1.3)の同義
語群	
  
–  追加された関係インスタンス:	
  36,728	
  
•  追加されたパターン:	
  351,261	
  
•  Wikipediaリダイレクト	
  
–  追加された関係インスタンス:	
  15,648,644	
  
•  追加されたパターン:	
  567,671	
  
•  日本語異表記対データベース(Version1.1)	
  
–  追加された関係インスタンス:	
  33,329	
  
•  追加されたパターン:	
  89,960	
  
言い換えによる関係インスタンスの追加	
  2/2	
•  suffixが一致する語を関係インスタンスとして
利用	
  
– e.g.	
  NICT,京都府相楽郡精華町(企業,所在地)	
  
–  関係インスタンス:	
  NICT 精華町	
  
•  日本語異表記対データベース(Version1.1)	
  
– 人手生成対:61,555	
  
– SVMのLinear	
  kernelで学習した分類器で獲得した
異表記対:1,530,000(Precision:約95%)	
  
– SVMのPolynomial	
  kernelで学習した分類器で獲
得した異表記対:1,300,000(Precision:約95%)	
  
評価実験用データの用意	
  1/2	
•  以下の条件を満たすものは除外	
  
– 関係インスタンスの単語の大半が外国語表記に
なるもの	
  
•  e.g.	
  関係名: 大統領 各国語表記	
  
– 関係インスタンスの単語対が同じ単語になるもの	
  
•  e.g.	
  関係名: モデル モデル名	
  
    関係インスタンス: 相沢紗世,相沢紗世	
  
– 関係インスタンスの単語が一文節を超える固有
名であるもの	
  
•  e.g.	
  ハリーポッターと賢者の石,ダニエル・ラドクリフ
評価実験用データの用意	
  2/2	
•  質問作成の際に定めた条件	
  
–  質問文中に用いる関係名は一つに限定	
  
•  e.g.	
  関係名:	
  Film	
  出演者	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  関係インスタンス:	
  アバター,サム・ワーシントン	
  
  アバターに出演していて,1976年生まれの人は誰ですか?	
  
–  1つの関係名について作成される質問は全て言い回しを
変え,	
  
•  e.g.	
  アバターに出演した人は誰ですか?	
  
•  e.g.	
  アバターで演じているのは誰ですか?	
重複した質問を削除 → 893個の評価セットを作成
結果のエラー解析	
•  質問文中の情報を全て扱っていないことによる抽出ミス	
  
–  e.g.	
  男女共学で学ぶ幼稚園はどこですか	
  
•  質問パタン:	
  A	
  B	
  学ぶ	
  
•  正答を含む関係名: 日本の幼稚園 共学・別学	
  
•  抽出した関係名 : 日本の中等教育学校 共学・別学	
  
→ 回答の上位語を推定することで解決できる	
  
•  疑問詞のタイプを区別していないことによる抽出ミス	
  
–  e.g.	
  リリアン・J・ブラウンが誕生したのはいつですか.	
  
•  質問パタン:	
  A	
  B	
  誕生	
  
•  正答を含む関係名: 作家 誕生日	
  
•  抽出した関係名 : 作家 誕生地	
  
→ 回答の属性情報を考慮することで解決できる	
  
•  Web文書中にほとんど関係インスタンスが存在しないため,
有効なパタンが得られない.	
  
–  e.g.	
  関係名: 商業施設 駐車台数	
  
–  Web文書中で発見された総インスタンス数:	
  4	
  

Mais conteúdo relacionado

Destaque

2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)pe pon
 
20151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.120151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.1inadaf
 
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ Harada Kazuki
 
Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)masanori kataoka
 
Deep learning with C++ - an introduction to tiny-dnn
Deep learning with C++  - an introduction to tiny-dnnDeep learning with C++  - an introduction to tiny-dnn
Deep learning with C++ - an introduction to tiny-dnnTaiga Nomi
 
Azureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようAzureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようNaoya Kojima
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 

Destaque (11)

2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)
 
20151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.120151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.1
 
質問応答システム
質問応答システム質問応答システム
質問応答システム
 
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
 
Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)
 
Deep learning with C++ - an introduction to tiny-dnn
Deep learning with C++  - an introduction to tiny-dnnDeep learning with C++  - an introduction to tiny-dnn
Deep learning with C++ - an introduction to tiny-dnn
 
Azureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようAzureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめよう
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 

Mais de 長岡技術科学大学 自然言語処理研究室

Mais de 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Último

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Último (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

  • 1. Wikipedia  Templateから抽出した   意味的関係インスタンスによる質問応答手法 真嘉比 愛†,S#jn  De  Saeger‡,   鳥澤 健太郎‡,呉 鍾勲‡,山本 和英†     †長岡技術科学大学 電気系   ‡(独)  情報通信研究機構 ユニバーサルコミュニケーション研究所  
  • 2. 研究の目的 •  質問応答システム「一休」を拡張   網羅性・即時更新性の高いWikipedia  Templateに着目    →  Wikipedia  Template中の情報を知識源として利用      した質問応答システムを提案 ゴーヤを 使った   料理は? 塩焼きそば,   ゴーヤチャン プルー,   … Webデータ Web文書中から   質問の回答を   リアルタイム検索 質問応答システム: 一休
  • 3. Wikipedia  Template データを   自動的に取得 記事名 Template名 属性名 属性値 アバター Film 監督 ジェームズ・キャメロン アバター Film 出演者 サム・ワーシントン 記事名:アバター(映画)     {{Infobox  Film   |  作品名 =  アバター   |  監督 =  [[ジェームズ・キャメロン]]   |  脚本 =  [[ジェームズ・キャメロン]]   |  出演者 =  サム・ワーシントン<br  / >[[シガニー・ウィーバー]]<br  />ゾー イ・サルダナ    ….. 各種情報を   自動的に抽出
  • 4. 用語の定義 •  関係名   –   Template名と属性名の組み合わせ     e.g.  Film  出演者   •  関係インスタンス   –   記事名+属性値     e.g.  アバター,サム・ワーシントン                         アバター,シガニー・ウィーバー        1つの関係名は    複数の関係インスタンス    を持つ  
  • 5. 研究の目的 •  質問文が問うている関係名を自動的に特定 することで,対応する回答を提示する質問 応答システムを提案   Q:アバターに出演している人は誰?   Q:  アバターで有名な人は誰? A:  サム・ワーシントン      シガニー・ウィーバー Film  出演者   →  回答が自明でない質問に対しても回答を返すことができる
  • 6. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン   サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演  
  • 7. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 8. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 9. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 10. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 11. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 12. 関係名対応パタンの獲得  1/2 •  各関係名毎に係り受け解析した6億ページの Web文書から,換言により拡張した関係インス タンスが共起する構文パタンを獲得        e.g.  アバターに出演するサム・ワーシントン       → Aに出演するB  (関係名:  Film  出演者)        e.g.  アバターでサム・ワーシントンが乗る翼竜       → AでBが乗る  (関係名:  Film  出演者)   – 全ての関係名に対し,「Aの(属性名)はB」という構 文パタンを追加(e.g.  Aの出演者はB)  
  • 13. 関係名対応パタンの獲得 2/2 •  データ過疎性を考慮し,活用の違いを無視するため に,構文パタンから内容語のみを抽出した単語集合 を獲得        e.g.  Aに出演したB →  A  B  出演            Bが出演するA      →  A  B  出演   これらを   「関係名対応パタン」   と見なす 回答候補は質問文中の名詞と特定の関係名を持つ語に   限定される(=強い意味クラスの制限を受ける)    → 助詞を考慮しない事で大きな影響はないと予想 e.g.  アバターに出演している人は誰ですか?        アバター (Film  出演者)      サム・ワーシントン             (Film  監督)   ジェームズ・キャメロン 回答候補
  • 14. 関係名対応パタンへスコアを付与 華町 ンス タン マト, 本語 ス ID 1.3, 関係 して 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで np,r は関係名 r 中の全インスタンスに対するパ タン p の共起頻度, x nx,r は関係名 r 中のパタン総数, |R| は関係名の総数,|Rp| はパタン p がその関係インス タンスと共起する関係名の総数をそれぞれ表している. 例外的に導入した「A の (属性名) は B」というパタン に対しては,関係名中で最も高かったスコアと同等の値 •  関係名を表現する関係名対応パタンのスコアが高くな るよう重み付けを行う   •  TF-­‐IDF法にのっとり,関係名rにおけるパタンpの重み wgt(r,  p)を定義 関係名中に頻繁に出現するパタンはスコアが高くなる 多くの関係名に出現するパタンはスコアが低くなる ブラック・ラグーン hotel 設計 ホテルエンパイア ハヤテのごとく! ダム 施行業者 上郷ダム ケータイ少女 ダム 施工業者 内村ダム 人類は衰退しました ダム 施工業者 美和ダム ホットギミック ダム 施工業者 八汐ダム 神のみぞ知るセカイ ダム 施工業者 七色ダム レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで n は関係名 r 中の全インスタンスに対するパ ブラック・ラグーン hotel 設計 ホテルエンパイア ハヤテのごとく! ダム 施行業者 上郷ダム ケータイ少女 ダム 施工業者 内村ダム 人類は衰退しました ダム 施工業者 美和ダム ホットギミック ダム 施工業者 八汐ダム 神のみぞ知るセカイ ダム 施工業者 七色ダム レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム , 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで n は関係名 r 中の全インスタンスに対するパ ・ラグーン hotel 設計 ホテルエンパイア ごとく! ダム 施行業者 上郷ダム 少女 ダム 施工業者 内村ダム 退しました ダム 施工業者 美和ダム ミック ダム 施工業者 八汐ダム 知るセカイ ダム 施工業者 七色ダム タンの恋人 ダム 施工業者 天ヶ瀬ダム 抽出したパタン群を関係名を表現する代表的 のスコアが高くなるよう重み付けする.ここ 検索における一般的な特徴単語の重み付け手 F-IDF 法に則り,関係名 r におけるパタン p (r, p) を式 (1) で定義する. (r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) は関係名 r 中の全インスタンスに対するパ 要塞マクロス 体育館 施行 府中市立総合体育館 ク・ラグーン hotel 設計 ホテルエンパイア のごとく! ダム 施行業者 上郷ダム イ少女 ダム 施工業者 内村ダム 衰退しました ダム 施工業者 美和ダム ギミック ダム 施工業者 八汐ダム ぞ知るセカイ ダム 施工業者 七色ダム アタンの恋人 ダム 施工業者 天ヶ瀬ダム に抽出したパタン群を関係名を表現する代表的 のスコアが高くなるよう重み付けする.ここ 検索における一般的な特徴単語の重み付け手 TF-IDF 法に則り,関係名 r におけるパタン p gt(r, p) を式 (1) で定義する. gt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) : 関係名の総数 : パタンpが出現する    関係名の総数 : 関係名rにおける    パターンpの出現頻度 : パタンpの出現頻度  
  • 15. パタンの拡張 •  より多くの換言表現を獲得する     → 関係名パタンの内容語をALAGINの動詞含意           関係データベースで換言し,パタンを拡張           ※拡張で得られた関係名表現パタンには,元パタンと    同様のスコアがふられる   ※「A  B  (属性名)」の関係名対応パタンには,関係名中    で最も高いスコアと同じ値がふられる A  B  出演        0.507292    →  A  B  演じる    0.507292    →  A  B  出る      0.507292
  • 16. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 17. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 18. 質問応答部の処理  1/2 質問文:アバターに出演している人は誰? トピック候補: アバター,人,誰,出演   A  B  出演, A  B  演じる, A  B  出演 人 サム・ワーシントン,…      (Film  出演者)   ジェームズ・キャメロン (Film  監督)   J-­‐POP                                                                (album  ジャンル)   構文パタン:Aに出演しているB,                                              Aに出演している人はB,…   関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン    アバター,S・ウィーバー   関係名:Film  監督   アバター,J・キャメロン   関係名:album  ジャンル   人,J-­‐POP   →  質問文パタンの集合 →  回答候補集合,関係名
  • 19. 質問応答部の処理  2/2 Film  出演者  A  B  出演  0.507292   Film  出演者  A  B  演じる 0.507292   Film  監督    A  B  出演 0.103215   Film  監督          A  B  演じる  0.103215   Film  出演者 =  0.507292+0.507292=1.014584   Film  監督 =  0.103215+0.103215=0.20643   関係名ごとに   スコア合計値を計算   回答:サム・ワーシントン,シガニー・ウィーバー,… スコアが高い順に回答   候補集合から回答を提示 質問中で共起した関係名,質問文パタンの組み合わせ についてスコアを獲得   関係名:  Film  出演者    A  B  出演 0.507292    A  B  演じる    0.507292                                      ……   関係名-­‐関係名対応パタンDB
  • 21. 実験方法 •  アノテーター3名で,特定の条件を満たす100個 の関係名に対し,関係インスタンスを3つずつ選 択し,質問回答のペアを作成   –  重複した質問を削除  →  893個の質問回答ペアを作成   •  893個の質問に対する提案手法の出力を以下の 2つの尺度で評価   –  上位N(N=1,  3,  5,  10)件以内に正答を含む確率   –  Mean  Average  Precision  (MAP)   ※Wikipedia上で正解とされる結果が複数あった場合, そのうちのどれが出力されても正解と見なす   •  e.g.  アバターに出演していたのは誰ですか?   –  サム・ワーシントン,シガニー・ウィーバー  
  • 22. 比較手法 •  提案手法の結果を2つの手法と比較   – 比較手法1   •  質問文中の名詞と関係インスタンスを成す語(回答候 補集合)の中から無作為に回答を提示する手法   –  6億ページのWeb文書から得られたパタンの有効性を確認   –  パタンを利用した関係名特定の有効性を確認   – 比較手法2   •  パタンの抽象化,パタンの換言を行わず,構文パタン をそのまま用いる手法   –  データ過疎性を考慮したパタン抽象化,およびパタン換言の 有効性を確認
  • 23. 実験結果 比較手法1  (%) 比較手法2  (%) 提案手法  (%) 精度@1 31.3 47.9 53.1 精度@3 45.3 58.3 65.2 精度@5 52.5 64.4 71.2 精度@10 64.3 71.8 76.8 MAP 33.9 52.1 65.7 •  上位10件以内に正答を含む確率(精度@10):  76.8  %   •  Mean  Average  Precision:  65.7  %   •  比較手法1,比較手法2に対して出力精度が向上   –  提案手法の有効性を確認  
  • 24. 出力結果例 質問: タイタニックで有名な人は誰?      レオナルド・ディカプリオ (Film  出演者)    ケイト・ウィンスレット (Film  出演者)    ジェームズ・キャメロン (Film  監督)    ジェームズ・ホーナー (Film  音楽)    ジョン・ランドー (Film  制作)    ジョン・ランドー (Film  製作総指揮)    コンラッド・パフ (Film  編集)    リチャード・A・ハリス (Film  編集)    アメリカ合衆国 (Film  製作国)    20世紀フォックス (Film  配給)   質問: 大林組が携わった建物は何?      名古屋市総合体育館 (体育館 施工)    大阪市中央体育館 (体育館 施工)    府立市立総合体育館 (体育館 施工)    ホテルエンパイア (hotel  設計)    上郷ダム (ダム 施工業者)    内村ダム (ダム 施工業者)    美和ダム (ダム 施工業者)    八汐ダム (ダム 施工業者)    七色ダム (ダム 施工業者)    天ヶ瀬ダム (ダム 施工業者)   ※()内は関係名 •  提案手法の出力結果上位10件の例
  • 25. まとめ •  質問文のパタンから質問文が問うている関係 名を特定し,対応する回答を提示する質問応 答システムを構築   – Wikipedia  Templateを質問応答の知識源として利 用する手法を提案   •  提案手法は出力結果上位10件以内に正答を 含む確率が76.8%,MAP値が65.7%
  • 26. 関係インスタンスの拡張 •  以下の条件で関係インスタンスの単語を換言し, 構文パタン獲得に利用   –  2文字よりも長い末尾の単語で換言   •  e.g.  NICT,京都府精華町 → NICT,精華町   –  Wikipedia上でリダイレクトされている単語で換言   •  e.g.  ヤマト運輸,航空輸送 → クロネコヤマト,航空輸送   –  高度言語情報融合フォーラム(ALAGIN)の言語資源 を用いて換言   •  日本語異表記データベース中の異表記対で換言   –  e.g.  ジャパンタイムス,新聞業 → ジャパン・タイムズ,新聞業   •  基本的意味関係の事例ベース中の同義語対で換言   –  e.g.  マイクロソフト,開発 → MS社,開発  
  • 27. 構文パタンの獲得結果 •  10,468個の関係名に対し,2,946,385個の構 文パタンが得られた. – 構文パタンが得られなかった例   •  関係インスタンスが疎な関係名   –  e.g.  関係名: 天体軌道 近日点距離   •  関係インスタンスの情報が記号で表現されているもの   –  e.g.  関係名: 駅情報 社色        関係インスタンス: 大阪駅,#0072bc   •  Wikipedia  Templateの抽出誤りによるもの  
  • 28. 言い換えによる関係インスタンスの追加  1/2 •  基本的意味関係の事例ベース(Ver.1.3)の同義 語群   –  追加された関係インスタンス:  36,728   •  追加されたパターン:  351,261   •  Wikipediaリダイレクト   –  追加された関係インスタンス:  15,648,644   •  追加されたパターン:  567,671   •  日本語異表記対データベース(Version1.1)   –  追加された関係インスタンス:  33,329   •  追加されたパターン:  89,960  
  • 29. 言い換えによる関係インスタンスの追加  2/2 •  suffixが一致する語を関係インスタンスとして 利用   – e.g.  NICT,京都府相楽郡精華町(企業,所在地)   –  関係インスタンス:  NICT 精華町   •  日本語異表記対データベース(Version1.1)   – 人手生成対:61,555   – SVMのLinear  kernelで学習した分類器で獲得した 異表記対:1,530,000(Precision:約95%)   – SVMのPolynomial  kernelで学習した分類器で獲 得した異表記対:1,300,000(Precision:約95%)  
  • 30. 評価実験用データの用意  1/2 •  以下の条件を満たすものは除外   – 関係インスタンスの単語の大半が外国語表記に なるもの   •  e.g.  関係名: 大統領 各国語表記   – 関係インスタンスの単語対が同じ単語になるもの   •  e.g.  関係名: モデル モデル名       関係インスタンス: 相沢紗世,相沢紗世   – 関係インスタンスの単語が一文節を超える固有 名であるもの   •  e.g.  ハリーポッターと賢者の石,ダニエル・ラドクリフ
  • 31. 評価実験用データの用意  2/2 •  質問作成の際に定めた条件   –  質問文中に用いる関係名は一つに限定   •  e.g.  関係名:  Film  出演者                        関係インスタンス:  アバター,サム・ワーシントン     アバターに出演していて,1976年生まれの人は誰ですか?   –  1つの関係名について作成される質問は全て言い回しを 変え,   •  e.g.  アバターに出演した人は誰ですか?   •  e.g.  アバターで演じているのは誰ですか? 重複した質問を削除 → 893個の評価セットを作成
  • 32. 結果のエラー解析 •  質問文中の情報を全て扱っていないことによる抽出ミス   –  e.g.  男女共学で学ぶ幼稚園はどこですか   •  質問パタン:  A  B  学ぶ   •  正答を含む関係名: 日本の幼稚園 共学・別学   •  抽出した関係名 : 日本の中等教育学校 共学・別学   → 回答の上位語を推定することで解決できる   •  疑問詞のタイプを区別していないことによる抽出ミス   –  e.g.  リリアン・J・ブラウンが誕生したのはいつですか.   •  質問パタン:  A  B  誕生   •  正答を含む関係名: 作家 誕生日   •  抽出した関係名 : 作家 誕生地   → 回答の属性情報を考慮することで解決できる   •  Web文書中にほとんど関係インスタンスが存在しないため, 有効なパタンが得られない.   –  e.g.  関係名: 商業施設 駐車台数   –  Web文書中で発見された総インスタンス数:  4