SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
ACL読み会2015-­‐09-­‐18	
  
	
  
Domain-­‐Specific	
  Paraphrase	
  Extrac5on	
  
	
  	
  
Ellie	
  Pavlick,	
  Juri	
  Ganitkevitch,	
  
Tsz	
  Ping	
  Chan,	
  Xuchen	
  Yao,	
  
Benjamin	
  Van	
  Durme,	
  Chris	
  Callison-­‐Burch	
  	
  
プレゼンテーション	
  
関沢祐樹	
2015/09/18	
 1
概要	
•  言い換えの正当性	
  
•  言い換え適用先のテキストのドメインによる	
  
•  提案手法	
  
•  二言語間のピボッティングによる言い換えを用い
訓練データを言い換え先のドメインに偏らせる	
  
•  適合率ー再現率曲線の曲線下面積が	
  
ベースラインの10%だけ増加	
  
2015/09/18	
 2
はじめに	
•  言い換えが適切かどうかの判断は難しい	
  
•  言い換え後の文法が正しいかどうか	
  
•  単語の意味が正しいかどうか	
  
•  言い換えでのドメインの影響は不明	
  
•  言い換えの信頼性はドメインにより異なるのでは?	
  
•  特定のドメインでのみ言い換えできるものもある	
2015/09/18	
 3
言い換えの抽出	
•  二言語間でのピボッティング	
  
•  e1,	
  e2	
  :	
  英語のフレーズ	
  ,	
  f	
  :	
  他言語のフレーズ	
  
•  e1	
  à	
  f,	
  e2	
  à	
  f	
  ならば,	
  e1	
  と	
  e2	
  は似た意味である	
  
•  e1,	
  e2	
  は言い換えペアであると言える	
  
•  言い換えらしさ	
  
•  様々な他言語、翻訳確率を使用	
  
•  多義語で、頻度が少ないと確率が低くなる	
  
2015/09/18	
 4
ドメイン特有のサンプル	
•  2つの言語モデルからなる大きなコーパスの	
  
                各文に重みを付与	
  
  一般ドメイン ターゲット分野テキストのサンプル	
  
	
  
•  ドメイン特有らしさ	
  :	
  	
  
•  si	
  :	
  文	
  
•  Htgt	
  :	
  ターゲットドメイン言語モデルでのクロスエントロピー	
  
•  Hgen	
  :	
  一般ドメイン言語モデルでのクロスエントロピー	
  
•  σi	
  が小さいほど、ドメイン依存な文と言える	
  
	
  
2015/09/18	
 5
ドメイン特有の言い換え	
•  ドメイン特有らしさの計算	
  
– 単一言語の専門的ドメインのサンプルが必要	
  
•  言い換え抽出ではなく、ターゲットドメイン言語の	
  
nグラムモデルの訓練に使用する	
  
– σi	
  を計算し、より近い文のペア à	
  リストの先頭	
  
•  ソートの方法	
  
1.  σi	
  の閾値を決め、残ったものをターゲットドメイン	
  
2.  訓練サンプルの重みをσi	
  に比例したものにする	
  
2015/09/18	
 6
実験設定	
•  ターゲットドメイン	
  :	
  生物学(biology)	
  
•  単一言語ドメインデータ	
  
•  GENIA	
  database	
  ,	
  生物学の教科書の序論	
  
•  一般ドメイン	
  :	
  Wikipediaのデータ	
  
•  二言語間ドメインデータ	
  
•  仏ー英、10億単語のパラレルコーパス	
  
•  言語モデル	
  :	
  5-­‐gram	
  
2015/09/18	
 7
実験評価	
•  評価指標	
  :	
  適合率と再現率	
  
•  評価数	
  
•  生物学ドメイン	
  :	
  15,000文、一般ドメイン	
  :	
  10,000文	
  
•  評価方法	
  :	
  言い換えが適切かどうかの2値評価	
  
5人で評価し、多数決	
  
ある文のフレーズに対して、	
  
その言い換え候補のリストがある	
  
2015/09/18	
 8
実験手法	
•  ベースライン(General)	
  
– パラレルコーパスそのまま使用	
  
目標ドメインに対する重み付けなし	
  
•  サブサンプリング(M-­‐L,T=τ)	
  
– パラレルコーパスをソート、上位τ語を使用	
  
•  M-­‐L	
  Change	
  Point	
  	
  
– σi	
  の正負が変化する部分を閾値(τ=20Mに相当)	
  
•  M-­‐L	
  Weighted	
  	
  
– 言い換えスコアをσi	
  に比例させる	
  
2015/09/18	
 9
実験結果(biology)	
10	
2015/09/18
実験結果(biology)	
•  ベースラインよりも良くなっている	
  
•  再現率が減少	
  
•  サブサンプリングで	
  
全単語は出現しない	
  
•  τが大きい	
  
à	
  再現率上昇	
  
11	
2015/09/18
生物ドメインと一般ドメインの合体	
•  これまでの方法	
  :	
  テキストの一部分を使用	
  
•  全部は考慮していない à	
  再現率に限界あり	
  
•  部分サンプリングしたモデルと一般ドメインを
ロジスティック回帰によって合体	
  
•  p(e2|e1)	
  を見積もることができる	
  
2015/09/18	
 12
生物ドメインと一般ドメインの合体	
2015/09/18	
 13
生物ドメインと一般ドメインの合体	
2015/09/18	
 14
おわりに	
•  本研究が行ったこと	
  
•  ドメイン依存の言い換え抽出	
  
•  機械翻訳の方法で抽出	
  
•  目標ドメインに近いものを使用	
  
•  実験結果	
  
•  ベースラインと比較してP	
  –	
  R曲線下面積が10%向上	
2015/09/18	
 15

Mais conteúdo relacionado

Mais de sekizawayuuki

Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15sekizawayuuki
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26sekizawayuuki
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...sekizawayuuki
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09sekizawayuuki
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6sekizawayuuki
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5sekizawayuuki
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4sekizawayuuki
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3sekizawayuuki
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2sekizawayuuki
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24sekizawayuuki
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17sekizawayuuki
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13sekizawayuuki
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03sekizawayuuki
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26sekizawayuuki
 
Naacl読み会@2015 06-24
Naacl読み会@2015 06-24Naacl読み会@2015 06-24
Naacl読み会@2015 06-24sekizawayuuki
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12sekizawayuuki
 
読解支援@2015 06-09
読解支援@2015 06-09読解支援@2015 06-09
読解支援@2015 06-09sekizawayuuki
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 

Mais de sekizawayuuki (20)

Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
 
Nlp2016 sekizawa
Nlp2016 sekizawaNlp2016 sekizawa
Nlp2016 sekizawa
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
Naacl読み会@2015 06-24
Naacl読み会@2015 06-24Naacl読み会@2015 06-24
Naacl読み会@2015 06-24
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
 
読解支援@2015 06-09
読解支援@2015 06-09読解支援@2015 06-09
読解支援@2015 06-09
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 

Último

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 

Último (6)

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 

Acl読み会@2015 09-18