SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
Paraphrasing 4 Microblog Normalization
長岡技術科学大学 自然言語処理研究室
高橋寛治
Ling, W., Dyer, C., Black, A. W., & Trancoso, I. (2013).
Paraphrasing 4 Microblog Normalization. Proceedings of the
2013 Conference on Empirical Methods in Natural Language
Processing, (October), 73–84.
文献紹介 2016年7月8日
概要
•マイクロブログのテキストは崩れており解析しず
らい
•対訳コーパスから換言対を取得する要領で、表
記・語彙を正規化する規則を獲得
•英中翻訳において、正規化した英語により翻訳の
向上
Paraphrasing	4	Microblog	Normalization2016/7/8
はじめに
•Twitter, Weibo, Facebookなどマイクロブログ
を対象とした研究が増えている
•既存の解析器は崩れた言語に対応しない
•社会言語学など表記に着目する研究を行わない限
りテキスト正規化は必須
•対訳コーパスからのピポッド法による換言対抽出
を利用する
Paraphrasing	4	Microblog	Normalization2016/7/8
なぜ正規化に取り組むか?
• 見ての通り、砕けた文を取り扱えない
• 略語
Øyea, inkw -> yes, I know
Øimma -> I am going to (伊马(yi ma)と認識される)
Paraphrasing	4	Microblog	Normalization2016/7/8
アイデア
•教師有り学習問題として扱いたい
•しかし手製のコーパス作成は大変だから自動で
•μtopia parallel corpus(対訳が含まれる投稿か
ら作成したコーパス)を翻訳することで、正規化
候補を獲得
Paraphrasing	4	Microblog	Normalization2016/7/8
アイデア
Paraphrasing	4	Microblog	Normalization
Microtopia
コーパス
機械翻訳の
結果
2016/7/8
機械翻訳の傾向
•機械翻訳の傾向
Ø<e, f>: eが異表記を含んでいても、fは正規形にな
りやすい
•表記ゆれ以外
Ø言語依存
Ø英語だとiknw, imma
Paraphrasing	4	Microblog	Normalization2016/7/8
対訳コーパス
•著者らが以前の研究で作成したコーパス
Ø英語と多言語の対訳コーパス
Øコーパスの整形は省略
Ø 𝑝" "#$
%
u英語の投稿 o
un 個の換言
(機械翻訳システム)
Paraphrasing	4	Microblog	Normalization2016/7/8
正規化のモデル
• 文から句へ
• アラインメント(Dyer et al.,2013のfast alignment)
Ø点線は翻訳、実線は正規化
• 句のテンプレートによる抽出
Øgo 4, go for
Paraphrasing	4	Microblog	Normalization2016/7/8
句の抽出
• 句の素性
Ø句のペア<o,n>
Ø𝑓 𝑛|𝑜 =
+ %,-
+ -
ØC(n,o)はoが正規化された回数
ØC(o)はoが抽出された句のペアに出現する回数
Paraphrasing	4	Microblog	Normalization2016/7/8
句から文字
•cat, catt, kat, caaat
•句単位で処理
Ø<start>と<end>
Ø文字はスペース区切り
•ルールでもいくつか処
理
Paraphrasing	4	Microblog	Normalization2016/7/8
正規化デコーダー
•フレーズベースモデルは文脈が使える
Ø4はそのままだが、4everなら forever
•文字ベースと句ベースをどうやって同時に扱うか
ØN-bestの正規化候補を取得
Ø異表記は普通の表記よりも低頻度と仮定した手法
ØBrownクラスタリングでクラスタリング
Paraphrasing	4	Microblog	Normalization2016/7/8
単言語での異表記の学習
•Brown clusterを利用(k=3000)
Ø○:never, neverrrr, neva, nevahhh
Ø×:gladly, glady
•有効比巡回グラフ(DAG)
Øwi→wjに線を追加
uwi->wjにデコードされる
uかつ、wiよりwjが高頻度
Paraphrasing	4	Microblog	Normalization2016/7/8
実験
• 英中マイクロブログ
• 各正規化を比較
• Mosesで訓練
Ø並び替えはMSD reordering model
Ø言語モデルは5-gram
ØMERTでチューニング
• BLEU-4で評価
Øいくつかの翻訳機でも評価
Paraphrasing	4	Microblog	Normalization2016/7/8
結果
• 文字ベースのモデルが性能向上に寄与
• Mosesで下がっているのは、Weiboによるもの
• 例
ØLookinをlooking, nutzをnutsなど
Øpeaceofをpeace of
Paraphrasing	4	Microblog	Normalization2016/7/8
まとめ
•対訳コーパスを元にした換言によるマイクロブロ
グの正規化
•フレーズレベルと文字レベルでモデルを学習
•結果、様々な翻訳システムで性能が向上
Paraphrasing	4	Microblog	Normalization2016/7/8

Mais conteúdo relacionado

Semelhante a Paraphrasing 4 Microblog Normalization

科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
Tefl20130507 4key
Tefl20130507 4keyTefl20130507 4key
Tefl20130507 4keyyouwatari
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】Yuki Arase
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 
0903はじめに
0903はじめに0903はじめに
0903はじめにsympo2011
 

Semelhante a Paraphrasing 4 Microblog Normalization (7)

科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
 
Tefl20130507 4key
Tefl20130507 4keyTefl20130507 4key
Tefl20130507 4key
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
0903はじめに
0903はじめに0903はじめに
0903はじめに
 

Paraphrasing 4 Microblog Normalization