Unsupervised multilingual word embeddings

Unsupervised Multilingual Word Embeddings
Xilun Chen, Claire Cardie
EMNLP 2018
紹介者：本間広樹

要約
• 多言語単語埋め込み（MWEｓ）は複数（3つ以上）の言語から
単一の分散ベクトル空間内に単語を表すもの
• 教師なしMWE（UMWE）は言語横断的な教師無しでMWEを
得る
• しかし従来のUMWEは2言語単語埋め込み（UBWEs）に依存
• この欠点に対応するため、全ての言語対の間の関係を直接
利用する、MWEを学習するための完全に教師なしのフレー
ムワークを提案
• 多言語単語翻訳と言語横断単語類似性において性能向上

要約
得る
従来の教師ありに比べて大きな利点
低リソース言語に新しい可能性！

要約
得る
問題点
これだと多くの言語に存在する相互依存性
を活用することができていない！

要約
得る
しかも言語横断リソースで学習された
教師ありのアプローチに勝った！

はじめに
単語分散表現 Supervised Unsupervised
Bilingual
Mikolov ら（2013）
Zou ら（2013）
︙
Zhang ら（2017）
Conneau ら（2017）
Artetxe ら（2017; 2018）
Multilingual
Ammar ら（2016）
Duong ら（2017）
この研究！

モデル
―――――――――― ゴール ――――――――――
言語横断の教師無しで 𝑵言語の多言語埋め込みを得る
――――――――――――――――――――――――――――――
ℒ : 言語集合, ℒ = 𝑁
𝑙 ∈ ℒ : 各言語，語彙 𝒱𝑙
ℰ𝑙 : 𝑑 次元の単言語単語埋め込み，サイズ 𝒱𝑙 × 𝑑
ℰ ⊢ 𝒮 : ℰ が単語埋め込み空間 𝒮 に含まれる
ℳ𝑙 : 各言語 𝑙 に対するエンコーダ（𝒯: ℳ𝑙(ℰ𝑙) ⊢ 𝒯）
ℳ𝑙
−1
: 各言語 𝑙 に対するデコーダ（𝒯から𝒮𝑙に戻す）

モデル
ℳ𝑙 を直交行列にする
ℳ𝑙
−1
= ℳ𝑙
T
埋め込みベクトルをベクトルと行列の掛け算で算出可能
ターゲット空間に特定の言語の埋め込み空間にする
学習する写像が 𝑁 − 1 個ですむ
Multilingual Adversarial Training と Multilingual Pseudo-
Supervised Refinement の２つのコンポーネントを提案

Multilingual Adversarial Training（MAT）

Multilingual Pseudo-Supervised Refinement（MPSR）
MATから得られた
埋め込みを反復
的な手法で改善
はℳ𝑖ℰ𝑖とℳ𝑗ℰ𝑗の
間の頻度の高い
15kの単語間の最
近隣から構築
直交化は↓
𝛽 = 0.001

Cross-Lingual Similarity Scaling (CSLS)
一般的なユークリッド距離とかcos類似度だとハブが出現する
問題に当たる
→ 解決策の１つのCSLSという代替の距離メトリックを使う
計算方法は➢
NY(x)はYの要素yのベクトル空間内のxのｎ最近傍の集合

Unsupervised Multilingual Validation
• 教師無しでモデル選択を行うには、検証データを使えないと
き、バイリンガルデータに依存しない代理の検証基準が必要
• 𝑝𝑖𝑗 ： probability simplex ここでは 𝑝𝑖𝑗 =
1
𝑁 𝑁−1
・mean_csls(): 最も高頻度の10kの単語とそれらの翻訳の
平均CSLS類似度（Lampleら、2018）

実験
２つのベンチマークタスクで検証
Wikipediaコーパスで事前学習した300次元の fastText （単一言語）を使用
Multilingual Word Translation
SemEval2017 Cross-Lingual Word Similarity

実験 - Multilingual Word Translation
６つの言語
train:5k, test:1.5k
Pivot：特定の単語
（英語）を経由した
BWEの組合わせ
Direct：言語対ご
とのBWE

実験 - Cross-Lingual Word Similarity
5つの言語（英語、ドイツ語、スペイン語、イタリア語、ペルシア語）
Luminoso, NASARI：SemEval-2017におけるtop-2
EuroparlとOpenSubtitles2016 パラレルコーパスにアクセス可能

結論
• 完全に教師なしのMWEを学習するモデルを提案した
• 高品質の教師なしBWEはすでにあるが、多言語設定はない
• 今までの研究は教師なしBWEモデルにのみ依存している
• それだと言語間の相互依存性を十分に活用できていない
• そこで、計算コスト増加させることなくすべての言語対の関係を明示的
に利用するMAT+MPSR法を提案
• 多言語単語翻訳と言語間類似性タスクで既存の教師なしモ
デルを超えた
• 展望として、他のBWEフレームワークと連携する拡張を検討

Unsupervised multilingual word embeddings

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de 広樹本間

Mais de 広樹本間 (8)

Último

Último (11)