Mais conteúdo relacionado
Unsupervised multilingual word embeddings
- 7. モデル
―――――――――― ゴール ――――――――――
言語横断の 教師無し で 𝑵言語の多言語埋め込み を得る
――――――――――――――――――――――――――――――
ℒ : 言語集合, ℒ = 𝑁
𝑙 ∈ ℒ : 各言語,語彙 𝒱𝑙
ℰ𝑙 : 𝑑 次元の単言語単語埋め込み,サイズ 𝒱𝑙 × 𝑑
ℰ ⊢ 𝒮 : ℰ が 単語埋め込み空間 𝒮 に含まれる
ℳ𝑙 : 各言語 𝑙 に対するエンコーダ(𝒯: ℳ𝑙(ℰ𝑙) ⊢ 𝒯)
ℳ𝑙
−1
: 各言語 𝑙 に対するデコーダ(𝒯から𝒮𝑙に戻す)
- 12. Unsupervised Multilingual Validation
• 教師無しでモデル選択を行うには、検証データを使えないと
き、バイリンガルデータに依存しない代理の検証基準が必要
• 𝑝𝑖𝑗 : probability simplex ここでは 𝑝𝑖𝑗 =
1
𝑁 𝑁−1
・mean_csls(): 最も高頻度の10kの単語とそれらの翻訳の
平均CSLS類似度(Lampleら、2018)
- 14. 実験 - Multilingual Word Translation
6つの言語
train:5k, test:1.5k
Pivot:特定の単語
(英語)を経由した
BWEの組合わせ
Direct:言語対ご
とのBWE
- 15. 実験 - Cross-Lingual Word Similarity
5つの言語(英語、ドイツ語、スペイン語、イタリア語、ペルシア語)
Luminoso, NASARI:SemEval-2017におけるtop-2
EuroparlとOpenSubtitles2016 パラレルコーパスにアクセス可能