SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
Word Tour: One-dimensional Word Embeddings
via the Traveling Salesman Problem
佐藤竜馬
NAACL 2022 short paper
2 / 21 KYOTO UNIVERSITY
京大で最適輸送・GNN・推薦システムを研究しています
佐藤 竜馬(さとう りょうま)
京都大学 鹿島・山田研究室 博士 2 年

研究分野:
グラフニューラルネットワーク
 Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.
 Random Features Strengthen Graph Neural Networks. SDM 2021.
 Constant Time Graph Neural Networks. TKDD 2022.
最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)
 Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.
 Re-evaluating Word Mover’s Distance. ICML 2022.
 Supervised Tree-Wasserstein Distance. ICML 2021. (共著)
 Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著)
推薦システム・情報検索システム
 Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without
Log Data? SDM 2022.
 Retrieving Black-box Optimal Images from External Databases. WSDM 2022.
 Enumerating Fair Packages for Group Recommendations. WSDM 2022.
3 / 21 KYOTO UNIVERSITY
単語埋め込みは重い・遅い・解釈できない

単語埋め込みは重い・遅い・解釈できない

メモリを食う: 40 万語 x 300 次元 = 1 GB
大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い
スマホに 1 GB は辛い

時間を食う: 1 比較に d = 300 演算

解釈しづらい:
300 次元の点は目に見えない
t-SNE って何を見せられている...?
敵対的摂動を作りました: v猫
+ δ ← これは何...?
4 / 21 KYOTO UNIVERSITY
高次元離散性ゆえの扱いづらさ

敵対的摂動などの文脈でも離散性が問題視されている
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey.
HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018.
Deep Text Classification Can be Fooled. IJCAI 2018.
5 / 21 KYOTO UNIVERSITY
画像は 1 次元連続 ← これを取り入れればいいのでは

じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!?
dog
cat
bird
dogs
テキストの場合
→
単語は高次元・離散 扱いづらい
画像の場合
ピクセルは 1 次元・連続 → 扱いやすい
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
6 / 21 KYOTO UNIVERSITY
目指すもの: 1 次元の単語埋め込み

目指すもの(理想形)

軽量 & 高速: メモリも演算も 1 次元

解釈: 1 次元は目に見える! 摂動しても解釈できる!

実際そう都合良くは行きませんが、やってみると出来ることもありました、
というのが今回のお話
1 次元の単語埋め込み
7 / 21 KYOTO UNIVERSITY
関連研究: 次元削減はあるが一定以上は難しそう

既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、
せいぜい数十次元止まり
それ以上次元を下げると大幅に精度が下がる
Evaluating Memory Efficiency and
Robustness of Word Embeddings. ECIR 2016.
削減なし 9 割削減
誤差
誤差大幅増
Poincaré Embeddings for Learning
Hierarchical Representations. NeurIPS 2017.
ポアンカレ埋め込みだと 5 次元までならなんとか...
限界: 特定のタスクと教師データのみ & 1 次元は無理
希望の光ではある
8 / 21 KYOTO UNIVERSITY
冷静に考えて 1 次元は無理

冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理
1 次元だと隣り合う単語は 2 個だけ
→ 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない
robot - man + woman = ?
→ 疎な埋め込みだと対応する単語はありません、と言える
→ 1 次元だと対応する単語が何か出てきてしまう

ポアンカレ埋め込みの教訓:
全ての側面を保存しなくて良いなら低次元も可能かもしれない
ポアンカレ埋め込みの場合は階層性を保存した
9 / 21 KYOTO UNIVERSITY
健全性と完全性に分け、健全性のみを考える

単語埋め込みに満たしていて欲しい性質
健全性: 近くに埋め込まれた単語の意味は近い
完全性: 意味の近い単語は近くに埋め込まれる
 

埋め込みを信じて近傍の単語を取ってきたとき
健全 → 正解だけが取ってこられる(取り残しの可能性あり)
完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)
 

完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す
健全性だけでも単語検索・文書検索などで使えうる
この論文で提案する概念
10 / 21 KYOTO UNIVERSITY
問題設定: 高次元埋め込み → 一次元埋め込みを計算

Input:
学習済みの高次元単語埋め込み {xv
}
実験では 300 次元 GloVe
(or 学習したい対象のコーパス)

Output:
一次元の健全な埋め込み σ: V → [n](全単射)

一次元埋め込みにおいては座標は考えず並び順のみを考える
σ(v): 単語 v の位置 ∈ {1, 2, ..., n}
σ-1
(i): i 番目の単語

σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
11 / 21 KYOTO UNIVERSITY
隣り合う単語の距離の総和が近くなるように定式化

健全性: 近くに埋め込まれた単語の意味は近い

定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い
補足:
σ-1
(n+1) = σ-1
(1) とする
つまり、パスではなく環っかで定式化
(端の単語を特別視したくないため)
コストは元の単語埋め込みでの距離、以外でも
コーパスが手元にある場合は共起数最大化なども可
12 / 21 KYOTO UNIVERSITY
提案法の設定は巡回セールスマン問題

この定式化は巡回セールスマン問題
単語 = 都市   一次元埋め込み = 巡回ルート

巡回セールスマン問題は NP-hard → 解けない...?

最近のソルバは超高性能なので解ける!
最近のソルバは n = 100,000 頂点の
巡回セールスマン問題を厳密に解ける
13 / 21 KYOTO UNIVERSITY
提案法は巡回セールスマン問題を解いて、終わり

提案法 WordTour
Input: 高次元単語埋め込み {xv
}
Output: 一次元単語埋め込み σ
擬似コード
1. Return LKH({xv
})
14 KYOTO UNIVERSITY
実験
15 / 21 KYOTO UNIVERSITY
LKH でほぼ最適な解が得られた

実際に 40,000 単語からなる GloVe 点群を LKH に投げると...

得られた解の目的関数値(総距離): 236882.3
得られた下界 : 236300.9

LKH は下界(最適解がそれより短くならないことの証拠)
を出してくれる

236882.3 / 236300.9 = 1.003
→ ほぼ最適解が得られている

結果得られた埋め込みファイル容量: 312KB
→ スマホでも余裕
得られた解
下界
16 / 21 KYOTO UNIVERSITY
ベースラインは特定の方向に埋め込みを射影

ベースライン
 RandProj: 高次元埋め込み {xv
} を適当な方向 d に射影
 PCA1: 高次元埋め込み {xv
} を最大 PCA 方向 d に射影
 PCA4: 高次元埋め込み {xv
} を第四 PCA 方向 d に射影
単語埋め込みの最大 PCA 方向は無意味という既存研究があるため

ある側面 d を取り出していると考えられる

入力単語埋め込みの性質がいい
(e.g., disentangled) なら良い
順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が
特定の意味を表していることが知られている
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
17 / 21 KYOTO UNIVERSITY
定性的な結果 1: 提案法の埋め込み滑らかに変化

得られた一次元埋め込みから cat と concept の周りを表示
18 / 21 KYOTO UNIVERSITY
定性的な結果 2: 提案法の埋め込み滑らかに変化

提案埋め込みからランダムな区間を切り出したもの:

5 行目を見ると序数詞が教師なしで取り出せていることが分かる
GloVe にこういう序数詞の構造があることが分かる
→ 一次元にしてみた(思わぬ)恩恵

2 行目は急カーブする例 (weapon → arm → leg)
5th 6th
7th
8th
9th
10th
11th
12th
13th
14th
11th
15th
理想
現実
19 / 21 KYOTO UNIVERSITY
文書分類: 提案法を使って bag-of-words をぼかす

文書分類の定量評価

ナイーブな比較は bag-of-words
→ 単語の類似度は考慮できない

単語の類似度を組み込んだ手法: word mover’s distance ↑
→ 遅い + メモリ容量も大きい

提案法:
bag-of-words を WortTour 上で
ちょっとぼかして普通に L1 距離ではかる
{dog} vs {dogs} は BoW では
違う集合だが、ぼかすとだいたい同じだと結論できる
健全性のおかげで成立
From Word Embeddings to Document Distances. ICML 2015.
20 / 21 KYOTO UNIVERSITY
文書分類: 提案法は速度とメモリと精度のバランス良

BoW は精度が悪い

WMD は精度がいいが遅い

他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い

WordTour 上では精度がそれなりに良い + 高速 + 省メモリ
分類誤差
lower is better
21 / 21 KYOTO UNIVERSITY
まとめ: 健全な 1 次元単語埋め込みを提案

高次元単語埋め込みを巡回セールスマン問題で 1 次元に

完全性はないが健全性はある

高速 + 省メモリ + 解釈性

ハイレベルな教訓

特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン

巡回セールスマン問題は何かを滑らかに並べる良い手段

NP-hard でもソルバを探して見ると良いことがあるかも
健全性 完全性 一次元
コード・4万語埋め込みデータ・論文情報↑
https://github.com/joisino/wordtour

Mais conteúdo relacionado

Mais procurados

最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 

Mais procurados (20)

最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
BERTology のススメ
BERTology のススメBERTology のススメ
BERTology のススメ
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 

Mais de joisino

キャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズムキャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズムjoisino
 
Metric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN GraphsMetric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN Graphsjoisino
 
Towards Principled User-side Recommender Systems
Towards Principled User-side Recommender SystemsTowards Principled User-side Recommender Systems
Towards Principled User-side Recommender Systemsjoisino
 
CLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search SystemCLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search Systemjoisino
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...joisino
 
An Introduction to Spectral Graph Theory
An Introduction to Spectral Graph TheoryAn Introduction to Spectral Graph Theory
An Introduction to Spectral Graph Theoryjoisino
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システムjoisino
 
Random Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural NetworksRandom Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural Networksjoisino
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Treejoisino
 
死にたくない
死にたくない死にたくない
死にたくないjoisino
 

Mais de joisino (10)

キャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズムキャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズム
 
Metric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN GraphsMetric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN Graphs
 
Towards Principled User-side Recommender Systems
Towards Principled User-side Recommender SystemsTowards Principled User-side Recommender Systems
Towards Principled User-side Recommender Systems
 
CLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search SystemCLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search System
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
 
An Introduction to Spectral Graph Theory
An Introduction to Spectral Graph TheoryAn Introduction to Spectral Graph Theory
An Introduction to Spectral Graph Theory
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
 
Random Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural NetworksRandom Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural Networks
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Tree
 
死にたくない
死にたくない死にたくない
死にたくない
 

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)

  • 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem 佐藤竜馬 NAACL 2022 short paper
  • 2. 2 / 21 KYOTO UNIVERSITY 京大で最適輸送・GNN・推薦システムを研究しています 佐藤 竜馬(さとう りょうま) 京都大学 鹿島・山田研究室 博士 2 年  研究分野: グラフニューラルネットワーク  Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.  Random Features Strengthen Graph Neural Networks. SDM 2021.  Constant Time Graph Neural Networks. TKDD 2022. 最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)  Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.  Re-evaluating Word Mover’s Distance. ICML 2022.  Supervised Tree-Wasserstein Distance. ICML 2021. (共著)  Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著) 推薦システム・情報検索システム  Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? SDM 2022.  Retrieving Black-box Optimal Images from External Databases. WSDM 2022.  Enumerating Fair Packages for Group Recommendations. WSDM 2022.
  • 3. 3 / 21 KYOTO UNIVERSITY 単語埋め込みは重い・遅い・解釈できない  単語埋め込みは重い・遅い・解釈できない  メモリを食う: 40 万語 x 300 次元 = 1 GB 大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い スマホに 1 GB は辛い  時間を食う: 1 比較に d = 300 演算  解釈しづらい: 300 次元の点は目に見えない t-SNE って何を見せられている...? 敵対的摂動を作りました: v猫 + δ ← これは何...?
  • 4. 4 / 21 KYOTO UNIVERSITY 高次元離散性ゆえの扱いづらさ  敵対的摂動などの文脈でも離散性が問題視されている Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018. Deep Text Classification Can be Fooled. IJCAI 2018.
  • 5. 5 / 21 KYOTO UNIVERSITY 画像は 1 次元連続 ← これを取り入れればいいのでは  じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!? dog cat bird dogs テキストの場合 → 単語は高次元・離散 扱いづらい 画像の場合 ピクセルは 1 次元・連続 → 扱いやすい Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
  • 6. 6 / 21 KYOTO UNIVERSITY 目指すもの: 1 次元の単語埋め込み  目指すもの(理想形)  軽量 & 高速: メモリも演算も 1 次元  解釈: 1 次元は目に見える! 摂動しても解釈できる!  実際そう都合良くは行きませんが、やってみると出来ることもありました、 というのが今回のお話 1 次元の単語埋め込み
  • 7. 7 / 21 KYOTO UNIVERSITY 関連研究: 次元削減はあるが一定以上は難しそう  既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、 せいぜい数十次元止まり それ以上次元を下げると大幅に精度が下がる Evaluating Memory Efficiency and Robustness of Word Embeddings. ECIR 2016. 削減なし 9 割削減 誤差 誤差大幅増 Poincaré Embeddings for Learning Hierarchical Representations. NeurIPS 2017. ポアンカレ埋め込みだと 5 次元までならなんとか... 限界: 特定のタスクと教師データのみ & 1 次元は無理 希望の光ではある
  • 8. 8 / 21 KYOTO UNIVERSITY 冷静に考えて 1 次元は無理  冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理 1 次元だと隣り合う単語は 2 個だけ → 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない robot - man + woman = ? → 疎な埋め込みだと対応する単語はありません、と言える → 1 次元だと対応する単語が何か出てきてしまう  ポアンカレ埋め込みの教訓: 全ての側面を保存しなくて良いなら低次元も可能かもしれない ポアンカレ埋め込みの場合は階層性を保存した
  • 9. 9 / 21 KYOTO UNIVERSITY 健全性と完全性に分け、健全性のみを考える  単語埋め込みに満たしていて欲しい性質 健全性: 近くに埋め込まれた単語の意味は近い 完全性: 意味の近い単語は近くに埋め込まれる    埋め込みを信じて近傍の単語を取ってきたとき 健全 → 正解だけが取ってこられる(取り残しの可能性あり) 完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)    完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す 健全性だけでも単語検索・文書検索などで使えうる この論文で提案する概念
  • 10. 10 / 21 KYOTO UNIVERSITY 問題設定: 高次元埋め込み → 一次元埋め込みを計算  Input: 学習済みの高次元単語埋め込み {xv } 実験では 300 次元 GloVe (or 学習したい対象のコーパス)  Output: 一次元の健全な埋め込み σ: V → [n](全単射)  一次元埋め込みにおいては座標は考えず並び順のみを考える σ(v): 単語 v の位置 ∈ {1, 2, ..., n} σ-1 (i): i 番目の単語  σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
  • 11. 11 / 21 KYOTO UNIVERSITY 隣り合う単語の距離の総和が近くなるように定式化  健全性: 近くに埋め込まれた単語の意味は近い  定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い 補足: σ-1 (n+1) = σ-1 (1) とする つまり、パスではなく環っかで定式化 (端の単語を特別視したくないため) コストは元の単語埋め込みでの距離、以外でも コーパスが手元にある場合は共起数最大化なども可
  • 12. 12 / 21 KYOTO UNIVERSITY 提案法の設定は巡回セールスマン問題  この定式化は巡回セールスマン問題 単語 = 都市   一次元埋め込み = 巡回ルート  巡回セールスマン問題は NP-hard → 解けない...?  最近のソルバは超高性能なので解ける! 最近のソルバは n = 100,000 頂点の 巡回セールスマン問題を厳密に解ける
  • 13. 13 / 21 KYOTO UNIVERSITY 提案法は巡回セールスマン問題を解いて、終わり  提案法 WordTour Input: 高次元単語埋め込み {xv } Output: 一次元単語埋め込み σ 擬似コード 1. Return LKH({xv })
  • 15. 15 / 21 KYOTO UNIVERSITY LKH でほぼ最適な解が得られた  実際に 40,000 単語からなる GloVe 点群を LKH に投げると...  得られた解の目的関数値(総距離): 236882.3 得られた下界 : 236300.9  LKH は下界(最適解がそれより短くならないことの証拠) を出してくれる  236882.3 / 236300.9 = 1.003 → ほぼ最適解が得られている  結果得られた埋め込みファイル容量: 312KB → スマホでも余裕 得られた解 下界
  • 16. 16 / 21 KYOTO UNIVERSITY ベースラインは特定の方向に埋め込みを射影  ベースライン  RandProj: 高次元埋め込み {xv } を適当な方向 d に射影  PCA1: 高次元埋め込み {xv } を最大 PCA 方向 d に射影  PCA4: 高次元埋め込み {xv } を第四 PCA 方向 d に射影 単語埋め込みの最大 PCA 方向は無意味という既存研究があるため  ある側面 d を取り出していると考えられる  入力単語埋め込みの性質がいい (e.g., disentangled) なら良い 順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が 特定の意味を表していることが知られている Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020. GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
  • 17. 17 / 21 KYOTO UNIVERSITY 定性的な結果 1: 提案法の埋め込み滑らかに変化  得られた一次元埋め込みから cat と concept の周りを表示
  • 18. 18 / 21 KYOTO UNIVERSITY 定性的な結果 2: 提案法の埋め込み滑らかに変化  提案埋め込みからランダムな区間を切り出したもの:  5 行目を見ると序数詞が教師なしで取り出せていることが分かる GloVe にこういう序数詞の構造があることが分かる → 一次元にしてみた(思わぬ)恩恵  2 行目は急カーブする例 (weapon → arm → leg) 5th 6th 7th 8th 9th 10th 11th 12th 13th 14th 11th 15th 理想 現実
  • 19. 19 / 21 KYOTO UNIVERSITY 文書分類: 提案法を使って bag-of-words をぼかす  文書分類の定量評価  ナイーブな比較は bag-of-words → 単語の類似度は考慮できない  単語の類似度を組み込んだ手法: word mover’s distance ↑ → 遅い + メモリ容量も大きい  提案法: bag-of-words を WortTour 上で ちょっとぼかして普通に L1 距離ではかる {dog} vs {dogs} は BoW では 違う集合だが、ぼかすとだいたい同じだと結論できる 健全性のおかげで成立 From Word Embeddings to Document Distances. ICML 2015.
  • 20. 20 / 21 KYOTO UNIVERSITY 文書分類: 提案法は速度とメモリと精度のバランス良  BoW は精度が悪い  WMD は精度がいいが遅い  他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い  WordTour 上では精度がそれなりに良い + 高速 + 省メモリ 分類誤差 lower is better
  • 21. 21 / 21 KYOTO UNIVERSITY まとめ: 健全な 1 次元単語埋め込みを提案  高次元単語埋め込みを巡回セールスマン問題で 1 次元に  完全性はないが健全性はある  高速 + 省メモリ + 解釈性  ハイレベルな教訓  特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン  巡回セールスマン問題は何かを滑らかに並べる良い手段  NP-hard でもソルバを探して見ると良いことがあるかも 健全性 完全性 一次元 コード・4万語埋め込みデータ・論文情報↑ https://github.com/joisino/wordtour