Enviar pesquisa
Carregar
Efficient estimation of word representations in vector space
•
Transferir como PPTX, PDF
•
3 gostaram
•
2,311 visualizações
T
tetsuo ishigaki
Seguir
NN論文を肴に酒を飲む会#4の発表資料
Leia menos
Leia mais
Dados e análise
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 22
Baixar agora
Recomendados
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
Recomendados
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
Probabilistic face embeddings
Probabilistic face embeddings
Kazuki Maeno
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
最適輸送の解き方
最適輸送の解き方
joisino
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Graph Attention Network
Graph Attention Network
Takahiro Kubo
時系列分析入門
時系列分析入門
Miki Katsuragi
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
Mais conteúdo relacionado
Mais procurados
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
Probabilistic face embeddings
Probabilistic face embeddings
Kazuki Maeno
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
最適輸送の解き方
最適輸送の解き方
joisino
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Graph Attention Network
Graph Attention Network
Takahiro Kubo
時系列分析入門
時系列分析入門
Miki Katsuragi
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
Mais procurados
(20)
不均衡データのクラス分類
不均衡データのクラス分類
Probabilistic face embeddings
Probabilistic face embeddings
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
全力解説!Transformer
全力解説!Transformer
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
最適輸送の解き方
最適輸送の解き方
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
Graph Attention Network
Graph Attention Network
時系列分析入門
時系列分析入門
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
Efficient estimation of word representations in vector space
1.
Efficient Estimation of Word Representations in Vector
Space 2017/10/2 石垣哲郎 NN論文を肴に酒を飲む会 #4
2.
本プレゼンは、Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey
Dean著の 論文「Efficient Estimation of Word Representations in Vector Space」(arXiv:1301.3781v3)の要 旨紹介です。
3.
発表者自己紹介 氏名:石垣 哲郎 1986年4月 日本電気株式会社入社 2015年11月
日本インサイトテクノロジー株 式会社入社 TensorflowやKERASは仕事ではなく、もっぱらオフ タイムに触っています。
4.
論文の主旨 自然言語処理において、単語のベクトル表現を連 続値ベクトルにすることによって、少ないコンピュー タ資源で高い精度を実現することができる。 更に、単語の文法的( syntactic)、意味的 ( semantic)な類似性に関する評価において、高い 性能を実現できた。
5.
ニューラルネットワークモデル 0.埋め込み one-hotベクトル表現された語彙集合Vの各要素∈{0,1}|V| を、行列𝑬 ∈ ℝⅮ×
V によって、ℝⅮに射影します。 ここで、Dは連続ベクトル表現の次元です。 また、行列𝑬’ ∈ ℝ𝑙𝑜𝑔 V ×Ⅾによって、連続ベクトル表現を ℝ𝑙𝑜𝑔 V に射影し、階層化softmaxの手法によって、正解の one-hotベクトルとcategorical_crossentropy評価します。(対 数は常用対数) 行列𝑬および𝑬’が学習の対象です。
6.
ニューラルネットワークモデル 1. Continuous Bag-of-Words
Model(CBOW) ターゲットの単語の前後の単語ベクトルから得られた結果に、ターゲットの単語ベクトルを使っ て学習させます。𝒘(𝑡) ∈{0,1}|V|はone-hotベクトル、𝒗(𝑡) ∈ ℝⅮ はその埋め込み表現です。 下の図では前後2単語ずつですが、論文によると、前後4単語ずつの時が最も良い結果を得ら れたとしています。 𝒗(𝑡 − 2) 𝒗(𝑡 − 1) 𝒗(𝑡 + 1) 𝒗(𝑡 + 2) 𝒘(𝑡 − 2) 𝒘(𝑡 − 1) 𝒘(𝑡 + 1) 𝒘(𝑡 + 2) 𝒘(𝑡) 𝑬|V|次元 D次元 𝑬’ |V|次元 log|V| 次元 階層化 softmax Categorical crossentropy INPUT PROJECTION SUM OUTPUT D次元
7.
ニューラルネットワークモデル 2. Continuous Skip-gram
Model ターゲットの単語から算出された結果に、ターゲットの前後の単語ベクトルを使って 学習させます。 下の図では前後2単語ずつですが、論文では計算量削減のため、最大10単語までの 幅でランダムに単語幅を決定して評価しています。 𝒗(𝑡) 𝒘(𝑡) 𝒘(𝑡 − 2) 𝒘(𝑡 − 1) 𝒘(𝑡 + 1) 𝒘(𝑡 + 2) |V|次元 INPUT 𝑬 𝑬’ log|V| 次元 階層化softmax |V|次元 Categorical_crossentropy D次元 PROJECTION OUTPUT
8.
ニューラルネットワークモデル 3. 評価関数 Huffman木ベースの階層化softmax ※階層化softmax:分類対象を2分木表現することで、各ノードの活性 化確率をsoftmaxの代わりにsigmoidの積で求める、計算量削減手 法 ※Huffman木:単語の出現頻度に対応して生成した2分木
9.
解説:階層化softmax 𝑤0 ・・・・・・・・・・・・・・・・・・ |V|次元ベクトルの各要素を2分探索木 に対応させると、階層数は(だいたい) log(|V|)になります。 各要素は各層の「オンオフ」の組み合わ せで一意に表現できるので、ニューラル ネットのノードを各層に対応させると、各 要素の確率は各層の活性化関数(2択な のでsigmoid)の積で表現できます。 あとはcategorical_crossentropyにより、 softmaxの重い計算をせずに誤差評価で きます。𝑤1 𝑤𝑖= 0≤𝑗<log
𝑉 𝜎(𝑠𝑗 (𝑖) ⋅ 𝑬′ 𝒗[𝑗, 0]) 𝑤|V|−1 ここに、 𝒗 ∈ ℝⅮは単語の連続ベクトル表現、 𝑬′ ∈ ℝ𝑙𝑜𝑔 V ×Ⅾは重み行列、 𝑠𝑗 (𝑖)は𝑤𝑖の 階層オンオフ表現で、値は右の通り。 𝑠𝑗 (𝑖) = 1, 階層𝑗が「ON」のとき -1, 階層𝑗が「OFF」のとき 𝑤2 ONOFF ONOFF ONOFF ONOFF ONOFF ONOFF ONOFF
10.
評価結果 CBOW、skip-gramを含む、以下の複数の単語ベクト ル化手法について、単語類似性の表現能力を評価 します。 ① CBOW ② skip-gram ③
Feedforward Neural Net Language Model (NNLM) ④ Recurrent Neural Net Language Model (RNNLM)
11.
評価結果 semanticsyntactic 以下のようなカテゴリでテストセットを準備し、評価します。評価尺度 は、左側3列の単語が与えられたときに、一番右の列の単語が当てら れるかどうか、です。
12.
評価結果 単語の推定は、ベクトル演算で行います。 X=vector(”biggest”)−vector(”big”)+vector(”small”) 推定が正解かどうかは、コサイン距離で評価します。 (Xがコサイン距離的にvector(“smallest”)に最も近け れば正解)
13.
小ネタ:コサイン距離(またはコサイン類似 度)について ベクトルaおよびbが挟む角度を𝜑と置くとき、コサイ ン距離はずばり、cos 𝜑です。 𝜑 a b b-a 余弦定理より、 ‖b-a‖2 2= ‖a‖2 2
+‖b‖2 2-2‖a‖2 ‖b‖2 cos 𝜑 一方、内積とL2ノルムの関係より、 左辺=<b-a,b-a>= ‖a‖2 2 +‖b‖2 2-2<a,b> これを左辺に代入して両辺の同一項をキャンセルする と、 <a,b>= ‖a‖2 ‖b‖2 cos 𝜑 ゆえに <a,b> ‖a‖2 ‖b‖2 =cos 𝜑
14.
評価結果 訓練データ:グーグルニュース6Bトークン、埋め込み ベクトル次元640の時の結果です。
15.
評価結果 前ページで引用されている論文[20]の評価パターン は以下の通りです。
16.
評価結果 公開されている結果との比較です。
17.
評価結果 エポック数を増やした時の結果です。同じデータで 繰り返し訓練するより、訓練データ量を増やしたほう が同等またはやや良い結果が得られます。また、訓 練時間も短くて済みます。
18.
評価結果 分散フレームワーク「DistBelief」を使用した、大規模 並列学習の結果です。
19.
評価結果 Microsoft Sentence Completion
Challenge の結果。 1040文の穴埋め問題です。 Skip-gramの結果は、答えの単語から周りの単語を 当てた正解率です。
20.
評価結果 単語間の関連性の推定結果です(学習単語数783 M、次元数300)。
21.
まとめ • 本論文で紹介した単語のベクトル表現は、NNLM など他の手法よりも高い精度で、単語の類似性 を幾何学的に表現することができる。また、必要 なコンピュータ資源も他の手法より少ない。 • CBOWよりもskip-gramのほうが、やや性能が良い。 •
同じデータで繰り返し訓練するより、訓練データ 量を増やしたほうが効果が高い。
22.
ご清聴 ありがとうございまし た
Baixar agora