[part 2]ナレッジグラフ推論チャレンジ・Tech Live！

CC-BY4.0: ⼈⼯知能学会セマンティクWebとオントロジー（SWO）研究会
ナレッジグラフから機械学習による
知識補完のアプローチ
1

⽬次
初⼼者向けにやさしく説明するつもりです
ナレッジグラフ
機械学習
ナレッジグラフの埋め込み技術
知識補完の流れ
推論チャレンジ⽤サンプル
2020/10/2 2

ナレッジグラフ
知識グラフ（Knowledge Graph: ナレッジグラフ）とは
“知識グラフとは，グラフ構造で表現された知識．
知識グラフには，オントロジーとインスタンスの双方が含まれる”
https://github.com/KnowledgeGraphJapan/Tutorial/blob/master/What_Is_KG.md
3
"Example Wikidata Query knowledge graph showing Portrait of Madame X" © Fuzheado (Licensed under CC BY 4.0)

AI分野のハイプ・サイクル
2020/10/2 4

機械学習︓教師あり学習
⼊⼒するデータとそれに対応する出⼒（答え）をある程度与え，
⼊⼒→出⼒の傾向を反映するような関数を⽣成する
例︓画像のタグ付け，購買予測，…
5
学習
性別年齢出身購入数
1 男 20 東京 3
2 女 34 埼玉 10
… … … … …
目的変数
=出力したいもの
説明変数（入力）
=出力を説明する情報
教師データ（答えを教える）
【未知のデータの予測例】
説明変数が（男,15,千葉）
のときの購入数は？
入力と出力の誤差が少なくなる
ように関数の重みを自動調整する
関数𝑓 𝑥 = 𝑎𝑥 + 𝑏𝑥!
+ 𝑐𝑥"
+ ⋯
xに○を入れたときf(x)が□に
なるような重みa,b,c,…を調整
購入数：2
関数イメージ
与える関数生成
出力
入力

ベクトルという考え⽅
機械学習にするデータは演算が可能なベクトル形式が基本
Ø ⾼次元データを扱うことができる
6
性別年齢出身購入数
1 男 20 東京 3
2 女 34 埼玉 10
… … … … …
４次元のベクトル𝑣!
𝑣" = 男, 20, 東京, 3
𝑣# = 女, 34, 埼玉, 10
…
性別＝{0,1}
都道府県={0,…,46}
とすればさらに数値化できる
1次元 2次元 3次元 4次元

単語のベクトル化︓ word2vec
単語の意味を数値ベクトルで表現する⼿法
Ø Tomas Mikolov, et al. NeurIPS2013
Ø Googleがツールを公開し⼀気に話題に
ühttps://code.google.com/archive/p/word2vec/
「単語の意味は周辺に現れる単語の頻度で表現できる」という仮説に
基づく
Ø 意味が似ている単語は，周辺単語も似ているはず…︖
単語を数値ベクトル化することで，意味の近さを計算したり意味の⾜
し引きができる
Ø 例︓King – Man + Woman = Queen
ü 各単語ベクトルの⾜し引きをしたベクトルと
もっとも類似度の⾼いベクトルがQueenのベクトルとなった
7
[補足]ベクトル同士の類似度はcosθで
計算（Cosine類似度）

Word2vec: Skip-Gram
⼊⼒，隠れ層x1，出⼒の単純なニューラルネットワーク
ある単語を⼊⼒したとき，その周辺にどの単語が出現しやすいか学
習する
Ø 実際には（１単語の）⼊⼒に対して適切な（周辺単語の）出⼒をする隠
れ層の重み⾏列を学習する
Ø 単語のone-hotベクトルと学習した重み⾏列の内積が単語の意味ベクトル
8
w(t)
w(t+2)
w(t+1)
w(t-2)
w(t-1)
Input Output隠れ層
文： I want to eat apple. I like apple.
単語集合： {apple eat I like to want .}
絵で理解するWord2vecの仕組み
https://qiita.com/Hironsan/items/11b388575a058dc8a46a
(1, 0, 0, 0, 0, 0, 0)
appleのone-hotベクトル表現
2個前
1個前
1個後
2個後

補⾜︓ニューラルネットワーク
⼈間の神経細胞（ニューロン）の動作を模した⼈⼯
ニューロンの結合により表現されるネットワークにより，⼊
⼒に対して適切な出⼒をする最適な重みを学習
9
人工ニューロン

Knowledge Graph Embedding
近年，ナレッジグラフの各エンティティ（ノードやエッジ）をベクトル
空間に埋め込み，得られたベクトルデータを使⽤した機械学習
で⾼い精度が得られることが報告されている
10
２次元ベクトル空間の場合
ベクトル空間に
埋め込む

ナレッジグラフの埋め込み技術
グラフの各エンティティをベクトル空間に埋め込むことで，得られた⾼
次元ベクトル表現を基にした機械学習でよい精度が得られることが
知られている．
Ø Graph Walkベース︓ グラフ上をランダムウォークして経路のシーケンスを作
成し，word2vecによりembeddingするタイプのモデル
ü 例︓DeepWalk[KDD’14], node2vec[KDD’16], RDF2vec[ISWC’16]な
ど
Ø Translationベース︓ トリプル(head, relation, tail)の各エンティティのベクト
ル表現が，head+relation-tail=0となるように誤差を最⼩化するタイプのモデ
ル
ü 例︓TransE[NeurIPS’13], TransH[AAAI’14]など
Ø Graph neural network: グラフを直接扱うニューラルネット
ü 例︓GGNN[ICLR’16], GCNN[ICML’16]など
2020/10/2 11

Graph walk-basedモデル
DeepWalk(KDD’14)に代表されるナレッジグラフの埋め込みモデル
グラフ上をランダムウォークし，辿ったパスを元に⽣成するシーケンス集
合を⼊⼒とし，Skip-gramモデルを使⽤してベクトル化する
近年，「〜2vec」と名の付く多くの拡張モデルが提案されている
12
シーケンス：
v1→v2→v3→…
v2→v1→v4→…
v10→v6→v7→…
w(t)
w(t+2)
w(t+1)
w(t-2)
w(t-1)

node2vec
DeepWalkはランダムウォークによる幅優先で、LINE(DeepWalkの改良
でLargeVisの前⾝)は深さ優先なので、どちらか⼀⽅では近傍のとり⽅
に偏りが⽣じる（同じ役割のノードかor同じコミュニティか）
貢献
Ø 幅優先探索と深さ優先探索を柔軟に取り⼊れる、バイアスされたランダムウォークに
よる効率的な探索⼿法の提案
Ø ノード近隣の柔軟な概念の定義により、ネットワークにおけるノードの役割やコミュニ
ティに基づいて表現を学習
幅優先（コミュニティを重視）
深さ優先（構造的役割を重視）
(uとs6は同じハブの役割)
Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the
22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864).

node2vec
node2vec
Ø ランダムウォーク
ü ノードCiは以下の分布で導かれる
Ø Search bias α
ü パラメータp,qを導⼊
ü エッジ(t,x)をたどってvにいるとき、次の遷移確率πvxは
dtxはノードt,x間の最短距離, pは即座な再訪を調節し, qは内側・外側を区別

RDF2vec
1. グラフ𝐺 = (𝑉, 𝐸)が与えられたとき，各頂点𝑣 ∈ 𝑉に関して起点𝑣!から深さ𝑑のウォーク
パス𝑃"を𝑣! → 𝑒#,% → 𝑣#,% → ⋯ → 𝑣&,%のように⽣成する（𝑖 ∈ 𝐸(𝑣!)）
2. Weisfeiler-Lehman Subtree Graph Kernel for RDF (WLRDF)[ECML-PKDD’13]
を使⽤してラベルを更新する
15
1:11 →6
2:11→7
3:12→8
4:11,14→9
5:13→10
11:1→15
11:3→16
・・・
シーケンス例：
1→6→15→7; 1→6→15→7→18→8; 1→6→15→7→17→9; ・・・
3. リラベルグラフ上をグラフウォークし，WLRDFの反復回数分だけ生成する
11:2→17
12:2→18
13:4→19
14:3→20
最終的なシーケンス集合は⋃%'#
(
⋃"∈* 𝑃"となる（ℎ =反復回数）
Ristoski, P., & Paulheim, H. (2016, October). Rdf2vec: Rdf graph
embeddings for data mining. In International Semantic Web
Conference (pp. 498-514). Springer, Cham.

CC-BY4.0: ⼈⼯知能学会セマンティクWebとオントロジー（SWO）研究会 16
シーケンス集合をもとにword2vec[NIPS’13]により各エンティティ
のベクトル表現を獲得
p word2vecのSkip-Gramモデルは3層からなるニューラルネットワークで，
入力単語が与えられた時の周辺語を学習
w(t)
w(t+2)
w(t+1)
w(t-2)
w(t-1)
Window幅(周辺単語)2の時の
Skip-Gramモデル図
ここで確率𝑝(𝑤$|𝑤$%&)はsoftmax関数を用いて
𝑝 𝑤' 𝑤! =
exp(𝑣(
)!
*
𝑣)"
)
∑)+"
,
exp(𝑣)
* 𝑣)"
)
次式を最大化
1
𝑇
9
$+"
*
9
&
log(𝑝(𝑤$|𝑤$%&))
RDF2vec (2)

Translation-basedモデル
TransE (NeuIPS’13)に代表されるKGの埋め込みモデル
head(h) tail(t)のトリプル<h,r,t>において，各エン
ティティのベクトル表現が，h+r≈tとなるように誤差を最⼩化する
タイプ
近年，「Trans〜」と名の付く多くの拡張モデルが提案されている
17
TransEのイメージ
relation(r)
主語のベクトルと
述語のベクトルを足したら
目的語のベクトルに近くなる？
Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational
data." Advances in neural information processing systems. 2013.

TransE
2020/10/2 18
⽬的関数
ü 𝑥 +は𝑥の正の部分、𝛾 > 0はマージンハイパーパラメータ
ü 𝑑(ℎ + 𝑙, 𝑡)は正例の距離（L1またはL2ノルム） 𝑑(ℎ′ + 𝑙, 𝑡′)は負例
ü⽬的関数を最⼩化するように確率的勾配降下法(SGD)で学習
負例トリプル
ü負例トリプルはhとtをランダムに置き換えることで⽣成
ü同時に置き換えることはしない
正例トリプル負例トリプル

TransH
ナレッジグラフでは1対多、多対1、多対多の関係も考慮する必
要があり、TransEはこれらのプロパティをうまく学習できない
Ø 例えばh, rが同じだがtが異なるトリプルが複数ある時，異なるtが⼀点に
埋め込まれてしまう
関係rを同じ空間に埋め込むのではなく、関係固有の超平⾯に
配置する
2020/10/2 19
Wang, Z., Zhang, J., Feng, J., & Chen, Z. (2014, July). Knowledge graph embedding by translating on hyperplanes. In Aaai (Vol.
14, No. 2014, pp. 1112-1119).

Translation-basedモデル
Translation-basedモデルはKnowledge Graph Completion
(ナレッジグラフ補完)に良く⽤いられる
Ø モデルの精度を測るベンチマークデータセットとしてDBpedia, Freebase,
WordNetなどが⽤いられることが多い
Ø ナレッジグラフ補完︓世の中のすべての知識をKG化することはできないの
で、⾃動で関係を補完する技術
20
補完

⽋損補完の流れ
1. 推論チャレンジの提供するナレッジグラフの埋め込み表現を得る
2. ベクトル同⼠の⾜し引き
Ø 任意のh, r, tの組み合わせで⾜し引きを⾏う
ü <h, r, (⽋損)>の場合︓h+rを計算
ü <(⽋損), r, t>の場合︓t-rを計算
3. ⾜し引きされた結果に最も近いベクトルを⾒つける
Ø コサイン類似度で計算可能
4. ⾒つかった類似度の⾼いベクトルのエンティティを⽤いて、ナレッジ
グラフにトリプルを追加する
2020/10/2 21
https://www.cse.kyoto-su.ac.jp/~g0846020/keywords/cosinSimilarity.html

ナレッジグラフ推論チャレンジが提供するナレッジグラフの埋め込み
表現を得る
今回はFast-TransXを使⽤
Ø https://github.com/thunlp/Fast-TransX
Ø KB2E（https://github.com/thunlp/KB2E ）をベースに⾼速化したもの
Ø TransE, TransH, TransR, TransD, TransParse, PTransEに対応
前処理
Ø 各ノード、エッジに連番IDを振る
Ø 例えば︓
「http://kgc.knowledge-graph.jp/data/SpeckleBand/111」は
「398」のように
Ø トリプルを連番IDで置き換える
2020/10/2 22

ナレッジグラフをCSVの形で取得する
Ø SPARQLエンドポイント
ühttp://knowledge-graph.jp/sparql.html
2020/10/2 23
TransEはリテラルを扱えないので、
リソースのみに絞っている

（デモ予定）
前処理, 後処理スクリプトの配布
Ø https://github.com/KnowledgeGraphJapan/KGRC-
Tools/tree/master/ToolsforFastTransX
TransEで埋め込み表現学習済みのベクトルデータ配布
Ø https://github.com/KnowledgeGraphJapan/KGRC-
Tools/tree/master/ToolsforFastTransX/vector
2020/10/2 24

昨年の応募
ナレッジグラフの埋め込み技術を使った受賞作品
優秀賞
Ø ⿊川茂莉⽒（KDDI総合研究所）
Ø 複数ナレッジグラフで共通のエンティティを考慮するためIPTransEを
使⽤
Ø https://github.com/KnowledgeGraphJapan/LOD-ws-
2020/raw/master/kgrc2020ws/KGRC20200909-KDDI.pdf
学⽣奨励賞
Ø 勝島修平⽒（東京都市⼤学）
Ø Graph Neural Networkによる未知エンティティ（ナレッジグラフ内
に無いエンティティ）との関係を補完
Ø http://challenge.knowledge-
graph.jp/submissions/2019/katsushima/application_form_K
atsushima.pdf
2020/10/2 25

その他参考資料
「ナレッジグラフ推論チャレンジ2020技術勉強会」の資料
Ø https://github.com/KnowledgeGraphJapan/LOD-ws-2020
2020/10/2 26

[part 2]ナレッジグラフ推論チャレンジ・Tech Live！

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a [part 2]ナレッジグラフ推論チャレンジ・Tech Live！

Semelhante a [part 2]ナレッジグラフ推論チャレンジ・Tech Live！ (20)

Mais de KnowledgeGraph

Mais de KnowledgeGraph (20)

[part 2]ナレッジグラフ推論チャレンジ・Tech Live！