Anúncio

Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (WSDM 2021)​

ARISE analytics
23 de Mar de 2023
Anúncio

Mais conteúdo relacionado

Último(20)

Anúncio

Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (WSDM 2021)​

  1. Hierarchical Metadata-Aware Document Categorization under Weak Supervision (WSDM 2021) ARISE analytics 近藤 真暉 ©2022 ARISE analytics Reserved. 論文URL:https://arxiv.org/abs/2010.13556 特に注釈ない限り、画像は論文からの引用です
  2. 論文概要 ©2022 ARISE analytics Reserved. 1 階層ラベル向け弱教師あり学習を行うHimeCatとData Augmentationの提案
  3. Hierarchical Label Classficationとは ©2022 ARISE analytics Reserved. 2 [1] Hierarchical multi-label news article classification with distributed semantic model based features(IJAII 2019) カテゴリ間の関係を考慮し、階層的なタグ付与を行うタスク 階層的なタグ構造は、ディレクトリをはじめWebニュースのカテゴリや文書カテゴリ等広いドメ インで活用されており活用可能性が広い Hierarchial Label Classficationで用いられるラベルの例[1]
  4. 実応用に向けた既存研究の課題 ©2022 ARISE analytics Reserved. 3 ① Webドキュメントに付与されたメタデータを活用できていない - メタデータを活用し、潜在的なラベル補足情報として活用したい ② メタデータがあっても、大規模な学習データが必要である - 階層ラベルを手動でアノテーションするのは負荷が大きいため、可能な限り少ないサンプ ルで学習できるようにしたい これら問題を解決するため、以下を提案 - ①階層ラベル向け弱教師あり学習を行うHimeCat - ② Data Augmentation
  5. 本研究の貢献 ©2022 ARISE analytics Reserved. 4 本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案 - 主な貢献 - メタデータと階層ラベルを用いた埋め込み表現を実現する方法 - 少数サンプルでも学習効果が得られるData Augmentation - メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ とを確認
  6. 本研究で扱うデータ構造 ©2022 ARISE analytics Reserved. 5 - 文書:テキスト、メタデータ、階層ラベルを保有する文書 - テキスト:文書のすべてのテキストフィールド - メタデータ:文書が保有するメタデータ。複数存在するケースもある - 階層ラベル:木構造で表現されたラベル。ノード集合はカテゴリを表す。 ArXivにおけるデータ構造の例
  7. 前提知識:vMF分布 ©2022 ARISE analytics Reserved. 6 画像引用:機械学習プロフェッショナルシリーズ「異常検知と変化検知」 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) [2] Spherical text embedding. (NeurIPS 2019) - フォンミーゼス・フィッシャー(vMF)分布 - 方向データ(単位球面)における確率分布のこと - 方向データ:単位ベクトルのように方向にだけ意味があるデータ(大きさに意味は持たない) - 単位球面の表面に方向データがマッピングされるイメージ - vMF分布を使う利点 - 類似タスクである階層的クラスタリングやテキストシーケンス生成で有効性が示されている[1] - 球面空間における埋め込み表現の学習は、類似性をより良く捉えることができる[2] - Semantic Similarity Search/Document Classificationのタスクで有効性が示されている
  8. 全体アーキテクチャ ©2022 ARISE analytics Reserved. 7 - A Hierarchical Generative Process - 階層ラベルを確率的に生成するプロセス - Joint Representation Learning - ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習するプロセス - Hierarchical Data Augmentation - 階層ラベルを保有する学習データを増やすプロセス - Hierarchical Classifier Training - 埋め込み表現をもとに、階層ラベルに対応したテキスト分類器を学習するプロセス メタデータを活用 した弱教師あり 学習 少数サンプルでの 効率的な学習
  9. A Hierarchical Generative Process ©2022 ARISE analytics Reserved. 8 - 階層ラベルを確率的に生成するプロセス ① Patent Label to Child Label - 条件付確率を基に、親ラベルから 子ラベルを推定 - vMF分布におけるRootの埋め込 み特徴を決定し、子ラベルの埋め 込み特徴を末端まで数珠繋ぎで 生成 ② Label and Metadata to Doc - メタデータとラベル情報を用い、単 位球面への文書の埋め込みを実 施 - ラベルやメタデータが存在しない場 合は、条件付確率を用いる(弱 教師あり学習特有の問題設定) - ドキュメントの埋め込み表現は以 下の式で表現可能 ③ Doc to Word - ①と同様に、文書から単語の出現 確率(埋め込み特徴)を出力
  10. A Hierarchical Generative Processにおける条件付確率の出力 ©2022 ARISE analytics Reserved. 9 - 親ラベルから子ラベルを推定 - 親ラベルの埋め込み特徴 lp を基にした子ラベルの埋め込み特徴lcの生成確率 p(lc | lp) を以下のように指定(ソフトマックス関数ベース) - ここで、lcは連続的な埋め込み空間における任意の点である必要 - そのため、 も連続分布でなければならない - しかし、ソフトマックス関数は有限の候補から離散的な選択をするためNG - vMF分布を適用することで、以下のように書き換えられる - ② Label and Metadata to Doc / ③ Doc to Word も同様にvMF分布を用い て処理できる
  11. Joint Representation Learning ©2022 ARISE analytics Reserved. 10 [1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017) ラベル、メタデータ、テキスト(文書・単語)の埋め込み表現をまとめて学習 Step1:ラベルの階層情報をモデル化 - 親子ラベルペア(lc,lp)が与えられたとき、 を最大化するのが目標 - ナレッジグラフの埋め込み手法[1]をベースに、マージン を導入したランキング学習を実施 Step2:メタデータとコーパスの統計情報をモデル化 - 文書dに対するコーパスの情報(word w, ラベル ld)とメタデータMdが与えられたとき、 を最大化するのが目的 - Step1同様ランキング学習を行う pos neg ROOTから 子ラベルを選択 ラベルペアが与えられ たとき、負の学習サン プルl’pを選択 ランキング学習: 正サンプルと負サンプルが与えられたとき、 スコアが正>負となるように学習する手法 今回はペアワイズ法を使っている pos neg ※ 本研究ではネガティブサンプル数を5組と設定
  12. リーマン勾配法を用いた最適化 ©2022 ARISE analytics Reserved. 11 [1] Spherical text embedding (NeurIPS 2019) を解くように学習 ただし今回はすべての埋め込み特徴が球面上に存在するため、ユークリッド空間を前提とし て定義された最適化手法は好ましくない 双曲線埋め込み/球面埋め込みの既存研究[1]ではリーマン勾配法を用いているため、そ れに合わせる ユークリッド勾配法に対して変換を行うことで、リーマン勾配 法として扱える リーマン勾配法 ユークリッド勾配法 変換した後は、この式を用いて重み更新すればよい 球面上におけるリーマン勾配法の適用例[1] ユークリッド勾配法∇f(x)は左図も右図も同じ距離を示してしまう リーマン勾配法で用いているコサイン距離dcosは異なる距離を示すことが可能 球面上ではリーマン勾配法を用いるほうが好ましい
  13. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 12 [1] Knowledge graph embedding: A survey of approaches and applications(TKDE29 2017) 少数データでも学習できることを目指し、Data Augmentationで増強する Step1:合成ドキュメントd*の埋め込み表現を生成 - Hierarchial Generaticve Processの②を流用 ラベルlとメタデータMdがあれば、事後 確率でd*を生成可能 ただし、ラベル情報しか保有しないた めメタデータは空集合として扱う 結果として であり下の式に 置き換えられる
  14. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 13 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step2:合成ドキュメントd*の単語列w*1,...を生成 - 合成ドキュメントd*から事後確率を出力するが、 を用いた単純な出力ではうまくいかない - 語彙Vを導入し、[1]で用いられている手法を応用する - 生成された埋め込み特徴w*がd*の近傍に存在す るような制約をかける - 結果、離散的なSoftmax関数に収束する wordがdocの近くに埋め込まれるようにする ここはよくわからん
  15. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 14 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step3:合成ドキュメントd*の集合D*を生成 - Step1,2をβ回繰り返し、ラベルに対応した集合D*を生 成
  16. Hierarchical Data Augmentation ©2022 ARISE analytics Reserved. 15 [1] Von mises-fisher loss for training sequence to sequence models with continuous outputs (ICLR 2019) 少数データでも学習できることを目指し、Data Augmentationで増強する Step4:節点からの子ラベル生成 - 節点は合成ドキュメントd*を生成しないかわりに、子ラベ ルを生成する - 節点l が与えられたとき、lを起点とする部分木T_l を条 件付確率で生成 - ラベルの埋め込みはすでに学習済みなので、条件付確率 で生成された部分木からラベルを取り出すことで、 Step1~3を実施でき同様に合成ドキュメントd*の集合 D*を生成可能 節点l 部分木 T_l 木 T
  17. Hierarchical Classifier Training ©2022 ARISE analytics Reserved. 16 [1] Convolutional Neural Networks for Sentence Classification(EMNLP 2014) 各リーフ(ノード)/ 節点に対し、フラットなテキスト分類器で分類 今回はモデルのアーキテクチャが提案の趣旨ではないため、シンプルなKim-CNN[1]を利用 Kim-CNN[1]の概要 オリジナルでは入力層に単語を入力するが、今回は埋め込み特徴を入力
  18. 実験 ©2022 ARISE analytics Reserved. 17 3種類のデータセットで評価 ベースライン - 教師あり:HierSVM (SVMベース) - 弱教師あり:WeSHClass(LSTMベース),PCEM, HiGitClass, MetaCat - 埋め込み:MetaPath2Vec(GNN), PointCare (GNN), Pretrained BERT 評価指標 - Micro/Macro F1 Score をLeaf/Ovarallごとに算出
  19. 実験結果 ©2022 ARISE analytics Reserved. 18 3つのデータセットにおいて、比較対象であるベースラインを有意に上回った - HiGitClass/MetaCatよりも性能が高く、ラベル階層を考慮することの有効性を示唆 - MetaPath2VecとPointCareはメタデータとラベル階層の埋め込みに有効といわれるが、 JointしてもHimeCatほど性能が上がらない - メタデータやラベル階層を考慮していないため、BERTは充分な性能を発揮できていない
  20. より詳細な分析 – 何が特に効いたか? ©2022 ARISE analytics Reserved. 19 アプローチが異なるアーキテクチャを適用し、何が有効だったかを確認 - データセットのラベル階層が深い(github)ほどHimeCatとNo-Hierarchyの差は大 - メタデータを利用することの優位性が確認された。特にラベル階層よりも効果が大きい - メタデータのほうが情報量が多いため? - メタデータの種類に限らず、すべてのメタデータが性能向上に寄与 ふつうのMimeCAT 階層情報なし メタデータすべてなし メタデータのうち一部なし
  21. より詳細な分析 – パラメタ比較 ©2022 ARISE analytics Reserved. 20 埋め込み特徴の次元数と、合成データの件数を変えて比較 - 埋め込み次元p は100-200程度がよい - 合成データを加えることで大きな性能向上 - ただし500件でサチる
  22. より詳細な分析 – 埋め込み結果の可視化 ©2022 ARISE analytics Reserved. 21 埋め込み特徴をT-SNEで可視化し、木構造で接続 - サブツリーの子カテゴリは親カテゴリの周りに埋め込まれている - サブツリーどうしでも、お互いの関係が考慮された埋め込みになっている - (b)においてq-fin(Quantitative Finance)はcs(Computer Science)よりもmathに近い
  23. まとめ ©2022 ARISE analytics Reserved. 22 本論文では、階層ラベル向け弱教師あり学習を行うHimeCatを提案 - 主な貢献 - メタデータと階層ラベルを用いた埋め込み表現を実現する方法 - 少数サンプルでも学習効果が得られるData Augmentation - メタデータ、階層ラベル、Data Augmentationのすべてが性能向上に影響を与えるこ とを確認
  24. Best Partner for innovation, Best Creator for the future.
Anúncio