Enviar pesquisa
Carregar
Learning to rank for IR
•
17 gostaram
•
6,324 visualizações
takaya imai
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 38
Recomendados
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
sleepy_yoshi
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
sleepy_yoshi
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
sleepy_yoshi
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
sleepy_yoshi
Sigir2013 勉強会資料
Sigir2013 勉強会資料
Mitsuo Yamamoto
Recomendados
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
sleepy_yoshi
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
sleepy_yoshi
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
sleepy_yoshi
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
sleepy_yoshi
Sigir2013 勉強会資料
Sigir2013 勉強会資料
Mitsuo Yamamoto
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
Yahoo!デベロッパーネットワーク
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
sleepy_yoshi
各言語の k-means 比較
各言語の k-means 比較
y-uti
Clustering _ishii_2014__ch10
Clustering _ishii_2014__ch10
Kota Mori
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
National Institute of Informatics
[機械学習]文章のクラス分類
[機械学習]文章のクラス分類
Tetsuya Hasegawa
人工無脳バトル 1st STEP 回答と解説
人工無脳バトル 1st STEP 回答と解説
JustSystems Corporation
Block join toranomaki
Block join toranomaki
Ebisawa Shinobu
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
t_ichioka_sg
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
洋資 堅田
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
Information retrieval model
Information retrieval model
Yuku Takahashi
おしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
R seminar on igraph
R seminar on igraph
Kazuhiro Takemoto
DHT Kademlia
DHT Kademlia
Ryo Yoneyama
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Risa Nishiyama
Tokyo r27
Tokyo r27
Takashi Minoda
SGDによるDeepLearningの学習
SGDによるDeepLearningの学習
Masashi (Jangsa) Kawaguchi
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
Introduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahout
takaya imai
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
takaya imai
Mais conteúdo relacionado
Mais procurados
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
Yahoo!デベロッパーネットワーク
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
sleepy_yoshi
各言語の k-means 比較
各言語の k-means 比較
y-uti
Clustering _ishii_2014__ch10
Clustering _ishii_2014__ch10
Kota Mori
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
National Institute of Informatics
[機械学習]文章のクラス分類
[機械学習]文章のクラス分類
Tetsuya Hasegawa
人工無脳バトル 1st STEP 回答と解説
人工無脳バトル 1st STEP 回答と解説
JustSystems Corporation
Block join toranomaki
Block join toranomaki
Ebisawa Shinobu
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
t_ichioka_sg
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
洋資 堅田
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
Information retrieval model
Information retrieval model
Yuku Takahashi
おしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
R seminar on igraph
R seminar on igraph
Kazuhiro Takemoto
DHT Kademlia
DHT Kademlia
Ryo Yoneyama
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Risa Nishiyama
Tokyo r27
Tokyo r27
Takashi Minoda
SGDによるDeepLearningの学習
SGDによるDeepLearningの学習
Masashi (Jangsa) Kawaguchi
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
Mais procurados
(20)
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
NIPS2010読み会: A New Probabilistic Model for Rank Aggregation
各言語の k-means 比較
各言語の k-means 比較
Clustering _ishii_2014__ch10
Clustering _ishii_2014__ch10
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
[機械学習]文章のクラス分類
[機械学習]文章のクラス分類
人工無脳バトル 1st STEP 回答と解説
人工無脳バトル 1st STEP 回答と解説
Block join toranomaki
Block join toranomaki
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
情報検索の基礎(11章)
情報検索の基礎(11章)
Information retrieval model
Information retrieval model
おしゃスタ@リクルート
おしゃスタ@リクルート
R seminar on igraph
R seminar on igraph
DHT Kademlia
DHT Kademlia
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
Tokyo r27
Tokyo r27
SGDによるDeepLearningの学習
SGDによるDeepLearningの学習
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
画像認識で物を見分ける
画像認識で物を見分ける
Destaque
Introduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahout
takaya imai
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
takaya imai
視野変換1(基礎編)
視野変換1(基礎編)
康弘 等々力
視野変換2
視野変換2
康弘 等々力
視野変換2
視野変換2
康弘 等々力
Sift特徴量について
Sift特徴量について
la_flance
Confidence Weightedで ランク学習を実装してみた
Confidence Weightedで ランク学習を実装してみた
tkng
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
Shuyo Nakatani
Productgraph
Productgraph
takaya imai
Image Recognition
Image Recognition
takaya imai
レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成
Nagi Teramo
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
Hironobu Fujiyoshi
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
Takuma Yagi
論文紹介:Using the Forest to See the Trees: A Graphical. Model Relating Features,...
論文紹介:Using the Forest to See the Trees: A Graphical. Model Relating Features,...
Takuma Yagi
拡張現実に必要な技術
拡張現実に必要な技術
Ryo Nakamura
Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3
Hironobu Fujiyoshi
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演
Hayaru SHOUNO
20160329.dnn講演
20160329.dnn講演
Hayaru SHOUNO
数学的基礎から学ぶ Deep Learning (with Python) Vol. 12
数学的基礎から学ぶ Deep Learning (with Python) Vol. 12
Project Samurai
Destaque
(20)
Introduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahout
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
視野変換1(基礎編)
視野変換1(基礎編)
視野変換2
視野変換2
視野変換2
視野変換2
Sift特徴量について
Sift特徴量について
Confidence Weightedで ランク学習を実装してみた
Confidence Weightedで ランク学習を実装してみた
アンサンブル学習
アンサンブル学習
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
Productgraph
Productgraph
Image Recognition
Image Recognition
レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
論文紹介:Using the Forest to See the Trees: A Graphical. Model Relating Features,...
論文紹介:Using the Forest to See the Trees: A Graphical. Model Relating Features,...
拡張現実に必要な技術
拡張現実に必要な技術
Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演
20160329.dnn講演
20160329.dnn講演
数学的基礎から学ぶ Deep Learning (with Python) Vol. 12
数学的基礎から学ぶ Deep Learning (with Python) Vol. 12
Semelhante a Learning to rank for IR
Code iq×japanr 公開用
Code iq×japanr 公開用
Nobuaki Oshiro
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
自然言語処理に適した ニューラルネットのフレームワーク - - - DyNet - - -
自然言語処理に適した ニューラルネットのフレームワーク - - - DyNet - - -
Ogushi Masaya
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
Akira Tanimoto
Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4
Sho Shimauchi
Intoroduction of Pandas with Python
Intoroduction of Pandas with Python
Atsushi Hayakawa
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Kotaro Yamazaki
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
Shintaro Takemura
SQLチューニング入門 入門編
SQLチューニング入門 入門編
Miki Shimogai
Tokyo r50 beginner_2
Tokyo r50 beginner_2
Takashi Minoda
整数列圧縮
整数列圧縮
JAVA DM
Pythonではじめる競技プログラミング
Pythonではじめる競技プログラミング
cocodrips
KDDI Business ID におけるアジャイル開発と検証フロー
KDDI Business ID におけるアジャイル開発と検証フロー
ques_staff
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
Tatsuya Coike
サーバ性能改善事例
サーバ性能改善事例
KLab Inc. / Tech
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
Takahiro Inoue
第四回 JavaScriptから始めるプログラミング2016
第四回 JavaScriptから始めるプログラミング2016
kyoto university
Semelhante a Learning to rank for IR
(20)
Code iq×japanr 公開用
Code iq×japanr 公開用
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
自然言語処理に適した ニューラルネットのフレームワーク - - - DyNet - - -
自然言語処理に適した ニューラルネットのフレームワーク - - - DyNet - - -
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4
Intoroduction of Pandas with Python
Intoroduction of Pandas with Python
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
SQLチューニング入門 入門編
SQLチューニング入門 入門編
Tokyo r50 beginner_2
Tokyo r50 beginner_2
整数列圧縮
整数列圧縮
Pythonではじめる競技プログラミング
Pythonではじめる競技プログラミング
KDDI Business ID におけるアジャイル開発と検証フロー
KDDI Business ID におけるアジャイル開発と検証フロー
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
サーバ性能改善事例
サーバ性能改善事例
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
第四回 JavaScriptから始めるプログラミング2016
第四回 JavaScriptから始めるプログラミング2016
Último
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
Último
(9)
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Learning to rank for IR
1.
Introduction to Learning to
Rank for IR -- 検索結果ランクの機械学習 -- 9/14/2011 発表15分+質疑応答5分
2.
目次 1. ランクチューニングと機械学習
1. Googleでのランクづけ 2. ランクづけでの問題 2. 機械学習とは 3. 機械学習を使って、どうランクチューニングするか 1. ランキングの評価方法 2. 正解ランクをどうやって決めるか 3. ランキング学習手法分類 4. 具体的な計算(SVM Rank)
3.
ランクチューニングと機械学習
4.
検索エンジン
5.
Googleでのランクづけ ● Googleが重視している項目
○ 200個のパラメータでランクを決めている? ○ 2009年当時 ○ http://www.searchenginejournal.com/200-parameters-in-google- algorithm/15457/#ixzz1Io4iBrJI
6.
Googleでのランクづけ 例
● Visitorプロファイル ○ Visitor数 ● ドメイン関係 ○ Visitor統計(性別とか) ○ ドメイン取得日 ● ペナルティ ○ ドメイン取得からの期間 ○ 過去のペナルティ ● サーバ ○ 重複コンテンツ ○ 稼働時間 ○ 過去のハッカーによる攻撃 ○ 設置場所(国とか?) ● 設計 ○ URL構造 ○ HTML構造 ● コンテンツ ○ 言語 ○ ユニーク性 ○ コンテンツ量(text vs HTML) ● 内部リンク ○ ページ内内部リンク数 ○ ページ内内部リンク(with anchor text)数 ● Webサイト ○ サイト更新頻度 ○ サイトサイズ(ページ数) ウェブサイトの様々な特徴を 検索結果ランクに取り込んでいる ● 外部リンク ○ ドメイン内外部リンク数 ○ ページ内外部リンク数 ○ リンクされているサイトの質 ○ 404, error pageなどへのリンク数
7.
どのようにしてランクづけするか ランクに寄与する情報がある程度分かっており、 数が少ない場合はあまりランクづけはそれほど 大変ではない。 例えば 一つ一つの情報を数値化、ランクへの寄与を
決めてランクを計算する
8.
例 ● 新しさ
f ○ より新しいdocのランクが上 ○ 数値化例 ■ 昨日の記事 -1 ■ 20日前の記事 -20 ● 文書に含まれている検索キーワードの数 c ○ 数が大きいほうがランクが上 ● 文書部分ごとの検索キーワードの数 cpn ○ 数が大きいほうがランクが上 ○ titleタグ n=1 ○ h1タグ n=2 ランク R(大きいほど上位) R = wf f + wc c + wcp1 cp1 + wcp2 cp2 w*は各情報に対するウエイト (現実的にはtf-idf, BM25を使用したりもするが、例なので省く)
9.
この方法での問題点 ● 基礎にする情報数が増えると大変
○ Googleのように200個も考慮しようとすると破 綻する
10.
これに対する一つの方法 Learning to Rank (ランキング学習またはランク学習) データ集合に対して順位付けを行う。 検索結果の並べ替えやウェブ上の広告最適化に利用される。 検索結果に対してランキング学習を使う場合、 特にLearning
to Rank for IR(Information Retrieval)という。 検索キーワードkの適切な検索結果から機械学習によりウエイトを決定し、 ランクが決まっていない別の文書のランク(検索キーサードkに対して)を推定 (機械学習によってはウエイトを決めなくてもよい)
11.
Learning to Rank
for IRの歴史 ● 2000頃 - ○ 商用検索エンジンにランキング学習が使われ始める(学術目的ではなく) ● 20?? ○ Google ■ 機械学習だけを使用しているわけではないらしい ■ 2008 http://www.webcitation.org/getfile.php? fileid=49a8c1e6d41579005211a7841646a44431cfd6e5 ● 2002 ○ AltaVista ● 2004 ○ Yahoo/Inktomi ● 2005 ○ Bing ● 2009 ○ Yandex(Russian search engine) ● 2009 ○ Yandex, machine-learning competition "Internet Mathematics 2009" ● 2010 ○ 米Yahoo, machine-learning competition "Learning to Rank Challenge" 引用:http://en.wikipedia.org/wiki/Learning_to_rank
12.
機械学習についてご紹介
13.
機械学習(Machine Learning)とは (wikipedia) ● 人工知能における研究課題の一つで、人間が自
然に行っている学習能力と同様の機能をコン ピュータで実現させるための技術・手法のことで ある。 ● ある程度の数のサンプルデータ集合を対象に解 析を行い、そのデータから有用な規則、ルール、 知識表現、判断基準などを抽出する。 データ集 合を解析するため、統計学との関連も非常に深 い。
14.
どういうことかというと、、 グループAとグループBがあります。 それぞれのグループにはすでに分類されたデータがいくつかありま す。(これを教師データという) 新しくデータが一つ入ってきました。 新しいデータは 1. グループAに属したほうがもっともらしいでしょうか? 2. グループBに属したほうがもっともらしいでしょうか? この問題の答えを "すでにグループ化されているデータを使って" どうやって決めるか? これに対する一つの解決方法が機械学習
15.
機械学習の方法にはいくつか種類がある 教師あり学習
今回はこれに注目 教師なし学習 強化学習 クラス分類 回帰分析
16.
イメージで説明(1) 方法1 グループ間を区別する線を引く 新しいデータが線のどちら側にあるかでグループを決める
17.
イメージで説明(2) 方法2 新しいデータに近いデータが属しているグループを調べる。 新しいデータが属するグループを、近いデータが属しているグルー プで一番多いものにする。 3個を使うのであれば図の内側円内 この場合、新しいデータは黄緑グループ 7個を使うのであれば図の外側円内 この場合、新しいデータは青グループ
18.
イメージで説明(3) 方法3 すでに分かっているグループをうまく分けるいくつかの分岐・条件を 見つける これらの条件を使って、新しいデータがどのグループに入るか決め る 天気が晴れ、湿度が10%なら、 "ゴルフする" 天気が雨、強風なら "ゴルフしない
19.
機械学習の例 方法1 ● サポートベクターマシン(Support
Vector Machine, SVM) ● 線形判別分析 方法2 ● k近傍法(k Nearest Neighbor, knn) ● 最短距離法 方法3 ● 決定木 ● ランダムフォレスト(Random Forest, 集団学習) その他の方法 ● 単純ベイズ分類器(Naive Bayes, スパム分類とか) ● ニューラルネットワーク(Neural Network) ● ...
20.
機械学習実装 簡単にイメージで説明したが 実装するためには以下のことを決めないといけない。 どのような損失関数を どうやって最小化または最大化(最適化)するか が、ここではこれ以上踏み込まない。
21.
機械学習イメージを再掲載
22.
イメージで説明(1) 方法1 グループ間を区別する線を引く 新しいデータが線のどちら側にあるかでグループを決める
23.
イメージで説明(2) 方法2 新しいデータに近いデータが属しているグループを調べる。 新しいデータが属するグループを、近いデータが属しているグルー プで一番多いものにする。 3個を使うのであれば図の内側円内 この場合、新しいデータは黄緑グループ 7個を使うのであれば図の外側円内 この場合、新しいデータは青グループ
24.
イメージで説明(3) 方法3 すでに分かっているグループをうまく分けるいくつかの分岐・条件を 見つける これらの条件を使って、新しいデータがどのグループに入るか決め る 天気が晴れ、湿度が10%なら、 "ゴルフする" 天気が雨、強風なら "ゴルフしない
25.
機械学習の概要を説明したので、 つぎにランキング学習の概要を説明
26.
Learning to Rank
for IR
27.
検索ランキングの評価方法 正解検索順序と実際の検索順序との比較 評価方法はいくつかあるが、ここではNDCGのみ NDCG (Normalized Discount Cumulative
Gain, 正規化減損累積利得) ● 0 <= NDCG <= 1 ● Bigger is Better ● 検索結果最上位の評価が全体評価に最も影響するようになって いる 正解ランク
28.
NDCGの具体的な計算 検索キーワードkで出てきた上位4つの文書 d1,d2,d3,d4 (最上位が一番左、この検索結果が評価対象) これらの文書に対して 検索キーワードkのときの正解ランク(bigger is better)が rd1
= 0, rd2 = 3, rd3 = 4, rd4 = 2 であったとき、元々の検索結果を評価する
29.
上位四つまでで評価するなら、
NDCG=0.37 (もっと多くの検索キーワードを使 う場合は平均値) Gain DCG IDCG NDCG (Discount (Ideal DCG) (Normalized Cumulative DCG) Gain) d1 20 - 1 0 / log 2 15 / log 2 0 / 49.83 (rd1=0) =0 =0 = 49.83 =0 d2 23 - 1 0 + 7 / log 3 49.83 + 14.67 / 64.5 (rd2=3) =7 = 14.67 7 / log 3 = 0.23 = 64.5 d3 24 - 1 0 + 14.67 + 49.83+64.5+ 39.58 / (rd3=4) =15 15 / log 4 3 / log 4 119.31 = 39.58 = 119.31 = 0.33 d4 22 - 1 0 + 14.67 + 49.83+64.5+ 43.87 / (rd4=2) =3 23.7 119.31 119.31 + 3 / log 5 +0 / log 5 = 0.37 = 43.87 = 119.31
30.
正解ランクをどうやって決めるか 今までに使用されてきた方法 1. 人手による適合性評価
○ 評価には主観が入るため、何人かで評価し総合する 1. クリックログ (click-through log) ○ [Joachims 02] http://www.cs.cornell.edu/People/tj/publications/joachims_02c.pdf ○ [Dou+ 08] http://research.microsoft.com/pubs/79335/CT_Ranking_Paper.pdf 引用元:https://kaigi.org/jsai/webprogram/2010/pdf/355.pdf
31.
ランキング学習手法分類 ランキング学習の方法には大きく三つある ● Pointwise(Bipartite)
● Pairwise ● Listwise これらの違いは損失関数・目的関数をどのように設定し、 どのような機会学習方法を使うか。 Pointwise(Bipartite), Pairwise, Listwiseについて 簡単にイメージで説明する。 実装はPointwise(Bipartite) < Pairwise < Listwiseの順に簡単。
32.
Pointwise(Bipartite)手法
検索キーワードk1 検索キーワードk2 文書1 文書5 文書2 文書6 文書3 文書7 文書4 文書8 検索キーワードk1 検索キーワードk2 に対して に対して 文書1 is good 文書5 is bad 文書2 is bad 文書6 is bad 文書3 is good 文書7 is bad 文書4 is good 文書8 is bad
33.
Pairwise手法
検索キーワードk1 検索キーワードk2 文書1 文書5 文書2 文書6 文書3 文書7 文書4 文書8 検索キーワードk1 検索キーワードk2 に対して に対して 文書2 > 文書1 文書5 > 文書7 文書3 > 文書4 文書8 > 文書6 ... ...
34.
Listwise手法
検索キーワードk1 検索キーワードk2 文書1 文書5 文書2 文書6 文書3 文書7 文書4 文書8 検索キーワードk1 検索キーワードk2 に対して に対して 文書2 > 文書1 > 文書3 > 文書4 文書5 > 文書7 > 文書8 > 文書6
35.
Pairwise手法でランキング学習してみる OSSのSVM Rankで実際に計算してみる http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html
学習データ ① ② ③ テストデータ モデル ランク予測
36.
Pairwise手法でランキング学習してみる
学習データ ランク予測の # query 1 データフォーマット 3 qid:1 1:1 2:1 3:0 4:0.2 5:0 NDCGによる評価 "正解ランク" qid:"キーワードID" 1:特徴量1 2:特徴量2 ... 2 qid:1 1:0 2:0 3:1 4:0.1 5:1 1 qid:1 1:0 2:1 3:0 4:0.4 5:0 特徴量: titleに検索キーワードを含んでいる数など 1 qid:1 1:0 2:0 3:1 4:0.3 5:0 # query 2 NDCG1=0.48 1 qid:2 1:0 2:0 3:1 4:0.2 5:0 2 qid:2 1:1 2:0 3:1 4:0.4 5:0 NDCG2=0.85 1 qid:2 1:0 2:0 3:1 4:0.1 5:0 1 qid:2 1:0 2:0 3:1 4:0.2 5:0 NDCG3=0.86 # query 3 2 qid:3 1:0 2:0 3:1 4:0.1 5:1 NDCG4=0.86 3 qid:3 1:1 2:1 3:0 4:0.3 5:0 4 qid:3 1:1 2:0 3:0 4:0.4 5:1 データとしてMicrosoft Researchが提供している 1 qid:3 1:0 2:1 3:1 4:0.5 5:0 データ LETOR を使いたかったが、時間がなかったため割愛 http://research.microsoft.com/en- us/um/beijing/projects/letor/ ① テストデータ 5 qid:4 1:1 2:1 3:0 4:0.3 5:0 ② モデル ③ ランク予測 1.40287793 ω= 4 qid:4 1:1 2:0 3:0 4:0.2 5:1 2.43987615 (1.5231243, -0.064747944, -0.5231243 2 qid:4 1:0 2:0 3:0 4:0.2 5:1 0.91675182 4, -0.18499486, 0.95375079) 1 qid:4 1:0 2:0 3:1 4:0.2 5:0 -0.56012331
37.
参考文献 ● http://www-tsujii.is.s.u-tokyo.ac.jp/T-FaNT/T-FaNT.
files/Slides/Li.pdf ● http://en.wikipedia.org/wiki/Learning_to_rank ● http://en.wikipedia.org/wiki/Discounted_cumulative_gain ● http://d.hatena.ne.jp/sleepy_yoshi/20110723/p1 ● http://www2009.org/pdf/T7A-LEARNING%20TO% 20RANK%20TUTORIAL.pdf
38.
ご清聴ありがとうございました。