Enviar pesquisa
Carregar
情報検索におけるランキング計算の紹介
•
1 gostou
•
3,117 visualizações
Koji Sekiguchi
Seguir
Tecnologia
Vista de apresentação de diapositivos
Denunciar
Compartilhar
Vista de apresentação de diapositivos
Denunciar
Compartilhar
1 de 15
Baixar agora
Baixar para ler offline
Recomendados
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
Geolocation4 system
Geolocation4 system
Jun Chiba
Geolocation gurunavi
Geolocation gurunavi
Jun Chiba
Pythonのガベージコレクション
Pythonのガベージコレクション
Atsuo Ishimoto
The Star
The Star
Marjonlien Mahusay
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#
ta2c
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
テスト自動化クロニクル (JaSST 東海 2016)
テスト自動化クロニクル (JaSST 東海 2016)
Keizo Tatsumi
Recomendados
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
Geolocation4 system
Geolocation4 system
Jun Chiba
Geolocation gurunavi
Geolocation gurunavi
Jun Chiba
Pythonのガベージコレクション
Pythonのガベージコレクション
Atsuo Ishimoto
The Star
The Star
Marjonlien Mahusay
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#
ta2c
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
テスト自動化クロニクル (JaSST 東海 2016)
テスト自動化クロニクル (JaSST 東海 2016)
Keizo Tatsumi
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Daiyu Hatakeyama
Retty recommendation project
Retty recommendation project
Jiro Iwanaga
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
Kenji Hara
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
Recruit Technologies
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Mao Yamaguchi
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
Takuya Ogawa
RTBにおける機械学習の活用事例
RTBにおける機械学習の活用事例
MicroAd, Inc.(Engineer)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
An Introduction to NLP4L
An Introduction to NLP4L
Koji Sekiguchi
Nlp4 l intro-20150513
Nlp4 l intro-20150513
Koji Sekiguchi
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Html noise reduction
Html noise reduction
Koji Sekiguchi
Lucene terms extraction
Lucene terms extraction
Koji Sekiguchi
Visualize terms network in Lucene index
Visualize terms network in Lucene index
Koji Sekiguchi
Mais conteúdo relacionado
Semelhante a 情報検索におけるランキング計算の紹介
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Daiyu Hatakeyama
Retty recommendation project
Retty recommendation project
Jiro Iwanaga
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
Kenji Hara
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
Recruit Technologies
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Mao Yamaguchi
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
Takuya Ogawa
RTBにおける機械学習の活用事例
RTBにおける機械学習の活用事例
MicroAd, Inc.(Engineer)
Semelhante a 情報検索におけるランキング計算の紹介
(7)
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Microsoft Open Tech Night: Azure Machine Learning - AutoML徹底解説
Retty recommendation project
Retty recommendation project
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
AlloyDB のデータ分析基盤での活用におけるポテンシャルとは?
RTBにおける機械学習の活用事例
RTBにおける機械学習の活用事例
Mais de Koji Sekiguchi
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
An Introduction to NLP4L
An Introduction to NLP4L
Koji Sekiguchi
Nlp4 l intro-20150513
Nlp4 l intro-20150513
Koji Sekiguchi
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Html noise reduction
Html noise reduction
Koji Sekiguchi
Lucene terms extraction
Lucene terms extraction
Koji Sekiguchi
Visualize terms network in Lucene index
Visualize terms network in Lucene index
Koji Sekiguchi
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
HMM viterbi
HMM viterbi
Koji Sekiguchi
NLP x Lucene/Solr
NLP x Lucene/Solr
Koji Sekiguchi
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
Koji Sekiguchi
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Koji Sekiguchi
Mais de Koji Sekiguchi
(20)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L
An Introduction to NLP4L
Nlp4 l intro-20150513
Nlp4 l intro-20150513
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Html noise reduction
Html noise reduction
Lucene terms extraction
Lucene terms extraction
Visualize terms network in Lucene index
Visualize terms network in Lucene index
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
HMM viterbi
HMM viterbi
NLP x Lucene/Solr
NLP x Lucene/Solr
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Último
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Último
(9)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
情報検索におけるランキング計算の紹介
1.
情報検索における ランキング計算の紹介 関口宏司@ロンウイット
2.
ランキングの重要性 • ランキング=検索結果リストの表示順 •
ランキングはユーザの検索エンジンの性能評価 に大きな影響を与える • 検索エンジンの性能評価 ▫ 精度 ▫ 再現率 ▫ クエリ応答時間 ▫ インデックス作成時間(管理者) Copyright (c) 2013 RONDHUIT 2
3.
精度と再現率(理論) Copyright (c)
2013 RONDHUIT 3 A B C 精度:P=B/(A+B) 再現率:R=B/(B+C) システム出力 正解(ユーザの期待)
4.
精度と再現率(実際) Copyright (c)
2013 RONDHUIT 4 A B C 精度: P=B/(A+B)=0.01% 再現率: R=B/(B+C)=99.9% システム出力 正解(ユーザの期待)
5.
適切なランキングで低精度をカバー Copyright (c)
2013 RONDHUIT 5 10,000位 : システム出力 正解(ユーザの期待) 1位 2位 3位 9,999位 : 999位 : 800位 :
6.
ランキング計算とクエリ従属性 • クエリ従属 ▫
Web登場前から存在。ブール代数モデル、ベクト ル空間モデル ▫ Lucene/Solr= ブール代数+ベクトル空間モデル ▫ AltaVista • クエリ独立 ▫ Web登場後に発明された。PageRank、HITS ▫ Nutch ▫ Google PageRank 6 Copyright (c) 2013 RONDHUIT
7.
ベクトル空間モデル • クエリqに対し、ブール代数モデルにより検索に ヒットした各文書diについて、ベクトル空間モ デルで類似度S(q,di)を計算する •
qとdiを、単語の重みを要素とするベクトルとみ なし、S(q,di)=cosθ を計算するのが基本 Copyright (c) 2013 RONDHUIT 7 ワカメ 姉 q=ワカメ OR 姉 d3=サザエはワカメの姉 d2=ワカメはカツオの弟 θ
8.
Luceneのスコア計算 • coord(Q,
D) : Qの要素(単語)がDにどのくらいの割合含まれているか • qn(Q) : クエリの正規化関数 • tf(t in D) : Dに出現する単語tのterm frequency • tf(t in Q) == 1 • idf(t) : インデックスにおける単語tの希少価値 • b(t) : クエリにおける単語tの重み • norm(t, D) : Dにおける単語tの重み。長い文書(フィールド)ほどtの価値 は下がる Copyright (c) 2013 RONDHUIT 8
9.
PageRank: 計量書誌学での研究 •
論文参照構造の分析:「論文は他の重要な論文 に参照されていると重要である」 • ページPiのPageRank r(Pi)は: ▫ BPi : ページPiを指すページの集合 ▫ |Pj| : ページPjからの出リンクの数 Copyright (c) 2013 RONDHUIT 9
10.
ウェブ有向グラフでの計算例 Copyright (c)
2013 RONDHUIT 10 3 1 2 5 4 6 ro(Pi)=1/6 (i=1..6) とすると、 r1(P1)=r0(P3)/3=1/18 r1(P2)=r0(P1)/2+r0(P3)/3=5/36 :
11.
行列Hで表現 Copyright (c)
2013 RONDHUIT 11 π : PageRankベクトル
12.
Google行列 G Copyright
(c) 2013 RONDHUIT 12 原始性調整 α : リンクにしたがった ページ遷移をする割合 確率的調整 a : ぶら下がりノードベクトル リンクを持たないP2に訪問したら 次はランダムに飛ぶ
13.
HITS Hypertext Included
Topic Search • 1988年、クラインバーグが発明 • 2001年、Teoma(Ask.comの前身)が採用 • IBMのアルマデン研究所も採用 • 権威とハブ ▫ 権威:たくさんの入リンクを持つページ ▫ ハブ:たくさんの出リンクを持つページ • ページiは権威得点xiとハブ得点yiの2つの得点を持つ • HITSは2つのランキングを提示する ▫ 権威ランキング:Google的な検索 ▫ ハブランキング:ポータルページを望む場合 13 Copyright (c) 2013 RONDHUIT
14.
HITS Hypertext Included
Topic Search 権威 i ハブ i ハブ j 権威 j E : ウェブグラフの有向辺の集合 eij : ページiからページjへの有向辺 14 Copyright (c) 2013 RONDHUIT
15.
参考文献 • Apache
Lucene Javadoc ▫ http://lucene.apache.org/core/4_3_1/core/org/ apache/lucene/search/similarities/ TFIDFSimilarity.html • Google PageRank の数理 共立出版 15 Copyright (c) 2013 RONDHUIT
Baixar agora