Enviar pesquisa
Carregar
「ふわっと関連検索」のこれまでとこれから
•
0 gostou
•
1,538 visualizações
Masao Takaku
Seguir
Educação
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 22
Baixar agora
Baixar para ler offline
Recomendados
Rdf入門handout
Rdf入門handout
Seiji Koide
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
Fuyuko Matsumura
LODを使ってみよう!
LODを使ってみよう!
uedayou
DBpedia Japaneseとは?
DBpedia Japaneseとは?
National Institute of Informatics (NII)
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
Linked Data (再)入門
Linked Data (再)入門
National Institute of Informatics (NII)
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
Ikki Ohmukai
Recomendados
Rdf入門handout
Rdf入門handout
Seiji Koide
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
Fuyuko Matsumura
LODを使ってみよう!
LODを使ってみよう!
uedayou
DBpedia Japaneseとは?
DBpedia Japaneseとは?
National Institute of Informatics (NII)
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
Linked Data (再)入門
Linked Data (再)入門
National Institute of Informatics (NII)
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
Ikki Ohmukai
研究室紹介:高久研究室
研究室紹介:高久研究室
Masao Takaku
Brain Profile Ppt 01 10
Brain Profile Ppt 01 10
IIR
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
Masao Takaku
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Ikki Ohmukai
Information retrieval model
Information retrieval model
Yuku Takahashi
生命科学・農学研究のための情報検索の基礎
生命科学・農学研究のための情報検索の基礎
Takeru Nakazato
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
パケットジェネレータipgenから見るnetmap
パケットジェネレータipgenから見るnetmap
furandon_pig
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
elasticsearchソースコードを読みはじめてみた
elasticsearchソースコードを読みはじめてみた
furandon_pig
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
Takahiro Kubo
Gensim
Gensim
saireya _
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
Insight Technology, Inc.
研究室紹介
研究室紹介
Masao Takaku
201709 研究室紹介 milk
201709 研究室紹介 milk
Masao Takaku
20171002 takaku lab-intro
20171002 takaku lab-intro
Masao Takaku
タスク重要
タスク重要
Masao Takaku
教科書LOD
教科書LOD
Masao Takaku
20161003 takaku lab-intro
20161003 takaku lab-intro
Masao Takaku
Mais conteúdo relacionado
Destaque
研究室紹介:高久研究室
研究室紹介:高久研究室
Masao Takaku
Brain Profile Ppt 01 10
Brain Profile Ppt 01 10
IIR
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
Masao Takaku
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Ikki Ohmukai
Information retrieval model
Information retrieval model
Yuku Takahashi
生命科学・農学研究のための情報検索の基礎
生命科学・農学研究のための情報検索の基礎
Takeru Nakazato
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
パケットジェネレータipgenから見るnetmap
パケットジェネレータipgenから見るnetmap
furandon_pig
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
elasticsearchソースコードを読みはじめてみた
elasticsearchソースコードを読みはじめてみた
furandon_pig
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
Takahiro Kubo
Gensim
Gensim
saireya _
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
Insight Technology, Inc.
Destaque
(16)
研究室紹介:高久研究室
研究室紹介:高久研究室
Brain Profile Ppt 01 10
Brain Profile Ppt 01 10
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Information retrieval model
Information retrieval model
生命科学・農学研究のための情報検索の基礎
生命科学・農学研究のための情報検索の基礎
情報検索の基礎(11章)
情報検索の基礎(11章)
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
おとなのテキストマイニング
おとなのテキストマイニング
パケットジェネレータipgenから見るnetmap
パケットジェネレータipgenから見るnetmap
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
elasticsearchソースコードを読みはじめてみた
elasticsearchソースコードを読みはじめてみた
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
Gensim
Gensim
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
Mais de Masao Takaku
研究室紹介
研究室紹介
Masao Takaku
201709 研究室紹介 milk
201709 研究室紹介 milk
Masao Takaku
20171002 takaku lab-intro
20171002 takaku lab-intro
Masao Takaku
タスク重要
タスク重要
Masao Takaku
教科書LOD
教科書LOD
Masao Takaku
20161003 takaku lab-intro
20161003 takaku lab-intro
Masao Takaku
20160424 wikipedia town-tsukubasan-takaku
20160424 wikipedia town-tsukubasan-takaku
Masao Takaku
高久研究室の紹介(KLIS MILK 2015-10)
高久研究室の紹介(KLIS MILK 2015-10)
Masao Takaku
研究室紹介・高久研究室
研究室紹介・高久研究室
Masao Takaku
Linked Dataの概要と課題
Linked Dataの概要と課題
Masao Takaku
高久研究室・研究室紹介
高久研究室・研究室紹介
Masao Takaku
JuNii2 Validator
JuNii2 Validator
Masao Takaku
Web API入門
Web API入門
Masao Takaku
Wikipediaとは? Wikipediaに投稿する方法
Wikipediaとは? Wikipediaに投稿する方法
Masao Takaku
Helping Memory Institutions in the Networked Information Society
Helping Memory Institutions in the Networked Information Society
Masao Takaku
20131123 enjukaigi
20131123 enjukaigi
Masao Takaku
研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)
Masao Takaku
研究室紹介
研究室紹介
Masao Takaku
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
Masao Takaku
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
Mais de Masao Takaku
(20)
研究室紹介
研究室紹介
201709 研究室紹介 milk
201709 研究室紹介 milk
20171002 takaku lab-intro
20171002 takaku lab-intro
タスク重要
タスク重要
教科書LOD
教科書LOD
20161003 takaku lab-intro
20161003 takaku lab-intro
20160424 wikipedia town-tsukubasan-takaku
20160424 wikipedia town-tsukubasan-takaku
高久研究室の紹介(KLIS MILK 2015-10)
高久研究室の紹介(KLIS MILK 2015-10)
研究室紹介・高久研究室
研究室紹介・高久研究室
Linked Dataの概要と課題
Linked Dataの概要と課題
高久研究室・研究室紹介
高久研究室・研究室紹介
JuNii2 Validator
JuNii2 Validator
Web API入門
Web API入門
Wikipediaとは? Wikipediaに投稿する方法
Wikipediaとは? Wikipediaに投稿する方法
Helping Memory Institutions in the Networked Information Society
Helping Memory Institutions in the Networked Information Society
20131123 enjukaigi
20131123 enjukaigi
研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)
研究室紹介
研究室紹介
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Último
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ssusere0a682
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
Takayuki Itoh
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
Tokyo Institute of Technology
Último
(7)
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
「ふわっと関連検索」のこれまでとこれから
1.
「ふわっと関連検索」の これまでとこれから http://fuwat.to 高久雅生 筑波大学 図書館情報メディア系 masao@slis.tsukuba.ac.jp 1Code4Lib JAPANカンファレンス2013
2.
2010年のお正月 (3年前) 2 https://twitter.com/tmasao/status/ 7571380397
3.
動機 • 発想 – 明示的に「つながり」が無いが関連する文献をリ ンクしたい、見たい –
適切なキーワードや主題を知らずに検索したい – 文書 vs 文書検索:文書をクエリとして使う 3
4.
参考:GoogleAdSense http://jiji.com/jc/c?g=soc_30&k=2010030600338 広告 記事 4
5.
5 参考:Amazonおまかせリンク • コンテンツマッチ広告 • Amazonの商品アイテ ムとWebページの内 容コンテンツ
6.
「ふわっと関連検索」 • 文書類似度に基づく文書検索 – 検索キーワードを考えなくともよい –
検索クエリとなる文書の特徴量(出現キーワード の種類、出現回数等)をそのまま利用できる • 文書類似度の計算エンジンを積んでいない 普通のキーワード検索だけの検索ツールで 文書検索したい! • 一回の検索要求に対して、キーワード検索を 複数回/複数パターン実行 6 利用サイト公開中 http://fuwat.to
7.
7 http://www.tomii.cs.it-chiba.ac.jp/kashikaJRAIL.pdf
8.
8 http://www.google.co.jp/search?q=%E5%88%97%E8%BB%8A%E9%81% 8B%E8%A1%8C%E5%AE%9F%E7%B8%BE%E3%83%87%E3%83%BC%E3 %82%BF%E3%81%AE%E5%8F%AF%E8%A6%96%E5%8C%96
9.
9 http://fuwat.to/cinii?url=http%3A%2F%2Fwww.tomii.cs.it- chiba.ac.jp%2FkashikaJRAIL.pdf
10.
「ふわっとCiNii関連検索」 http://fuwat.to/cinii 10
11.
「ふわっと関連検索」システムの概要 リクエスト 論文 Webページ ? テキスト ふわっと 関連検索 本文抽出 特徴語抽出 検索クエリ発行 論文データ ベース (CiNii)類似度計算 検索結果併合 レスポンス 11
12.
実装: 特徴語抽出 • テキスト中で出現した用語
w に対して各語の重みを計算 • 2段階での簡易TF-IDFを採用 – テキスト内での出現回数: TF(w) – テキスト中での単語の生起コスト: Cost(w) ※ – データベース文書群中でのヒット文書数: DF(w) 1. テキスト中での特徴語上位n件 (Logcost) – weight(w) = TF(w)・LogCost(w) 2. データベース問合せ結果を使って特徴語スコアを調整 (IDF) – weight’(w) = weight(w) / log(DF) ※生起コスト Cost(w) : 形態素解析ツールMeCabのコスト値 13
13.
実装: クエリ発行と検索結果併合 • 特徴語上位
n 件をクエリ発行 – n回のクエリ発行 • ゼロヒットになるものを除外 – (w1,…,wn) の各語をAND結合し、クエリ発行 (AND) • ゼロヒットになってしまう場合は、重みの低い特徴語から除 外して、(w1,…,wn-1) の各語として、クエリ発行。 – 以下、指定した表示件数が得られるまで続行。 – ※「CiNii関連検索」においては n = 10 を採用 – ※CiNiiが提供するOpenSearch APIを通じて検索 • 得られた検索結果を重複除去し、最終的な検索 結果とする。 14
14.
評価実験 • 対象DB:CiNii – (CiNii
Opensearch APIを経由して検索実行) • 比較アルゴリズム: – 特徴語抽出、検索クエリ発行、検索結果併合、疑似適合フィー ドバックなどの派生手法を比較 • クエリ:新聞記事34件 – 朝日新聞、産経新聞: Webサイト上のニュース記事 – 2010-03-19 ~ 2010-05-09 • 検索タスク – レポート執筆等を想定した主題適合性 • 適合判定 – 多段階適合度:A(適合)、B(部分適合)、C(不適合) – 判定者:1名 15
15.
検索クエリ文書 文書ID 掲載紙 タイトル
掲載日 NP017 産経 通過駅?熊本、九州新幹線に不安 企業アンケ「プラ ス」は6割 2010年4月5日 NP018 産経 消費税論争勃発 その背景は? 民主執行部のバラ マキ路線を牽制 「ポスト鳩山」の思惑も 2010年4月13日 NP021 産経 山崎さんが琴を演奏 国際宇宙ステーション 2010年4月12日 NP028 産経 「軍事対応」は1割以下 韓国艦沈没で世論調査 2010年5月7日 NP029 朝日 COP15政治合意「尊重」で一致 経済国フォーラム 2010年4月20日 NP032 朝日 光が織り成す夜の芸術 徳島でLEDフェスティバル 2010年4月18日 NP033 朝日 沖縄知事、県内移設反対の県民大会出席へ 普天間 問題 2010年4月23日 NP035 朝日 巨大氷山衝突、南極の氷河もぎ取る NASA撮影 2010年3月19日 NP049 朝日 バイエルンが先勝 リヨンに1-0 欧州CL準決勝 2010年4月22日 16 表1: 検索対象文書の新聞記事(抜粋)
16.
ランキングアルゴリズムの比較 • 特徴語抽出: – LogCost:
weight(w) = ΣLogCost(w) – IDF: weight’(w) = weight(w) / IDF(w) • 検索クエリ発行: – AND: • 特徴語上位n件をANDで連結し、当該ヒット件数が得られるまで、 件数を減らしながらクエリを投げる。 – Comb: • 特徴語の上位n件から、3語づつのすべての組み合わせを求め、 それらのAND条件すべてを検索クエリとして発行 • 検索結果の併合: – Rerank: • 検索結果として得られた文書の「タイトル」「抄録」「掲載誌名」か ら特徴語ベクトルを抽出し、クエリ文書との特徴語ベクトルとの コサイン類似度順に並べ替える。 17 ※ n = 10 で実験
17.
実験結果と考察 (1/4) - AND条件の場合
- 比較アルゴリズム Prec@10 AND + TF 0.0794 AND + TF + IDF 0.0941 AND + LogCost 0.1059 AND + LogCost + IDF 0.0765 AND + Rerank + TF 0.1206 AND + Rerank + TF + IDF 0.1382 AND + Rerank + LogCost 0.1000 AND + Rerank + LogCost + IDF 0.1324 18 • TF LogCost: 差はほ とんど無い。 • IDF: 効果は限定的 • Rerank: やや効果あり。
18.
実験結果と考察 (2/4) - Comb条件の場合
- 比較アルゴリズム Prec@10 AND + Rerank + TF + IDF 0.1382 Comb + Rerank + TF 0.2176 Comb + Rerank + TF + IDF 0.2324 Comb + Rerank + LogCost + IDF 0.2324 Comb + Rerank + LogCost + IDF 0.2500 19 • TF LogCost: 差は ほとんど無い。 • IDF: 効果は限定的 • Rerank: やや効果あ り。 • CombAND: 強い効 果あり。
19.
実験結果と考察 (4/4) - 実行応答速度の面から
- 20 0 20 40 60 80 100 120 140 0 5 10 15 20 25 30 35 NP017 NP018 NP021 NP028 NP029 NP032 NP033 NP035 NP049 ク エ リ 実 行 回 数 ク エ リ 実 行 時 間 ( 秒 ) クエリ実行回数(AND) クエリ実行回数(Comb) 実行時間(AND) 実行時間(Comb)
20.
対象データベースの増加 • ふわっとCiNii関連検索 –
2010-01 • ふわっとWorldCat関連検索 – 2010-02 (Code4Lib 2010) • ふわっとNDL OPAC関連検索 – 2010-03 • ふわっとレファ協関連検索 – 2010-03 • ふわっと一橋大学OPAC関連検索 – 2010-03 • ふわっと 教育研究論文索引 関連検索 – 2010-04 • ふわっとJ-STAGE関連検索 – 2010-09 • ふわっと CiNii 関連著者検索 – 2010-10 • ふわっとSpringer関連検索 – 2011-03 21
21.
まとめ • 文書類似度に基づく文書検索:「ふわっと関 連検索」 – 検索キーワードを考えなくともよい –
文書特徴量をそのまま利用できる – 単純なキーワード検索しかサポートしていない データベースをも対象として、類似文書の検索が できるようになる – 一回の検索要求に対して、キーワード検索を複 数回/複数パターン実行 • 新聞記事をクエリ例とした評価実験 – 適合度順ランキング10位時点での精度: 平均 0.25 22
22.
今後の課題 (いまやっていること、これからやりたいこと) • オープンソース化 →
Done. – http://github.com/masao/fuwatto • 文書ジャンルの違いの影響 – 論文・書籍、ウェブログ • 対象DBの違いによる影響 – 書誌目録(NDL-OPAC、WorldCat) – レファレンス協同DB • 「ふわっと関連検索」自動生成… 23
Baixar agora