Enviar pesquisa
Carregar
Ishita_NII(20130724)
•
0 gostou
•
854 visualizações
真 岡本
Seguir
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 21
Baixar agora
Baixar para ler offline
Recomendados
一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編
Jin Hirokawa
ディスカバリー・ツールとは?
ディスカバリー・ツールとは?
Wataru ONO
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
National Institute of Informatics
2011 11-19-c4ljp-web上の情報の探し方
2011 11-19-c4ljp-web上の情報の探し方
Yuka Egusa
第2回 Archives space 勉強会(発表者:株式会社メタ・インフォ 井村)
第2回 Archives space 勉強会(発表者:株式会社メタ・インフォ 井村)
KunihiroImura
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
kulibrarians
既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニング
nemumu
Edu sociopsyc2010 04
Edu sociopsyc2010 04
Eiji Tomida
Recomendados
一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編
Jin Hirokawa
ディスカバリー・ツールとは?
ディスカバリー・ツールとは?
Wataru ONO
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
National Institute of Informatics
2011 11-19-c4ljp-web上の情報の探し方
2011 11-19-c4ljp-web上の情報の探し方
Yuka Egusa
第2回 Archives space 勉強会(発表者:株式会社メタ・インフォ 井村)
第2回 Archives space 勉強会(発表者:株式会社メタ・インフォ 井村)
KunihiroImura
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
kulibrarians
既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニング
nemumu
Edu sociopsyc2010 04
Edu sociopsyc2010 04
Eiji Tomida
Inenaga_NII(20130724)
Inenaga_NII(20130724)
真 岡本
Shizuoka pref public_library(20101020)
Shizuoka pref public_library(20101020)
真 岡本
Otsuma(2010727)
Otsuma(2010727)
真 岡本
20120701saveMLAK_kusakari
20120701saveMLAK_kusakari
真 岡本
OpenGLAM(20130813)
OpenGLAM(20130813)
真 岡本
Esd21(20101002)
Esd21(20101002)
真 岡本
MeijiLibertyAcademy(20130930)
MeijiLibertyAcademy(20130930)
真 岡本
Linked Dataの概要と課題
Linked Dataの概要と課題
Masao Takaku
20141205大学図書館の学習支援
20141205大学図書館の学習支援
Shigeki Sugita
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
Ikki Ohmukai
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
utsuro_lab
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
Yuka Egusa
野生の研究について
野生の研究について
Tsubasa Yumura
マイニング探検会#12
マイニング探検会#12
Yoji Kiyota
TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)
真 岡本
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
Kosetsu IKEDA
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
Yasushi Hara
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
Masao Takaku
2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム
Yuka Egusa
質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
図書館利用者の情報探索における分類の役割 Yokoi
図書館利用者の情報探索における分類の役割 Yokoi
alis_lib
Mais conteúdo relacionado
Destaque
Inenaga_NII(20130724)
Inenaga_NII(20130724)
真 岡本
Shizuoka pref public_library(20101020)
Shizuoka pref public_library(20101020)
真 岡本
Otsuma(2010727)
Otsuma(2010727)
真 岡本
20120701saveMLAK_kusakari
20120701saveMLAK_kusakari
真 岡本
OpenGLAM(20130813)
OpenGLAM(20130813)
真 岡本
Esd21(20101002)
Esd21(20101002)
真 岡本
MeijiLibertyAcademy(20130930)
MeijiLibertyAcademy(20130930)
真 岡本
Destaque
(7)
Inenaga_NII(20130724)
Inenaga_NII(20130724)
Shizuoka pref public_library(20101020)
Shizuoka pref public_library(20101020)
Otsuma(2010727)
Otsuma(2010727)
20120701saveMLAK_kusakari
20120701saveMLAK_kusakari
OpenGLAM(20130813)
OpenGLAM(20130813)
Esd21(20101002)
Esd21(20101002)
MeijiLibertyAcademy(20130930)
MeijiLibertyAcademy(20130930)
Semelhante a Ishita_NII(20130724)
Linked Dataの概要と課題
Linked Dataの概要と課題
Masao Takaku
20141205大学図書館の学習支援
20141205大学図書館の学習支援
Shigeki Sugita
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
Ikki Ohmukai
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
utsuro_lab
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
Yuka Egusa
野生の研究について
野生の研究について
Tsubasa Yumura
マイニング探検会#12
マイニング探検会#12
Yoji Kiyota
TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)
真 岡本
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
Kosetsu IKEDA
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
Yasushi Hara
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
Masao Takaku
2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム
Yuka Egusa
質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
図書館利用者の情報探索における分類の役割 Yokoi
図書館利用者の情報探索における分類の役割 Yokoi
alis_lib
20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jror
Yoshiharu Hashimoto
研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)
Masao Takaku
オープンデータとLinked Open Data@筑波大学研究談話会(2013.12.18)
オープンデータとLinked Open Data@筑波大学研究談話会(2013.12.18)
Ikki Ohmukai
物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例
Masao Takaku
20120530 ku-librarians勉強会#148:32歳が語る 昨年度いちばんアツかったこと!!(西川「もし明日参考調査掛に配属されたら」)
20120530 ku-librarians勉強会#148:32歳が語る 昨年度いちばんアツかったこと!!(西川「もし明日参考調査掛に配属されたら」)
kulibrarians
Semelhante a Ishita_NII(20130724)
(20)
Linked Dataの概要と課題
Linked Dataの概要と課題
20141205大学図書館の学習支援
20141205大学図書館の学習支援
Code4Lib 2013参加報告
Code4Lib 2013参加報告
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
saveMLAK ウィキへの引き込み大作戦 ~3つの恐怖症と対策~
野生の研究について
野生の研究について
マイニング探検会#12
マイニング探検会#12
TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
NDLラボサーチ|Code4Lib JAPAN カンファレンス2015 発表資料
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム
質問応答システム入門
質問応答システム入門
図書館利用者の情報探索における分類の役割 Yokoi
図書館利用者の情報探索における分類の役割 Yokoi
20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jror
研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)
オープンデータとLinked Open Data@筑波大学研究談話会(2013.12.18)
オープンデータとLinked Open Data@筑波大学研究談話会(2013.12.18)
物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例
20120530 ku-librarians勉強会#148:32歳が語る 昨年度いちばんアツかったこと!!(西川「もし明日参考調査掛に配属されたら」)
20120530 ku-librarians勉強会#148:32歳が語る 昨年度いちばんアツかったこと!!(西川「もし明日参考調査掛に配属されたら」)
Mais de 真 岡本
『ライブラリー・リソース・ガイド(LRG)』第10号(2015年3月)
『ライブラリー・リソース・ガイド(LRG)』第10号(2015年3月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第18号(2017年3月)
『ライブラリー・リソース・ガイド(LRG)』第18号(2017年3月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第17号(2016年11月)
『ライブラリー・リソース・ガイド(LRG)』第17号(2016年11月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第16号(2016年9月)
『ライブラリー・リソース・ガイド(LRG)』第16号(2016年9月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第15号(2016年6月)
『ライブラリー・リソース・ガイド(LRG)』第15号(2016年6月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第14号(2016年2月)
『ライブラリー・リソース・ガイド(LRG)』第14号(2016年2月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第13号(2015年12月)
『ライブラリー・リソース・ガイド(LRG)』第13号(2015年12月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第12号(2015年9月)
『ライブラリー・リソース・ガイド(LRG)』第12号(2015年9月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第11号(2015年6月)
『ライブラリー・リソース・ガイド(LRG)』第11号(2015年6月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第9号(2014年12月)
『ライブラリー・リソース・ガイド(LRG)』第9号(2014年12月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第8号(2014年9月)
『ライブラリー・リソース・ガイド(LRG)』第8号(2014年9月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第7号(2014年7月)
『ライブラリー・リソース・ガイド(LRG)』第7号(2014年7月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第6号(2014年2月)
『ライブラリー・リソース・ガイド(LRG)』第6号(2014年2月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第5号(2013年12月)
『ライブラリー・リソース・ガイド(LRG)』第5号(2013年12月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第4号(2013年8月)
『ライブラリー・リソース・ガイド(LRG)』第4号(2013年8月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第3号(2013年5月)
『ライブラリー・リソース・ガイド(LRG)』第3号(2013年5月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』創刊号(2012年11月)
『ライブラリー・リソース・ガイド(LRG)』創刊号(2012年11月)
真 岡本
『ライブラリー・リソース・ガイド(LRG)』第2号(2013年2月)
『ライブラリー・リソース・ガイド(LRG)』第2号(2013年2月)
真 岡本
県立図書館の再整備に向けた基本的な考え方 素案__に対する神奈川の県立図書館を考える会の意見
県立図書館の再整備に向けた基本的な考え方 素案__に対する神奈川の県立図書館を考える会の意見
真 岡本
神奈川の県立図書館を考える会政策提言第2弾最終案
神奈川の県立図書館を考える会政策提言第2弾最終案
真 岡本
Mais de 真 岡本
(20)
『ライブラリー・リソース・ガイド(LRG)』第10号(2015年3月)
『ライブラリー・リソース・ガイド(LRG)』第10号(2015年3月)
『ライブラリー・リソース・ガイド(LRG)』第18号(2017年3月)
『ライブラリー・リソース・ガイド(LRG)』第18号(2017年3月)
『ライブラリー・リソース・ガイド(LRG)』第17号(2016年11月)
『ライブラリー・リソース・ガイド(LRG)』第17号(2016年11月)
『ライブラリー・リソース・ガイド(LRG)』第16号(2016年9月)
『ライブラリー・リソース・ガイド(LRG)』第16号(2016年9月)
『ライブラリー・リソース・ガイド(LRG)』第15号(2016年6月)
『ライブラリー・リソース・ガイド(LRG)』第15号(2016年6月)
『ライブラリー・リソース・ガイド(LRG)』第14号(2016年2月)
『ライブラリー・リソース・ガイド(LRG)』第14号(2016年2月)
『ライブラリー・リソース・ガイド(LRG)』第13号(2015年12月)
『ライブラリー・リソース・ガイド(LRG)』第13号(2015年12月)
『ライブラリー・リソース・ガイド(LRG)』第12号(2015年9月)
『ライブラリー・リソース・ガイド(LRG)』第12号(2015年9月)
『ライブラリー・リソース・ガイド(LRG)』第11号(2015年6月)
『ライブラリー・リソース・ガイド(LRG)』第11号(2015年6月)
『ライブラリー・リソース・ガイド(LRG)』第9号(2014年12月)
『ライブラリー・リソース・ガイド(LRG)』第9号(2014年12月)
『ライブラリー・リソース・ガイド(LRG)』第8号(2014年9月)
『ライブラリー・リソース・ガイド(LRG)』第8号(2014年9月)
『ライブラリー・リソース・ガイド(LRG)』第7号(2014年7月)
『ライブラリー・リソース・ガイド(LRG)』第7号(2014年7月)
『ライブラリー・リソース・ガイド(LRG)』第6号(2014年2月)
『ライブラリー・リソース・ガイド(LRG)』第6号(2014年2月)
『ライブラリー・リソース・ガイド(LRG)』第5号(2013年12月)
『ライブラリー・リソース・ガイド(LRG)』第5号(2013年12月)
『ライブラリー・リソース・ガイド(LRG)』第4号(2013年8月)
『ライブラリー・リソース・ガイド(LRG)』第4号(2013年8月)
『ライブラリー・リソース・ガイド(LRG)』第3号(2013年5月)
『ライブラリー・リソース・ガイド(LRG)』第3号(2013年5月)
『ライブラリー・リソース・ガイド(LRG)』創刊号(2012年11月)
『ライブラリー・リソース・ガイド(LRG)』創刊号(2012年11月)
『ライブラリー・リソース・ガイド(LRG)』第2号(2013年2月)
『ライブラリー・リソース・ガイド(LRG)』第2号(2013年2月)
県立図書館の再整備に向けた基本的な考え方 素案__に対する神奈川の県立図書館を考える会の意見
県立図書館の再整備に向けた基本的な考え方 素案__に対する神奈川の県立図書館を考える会の意見
神奈川の県立図書館を考える会政策提言第2弾最終案
神奈川の県立図書館を考える会政策提言第2弾最終案
Ishita_NII(20130724)
1.
学術情報流通を実現する技術(1) 要素技術 (検索、DB等の基盤技術に特化した概論的講義) 九州大学 附属図書館研究開発室 統合新領域学府ライブラリーサイエンス専攻 准教授 石田栄美 ishita.emi.982@m.kyushu-u.ac.jp 平成25年度学術情報ウェブサービス担当者研修 2013年7月24日 1
2.
情報検索とは (由来) • 情報検索 –
IR: information (storage and ) retrieval • 情報(information) を取り戻すこと(retrieval) • 元はinformation storage and retrieval 情報の蓄積と検索 • 蓄積された情報の中から、ある条件や属性に一致した情報をみつ けだすこと – 1950年にムアーズ(Calvin N. Mooers)が初めて定義 – 1960年代に広く使われるようになる – 「情報検索」という訳語を与えたのは東北大学の喜安善市で あるといわれている – (search: これも「検索」と訳すが。。。) あらかじめ 蓄積された データ 取り戻す 回収する (retrieve) retriever(レトリーバー): 獲物をくわえて戻って くるように訓練された猟犬 2
3.
情報検索システムの基本構成 3 あらかじめ 蓄積された データ 検 索 エ ン ジ ン データベース検索語 検索結果
4.
4 データベースの起源 • 1950年代 • 米国国防総省が戦力に関する情報を保管、 集中管理するためコンピュータを使ったライブ ラリーを開発 •
データの基地(data base)から由来
5.
5 データベースの定義(1) • 著作権法二条十の三 – 論文、数値、図形その他の情報の集合物であっ て、それらの情報を電子計算機を用いて検索す ることができるように体系的に構成したもの •
日本工業規格(JIS) – 適用業務分野で使用するデータの集まりであっ て、データの特性とそれに対応する実態の間の 関係とを記述した概念的な構造によって編成され たもの(X0017) – 特定の規則に従って電子的な形式で、一か所に 蓄積されたデータの集合であって、コンピュータ でアクセス可能なもの(X0807)
6.
6 データベースの定義(2) --データベースの特徴-- • コンピュータを用いて検索できることが重要。情報 が電子メディアに蓄積され、コンピュータを使用して 検索できる状態になっている。 • データや情報がコンピュータ処理できるように体系 的に整理され、統合化・構造化されて蓄積・保存さ れており、必要な情報だけを部分的に取り出せる。 •
蓄積情報の検索や更新が容易に行えるよう、効率 化を図ったものである。 ※ ちなみに、ヨーロッパにおけるデータベースの定義では、 コンピュータを使用するかしないか、電子的であるかどうかについては 特に限定していない
7.
(要素技術の話の前に) 前提:計算機は意外と・・・おばか • 計算機(コンピューター、プログラム、システム)は魔法 じゃない • 計算機が得意なこと→(単純な)同じ作業の繰り返しを正 確に・人間より速く・必ずやってくれる –
途中で投げ出したり、飽きたり、疲れたりしない(ただし、電気は 食う) • 計算機はかなり細かいレベルで手順まで含めて命令しな いと動かない – 適当にやってなどの命令はできない – なにか「適当に」やっているように見えることは裏で細かいレベ ルまでの命令を人間が仕込んでいる – 逆に言うと、かなり細かいレベルまでの命令を人間がかんがえ つけなければ、「適当な」動きを計算機を使って実現はできない • 情報検索において、計算機が行う基本的な作業は語と 語のマッチング(照合) 7
8.
検索にまつわる様々な観点(一部) 8 あらかじめ 蓄積された データ 取り戻す (retrieve) どうやってためて いくか(表? XML?) どうやって高速に とりだすか どうやってほし いものを取り出 すか どうやって取り出 しやすくするか どうやって更新し やすくするか(間違 いを少なくなど) 検索する単位は なにか? 文字?単語?文 書?自由語?統 制語?
9.
どうやってためていくか?表?XML? -- データベースの種類 -- •
リレーショナルデータベース(RDB) – 表としてデータを扱う • オブジェクトデータベース – オブジェクトとしてデータを扱う • XMLデータベース – XMLとしてデータを扱う • 全文データベース – いろいろある、なんでもRDBにすればよいというものでは ない – 書誌データ、全文データはRDBには向いていない 9
10.
10 どうやって取り出しやすくするか? -- レコードと検索フィールド-- 検索フィールド 検索フィールド名 検索フィールド値 レコードレコードレコードレコード 論題: Reading―速読・多読 について考える 著者名:
清水由理子 請求記号: P343-5C2-14 掲載誌名: 獨協大学外国語教育研究14 発行年月: 1995.12 掲載ページ: p.273~282 登録日: 19970930 本文: (682CAD-11.pdf ) (仮想的な) 検索フィールド
11.
11 どうやって高速にとりだすか(1) --なにも仕掛けがないと。。。-- • レコードを最初から最後まで順番に検索(走査) • レコードが多くなると時間がかかってしまう キーワードA キーワードB キーワードD レコード1 キーワードA キーワードB キーワードF レコード2 キーワードC キーワードD キーワードE レコード3 キーワードB キーワードC キーワードE レコード4 キーワードA キーワードC レコード5 ヒット!
レコード1 ヒット! レコード3 ヒットした件数は2件、 ヒットしたレコードは レコード1とレコード3 例:「キーワードD」を検索する
12.
どうやって高速にとりだすか(2) -- インデックス を用意する-- •
高速にデータにアクセスするために必要 • インデックス方式 – 転置索引ファイル(Inverted index file) • もっともよく使われる方式 – TRI木 – Suffix Array – ・・・いろいろある 12
13.
13 転置索引ファイル(1) • 検索キーごとにレコードを集計したファイルを作成す る方式 • Inverted
file(転置ファイル、倒置ファイル)ともいう キーワードA キーワードB キーワードD レコード1 キーワードA キーワードB キーワードF レコード2 キーワードC キーワードD キーワードE レコード3 キーワードB キーワードC キーワードE レコード4 キーワードA キーワードC レコード5 A B C D E F 1 1 1 2 2 2 3 3 3 4 4 4 5 5 キーワード レコード 件数 3件 3件 3件 2件 2件 1件 転置索引ファイル
14.
14 転置索引ファイル(2) – 例:「キーワードD」を検索する – 欠点:あらかじめ転置索引ファイルを作らなけれ ばならない、ファイルの容量増 キーワードA キーワードB キーワードD レコード1 キーワードA キーワードB キーワードF レコード2 キーワードC キーワードD キーワードE レコード3 キーワードB キーワードC キーワードE レコード4 キーワードA キーワードC レコード5 A B C D E F 1 1 1 2 2 2 3 3 3 4 4 4 5 5 キーワード
レコード 件数 3件 3件 3件 2件 2件 1件 転置索引ファイル
15.
転置索引ファイル (3) 15 http://nyti.ms/po6J1Z うーむ Aaron Swartz が 昨年 9 月 の JSTOR から の 大量 ダウンロード 容疑 で 逮捕 ・ 起訴 とは 絶句 #librahack 要は ライブラリアン に 必要 な の は 、 国内 文学 読ん だり 、 月 9 の ドラマ を 見 レコード例(1) レコード例(2) #librahack 9 Aaron JSTOR Swartz http://nyti.ms/po6J1Z 、 。 ・ いい うーむ か かけ から が こと し じゃ すぎ する た たり だり て で ひとまとめにして、 辞書順に並べ替え とは な なあ ない なく なら に の は ば ほう みんな もっと を ん ダウンロード ドラマ ライブラリアン 悪い 家 起訴 月 見 言え 国内 昨年 絶句 専門 存在 逮捕 大量 読ん 必要 文学 勉強 本音 名乗る 遊び 容疑 要は 1 1,2 1 1 1 1 1,2 2 1 2 1 2 2 1 1,2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 1,2 2 2 2 2 2 2 2 1 2 2 2 2 1 1,2 2 2 2 1 1 2 2 1 1 2 2 2 2 2 2 2 1 2
16.
転置索引ファイル (4) #librahack 9 Aaron JSTOR Swartz http://nyti.ms/po6J1Z 、 。 ・ いい うーむ か かけ から が こと し じゃ すぎ する た たり だり て で とは な なあ ない なく なら に の は ば ほう みんな もっと を ん ダウンロード ドラマ ライブラリアン 悪い 家 起訴 月 見 言え 国内 昨年 絶句 専門 存在 逮捕 大量 読ん 必要 文学 勉強 本音 名乗る 遊び 容疑 要は 1 1,2 1 1 1 1 1,2 2 1 2 1 2 2 1 1,2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 1,2 2 2 2 2 2 2 2 1 2 2 2 2 1 1,2 2 2 2 1 1 2 2 1 1 2 2 2 2 2 2 2 1 2 • 検索する際には、ひと まとめにした単語リス トに対して照合する。 •
単語リストの長さを T とした場合、平均で Log2(T) 回の照合で 検索できる(=2分探 索) 対数をとるので、飛 躍的な速度が実現 できる。 100語で 平均3.3回 100万語で平均20回 「ダウンロード」で検索する場合
17.
転置索引ファイル(5) --どうやってキーワードを取り出す?-- • http://nyti.ms/po6J1Z • うーむ •
Aaron • Swartz • が • 昨年 • 9 • 月 • の • JSTOR • から • の • 大量 • ダウンロード • 容疑 • で • 逮捕 • ・ • 起訴 • とは レコード例(1): 「http://nyti.ms/po6J1Z うーむ、 Aaron Swartzが昨年9月のJSTORからの大量 ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 意味のある語単位で切る=形態素解析 (日本語の文章の意味(かかり受けや品詞など)を解析して 意味のある語で区切るようにする) • 絶句 • #librahack http://twitter.com/tmasao/status/93607169886396416
18.
転置索引ファイル(6) --どうやってキーワードを取り出す?-- • http://nyti.ms/po6J1Z • うー •
ーむ • Aaron • Swartz • が昨 • 年9 • 9月 • 月の • ロー • ード • ド容 • 容疑 • 疑で • で逮 • 逮捕 • 捕・ • ・起 レコード例(1): 「http://nyti.ms/po6J1Z うーむ、 Aaron Swartzが昨年9月のJSTORからの大量 ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 • JSTOR • から • らの • の大 • 大量 • 量ダ • ダウ • ウン • ンロ • 起訴 • 訴と • とは • は絶 • 絶句 • #librahack N-gram: 強引に、2文字づつなどで強制的に切る方法 http://twitter.com/tmasao/status/93607169886396416
19.
転置ファイル(7) --どうやってキーワードを取り出す?-- • 要は • ライブラリアン •
に • 必要 • な • の • は • 、 • 国内 • 文学 • 読ん • だり • 、 • 月 • 9 • の • ドラマ • を • 見 • たり レコード例(2): 「要はライブラリアンに必要なのは、国内 文学読んだり、月9のドラマを見たりするんじゃなくて、存 在をかけて勉強することじゃないかなあ。本音を言えば、 悪いが、みんな遊びすぎ。専門家を名乗るなら、もっと勉 強したほうがいい。」 • する • ん • じゃ • なく • て • 、 • 存在 • を • かけ • て • 勉強 • する • こと • じゃ • ない • か • なあ • 。 • 本音 • を • 言え • ば • 、 • 悪い • が • 、 • みんな • 遊び • すぎ • 。 • 専門 • 家 • を • 名乗る • なら • 、 • もっと • 勉強 • し • た • ほう • が • いい • 。 http://twitter.com/arg/status/20007995359 形態素解析
20.
転置索引ファイル(8) --どうやって検索する?-- • レコード例: – (1)
「http://nyti.ms/po6J1Z うーむ、Aaron Swartzが昨年9月の JSTORからの大量ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 – (2)「要はライブラリアンに必要なのは、国内文学読んだり、月9 のドラマを見たりするんじゃなくて、存在をかけて勉強すること じゃないかなあ。本音を言えば、悪いが、みんな遊びすぎ。専門 家を名乗るなら、もっと勉強したほうがいい。」 • Q: [Swartz] -> [Swartz] -> Hit! (1) • Q: [専門家] -> [専門][家] -> Hit! (2) • Q: [9月] -> [9][月] -> Hit? (1) (2) • Q: [#librahack] -> Hit??? • Q: [アーロン・シュワルツ] -> No Hit? インデックスを使った 検索(仕組み/人) のところで、 それぞれ工夫必要
21.
まとめ • 情報検索~データベースとは? • 検索にまつわる観点 •
レコードの蓄積からインデックスの構築、検索まで • 転置索引ファイルを例に • 参考文献: – 情報アクセスの新たな展開-情報検索・利用の最新動向. 日本 図書館情報学会編. 勉誠出版, 2009, 216p. ISBN: 978-4-585- 00278-9 – Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition). Ricardo Baeza-Yates, Berthier Ribeiro- Neto. ACM Press Books, 2011, 944p. ISBN: 978-0321416919 • スライド – 国立教育政策研究所の江草由佳総括研究官からご提供いただ いたものを、一部、加筆したものです。 21
Baixar agora