Mais conteúdo relacionado Towards Effective Browsing of Large Scale Social Annotations1. 論文紹介
Towards Effective Browsing of
Large Scale Social
Annotations
Rui Li, Shenghua Bao, Ben Fei, Zhong Su,
and Yong Yu
Proceedings of the 16th international
conference on World Wide Web
(WWW2007)
伊東研 修士2年
百田信 3. 1. はじめに
Social Annotationの普及
• Annotation: 注釈
• Social Annotation
– Webコンテンツに対しAnnotation(注釈)を付け
る
– Annotationを公開し共有する
– Tag, コメント, 日付, …
– Social Annotationサービスの例
• 動画
YouTube
• 画像
Flickr
• ブックマーク
Del.icio.us
• はてなブックマーク ブックマーク
3 5. 1. はじめに
Social Bookmark
• Social Bookmarkとは
– Social Annotation Serviceのひとつ
– Tag (Annotation)付けしたBookmark
例:Del.icio.us, はてなブックマーク
URL
マリオ
tag
Wii
Bookmark
User
5 7. 1. はじめに
Annotation (Tag) を利用した情報探索
• Tagは…
– コンテンツを組織化するための手法
– おもしろい情報資源を発見させるナビゲーション機構
• Tagによる情報探索法
– Keyword検索
• Tagに関連するコンテンツをすべて表示
– Tag Cloud View
• アルファベット順
• フォントサイズ
• フォント色
入力 : Annotationの選択
7 8. 1. はじめに
問題点
• 小規模なTag集合
– Tag Cloudによる人気Tagの閲覧
• 大規模なTag集合
– コンテンツとTagは単純な文字表現の結びつき
• 同義語 : 似た意味の単語
– 単純なマッチングでは関連する情報資源を見つけられない
• あいまいさ : 複数の意味を持つ単語
– ゴミページを紹介してしまう
– 返ってくる結果がカテゴライズされていない
• たくさんの結果からおもしろい情報資源を閲覧するの
は困難
8 9. 1. はじめに
本論文の目的
• Annotationの急増による閲覧性の低下
– Tag Cloudでは見れない
– Keyword検索では関連するTagが見れない
大規模なAnnotationを効率的に閲覧
する手法 “ELSABer”の提案
9 11. 2. 提案手法
準備
• 対象
– Social BookmarkサイトDel.icio.us
• Annotationの定義
(User, URL, Tag, Time)
URL
マリオ
tag
Wii
Bookmark User
• AnnotationをTagging Spaceの点とみなす
• (最初の解析ではUser・Timeは使わない)
11 12. 2. 提案手法
行列表現
n個
URL
U1 U2 Uj Un
U1 Un …
Uj
tt c11 c12 c1j c1n
t1
t1 t28
28
tt 28
t22 c12 c22 3
t2
2
t55
t ti
:
:
ti 行列 C
… … cij …
c1i cin
ti
:
:
cij : URLj に対してタグ ti を :
Tag
つけた利用者数 …
cm1 cm2 cmj cmn
tm
m個
=タグ ti のTF値
12 13. 2. 提案手法
関連行列
m11 m12 m1n
関連行列
n
mij cij log
m21
mij
URLti
M
m mmn
m1
n
TF (ti ) log
DF (t )
mij : URLj とタグ ti の関連度
i
本研究では mij に TFIDF を用いる
文書Dj ページ Uj における
タグ(単語)tiの重要度
13 14. 2. 提案手法
ELSABerの提案
• ELSABer
– Effective Large Scale Annotation Browser
– 大規模Annotationの効果的閲覧手法
– 3つの特徴
Semantic Hierarchical Effective
Browsing Browsing Browsing
意味概念を形成 単語„tag‟間に Tag分布の分析
類似単語„tag‟ 階層付け
の集合
14 15. 2. 提案手法
試作システムのUI
サブカテゴリ 選択されたTagに
最初の画面
関連するページ集合
15
人気のあるTag 16. 2. 提案手法
ELSABerの全体像
Enhanced Model
大規模な
Annotation
User Time
Effective
Browsing
Tag分布の分析
重要タグの抽出
Semantic
実験
Browsing
意味概念を形成
類似単語の集合
Hierarchical
Browsing
単語„tag‟間に
階層付け
16 18. 3. Semantic Browsing
類似するTagとは
Social Annotation環境において、類似したTagは類
似したURLに付与され、また、類似したURLは類似
したTagを付与される
類似している
意味概念(類似したTagの集合)を求めたい
18 19. 3. Semantic Browsing
Tag間の類似度
• コサイン尺度で計算
類似度= cosTi , T j URLy
Tj
Ti
m11 m12 m1n θ
関連行列
m21
mij
M
o
URLx
m mmn Ti T j
m1
cos
| Ti || T j |
19 20. 3. Semantic Browsing
3.2 意味概念の生成
• すべてのTagについ
ぬこ
て類似度を求める ねこ
1. あるTagについて類
あとで見る
ハロプロ
似する上位N個の
ようつべ
Tagを選ぶ θ
2. 類似度が閾値θ以上 これはすごい
youtube
なら意味概念 ネタ YouTube you tube
You tube
youtube
動画
Video
映像
YouTubeの意味概念
20 22. 4. Hierarchical Browsing
ELSABerの全体像
Enhanced Model
大規模な
Annotation
User Time
Effective
Browsing
Tag分布の分析
重要タグの抽出
Semantic
実験
Browsing
意味概念を形成
類似単語の集合
Hierarchical
Browsing
単語„tag‟間に
階層付け
22 23. 4. Hierarchical Browsing
4. Hierarchical Browsing
Social Annotationとして使われるTagは異なる意味
レベルを示す
• Hierarchical Browsing
– Tag間の上下関係
• Sub-Tagの抽出
23 24. 4. Hierarchical Browsing
4.1 Hierarchical Annotationの要件
1. 目的情報へのパスが複数
存在すべき
• 一つのURLは複数のカ
テゴリに関係する
2. カテゴリ構成が柔軟であるべき
• Programming, Designという違う興味からJSPへ辿りつく
3. 動的に階層構造が変化すべき
• 増え続けるAnnotationに対応する
24 25. 4. Hierarchical Browsing
4.2 Tagの上下関係 (1)
• Tagのタイプ
– 親Tag
• 意味レベルが高い、より一般的なTag
親Tag
– Sub-Tag
• 意味レベルが低いTag
tj Current Tag
• 関係あるURLの内容を表しているTag
• サブカテゴリに属するTag
– その他のTag ti Sub-Tag
• 関連のある別の情報資源を表すが、
– 一般的ではないTag ti:sub-tag候補
– 明確ではないTag tj:current tag
25 26. 4. Hierarchical Browsing
4.2 Tagの上下関係 (2)
• Sub-Tagの生成法
– 親TagとSub-Tagを決
true false
める決定木による生成
a. Coverage of Tags
b. Intersection Rate
c. IRR
26 27. 4. Hierarchical Browsing
a. Coverage of Tags
100
• 類似するTag間に上下関係をつ High
Web
ける 50
Google
30
– WebのほうがGoogleよりも関係する
Googletips Low
URLが多い
– GoogleのほうがGoogletipsよりも関係す
るURLが多い
U (ti ) tiでTag付けされたURL数
Coverageij
U (t j )
27 28. 4. Hierarchical Browsing
b. Intersection Rate
Google
U(tj) High
Google
gmaps
U(ti)
gmaps Low
• gmaps が付けられたURLのほと
U (ti ) U (t j )
IRij
んどにGoogleが付いている
• Googleが付けられたURLに U (ti )
gmapsがあまり付いてない
28 29. 4. Hierarchical Browsing
c. IRR
• Intersection Rate Ranking:IRR
– IRによるランクから1, 2, 3の離散値を付与
rank value
Top 30 1
30th ~ 60th 2
61st ~ 3
29 30. 4. Hierarchical Browsing
Sub-Tagを判定する決定木
• 手動でラベル付けした学習データを用意
– Coverage
– IR
true false
– IRR
• 決定木を生成
親TagとSub-Tagを決める決定木
30 32. 5. Effective Browsing
ELSABerの全体像
Enhanced Model
大規模な
Annotation
User Time
Effective
Browsing
Tag分布の分析
重要タグの抽出
Semantic
実験
Browsing
意味概念を形成
類似単語の集合
Hierarchical
Browsing
単語„tag‟間に
階層付け
32 33. 5. Effective Browsing
5. Effective Browsing
人は人気のあるTagをURLに付け、また、人気
のあるURLは大多数のTagを付けられる
• Tagの分布を分析する
– 問題
• Tagging Spaceが大きい
– 数百万のTag
• 転置インデックスが有効でなくなる
– 小規模なTagging Spaceへ落とし込む
• SamplingによってSub-Tagging Spaceへ縮小化
33 34. 5. Effective Browsing
Tagの分布
• Tagの分布
– 人気のあるTagはURLに付
与されやすい
• 人気のないTagはほとんど
付与されない
– 人気のあるTagは頻繁かつ
広範囲にわたって使用され
る
• Sampling
– 小規模なTagging Spaceへ
– 上位K個のTagと上位K
個のURLで十分
34 35. ELSABerのまとめ
• Semantic Browsing
– 類似するTagを見つける
• Hierarchical Browsing
– 類似するTag間の上下関係を見つける
• Sub-Tag
– 意味レベルが下位のTag
• Effective Browsing
– Tagの分布
– SamplingによるTagging Spaceの縮小化
35 37. ELSABerの全体像
Enhanced Model
大規模な
Annotation
User Time
Effective
Browsing
Tag分布の分析
重要タグの抽出
Semantic
実験
Browsing
意味概念を形成
類似単語の集合
Hierarchical
Browsing
単語„tag‟間に
階層付け
37 38. 6. Enhanced Model
6. Enhanced Model
• Personalized • Time-related
Browsing Browsing
User Time
– 人によって興味は違う – 人は最新の話題に興味
がある
– 利用者情報の利用
– 時間情報の利用
• 個人化„
Personalization‟ • 最近人気のあるTagを
発見
• 利用者の興味により近
いマッチング
38 40. 7. 実験
7. 実験
• 実験データ
– 2006年3月に集めたDel.icio.usのデータ
Webページ数 1,736,268ページ
一意なAnnotation 269,566個
• 各実験
7.1 類似度計測
7.2 階層化の結果
7.3 実行時間
7.4 Personalized Browsingの結果
7.5 Time-related Browsingの結果
40 41. 7. 実験
7.1 類似度計測の結果
高い関係性を持つTag (同義語、省略形、複数形)
CVS Versioncontrol, SVN, subversion, control
Movie Movies, Film, Films
Computer/Gallery Album, photogallery, fotos
Programming/Meta Metaprogramming
Programming/Movie screenshot, screencapture
Programming/Brainstorming mindmap, freemind
Current Tagの意味は、それまでの利用者の選択に影響を受ける
例)
:”films”, “moving picture”
日常生活での”movie”
“programming”を選択して”movie” : “screenshot”, “screencapture”
41 42. 7. 実験
7.1 類似度計測の結果
高い関係性を持つTag (同義語、省略形、複数形)
CVS Versioncontrol, SVN, subversion, control
Movie Movies, Film, Films
Computer/Gallery Album, photogallery, fotos
Programming/Meta Metaprogramming
Social Annotation環境における
Programming/Movie screenshot, screencapture
Tag間の関係を正確に反映している
Programming/Brainstorming mindmap, freemind
Current Tagの意味は、それまでの利用者の選択に影響を受ける
例)
:”films”, “moving picture”
日常生活での”movie”
“programming”を選択して”movie” : “screenshot”, “screencapture”
42 43. 7. 実験
7.2 階層化の結果(1)
• 研究室内の学生に
Del.icio.us人気Topic100個
の中からランダムに選んで
もらった概念
• 概念は異なる分野に分布
– Del.icio.usのTagはITに関係す
るものが多い
– 選択されたTopicもITに関係す
るものが多い
43 44. 7. 実験
7.2 階層化の結果(2)
• Science
– math, physics, psychologyなどの 概念のラベル
サブカテゴリーを表示
下位概念
44 45. 7. 実験
7.2 階層化の結果(2)
• Science
– math, physics, psychologyなどの 概念のラベル
サブカテゴリーを表示
人々が日常生活の中で思うような
Tagの階層構造が形成された
下位概念
45 46. 7. 実験
7.3 実行時間
• Spec
– Intel Pentium Ⅳ: 3.0 GHz
– Memory : 1GB
– 2 Processors
• システム
– 言語:Java
– 全文検索エンジン「Lucene」のAPI
• URLとTagのインデックス
– DB
• 上位2000のURL-Tag行列を格納
20概念の平均処理時間 :1.3秒
46 47. 7. 実験
7.4 Personalized Browsingの結果
• 利用者のProfileを考慮するTag Cloud試作
システムが推薦するTag
すでにTag付けしているもの
その他のTag
• 実験における利用者profile
– 25tags, 45URLs
– 上位5個のtag
• “Linux”, “media”, “video”, “JavaScript”, “Java”
• Web開発者かメディアに関心がある人
– 利用者が興味のある情報資源を効果的に発見する支援をし
ている
47 48. 7. 実験
7.5 Time-related Browsingの結果
• 3URLに関連するTag Countの分布
– 時間とともに人気は変化する
– 新たに出現してくるURLの発見
– 周期的なHot Topicの発見
48 49. 7. 実験
7.5 Time-related Browsingの結果
• 3URLに関連するTag Countの分布
– 時間とともに人気は変化する
– 新たに出現してくるURLの発見
– 周期的なHot Topicの発見
時間情報を含むSocial Annotationを閲
覧することによって人気のTopicを取
得できる
49 51. まとめ
• Social Annotationの閲覧
– 大規模なAnnotationのための効率的な閲覧手法が必要
– ELSABerを提案
• ELSABer
– Semantic Browsing
– Hierarchical Browsing
– Effective Browsing
• Enhanced Model
– Personalized Browsing
– Time-related Browsing
• 実験
– Del.icio.usのデータを利用
– 有効性を実証
51