SlideShare uma empresa Scribd logo
1 de 52
Baixar para ler offline
論文紹介


Towards Effective Browsing of
     Large Scale Social
        Annotations
 Rui Li, Shenghua Bao, Ben Fei, Zhong Su,
               and Yong Yu
   Proceedings of the 16th international
      conference on World Wide Web
               (WWW2007)

             伊東研 修士2年
               百田信
1. はじめに
1. はじめに
         Social Annotationの普及

• Annotation: 注釈
• Social Annotation
  – Webコンテンツに対しAnnotation(注釈)を付け
    る
  – Annotationを公開し共有する
  – Tag, コメント, 日付, …
  – Social Annotationサービスの例
    •                 動画
        YouTube
    •                 画像
        Flickr
    •                 ブックマーク
        Del.icio.us
    •   はてなブックマーク     ブックマーク

                                    3
Annotationの例:YouTube




                       4
1. はじめに
        Social Bookmark
• Social Bookmarkとは
  – Social Annotation Serviceのひとつ
  – Tag (Annotation)付けしたBookmark
  例:Del.icio.us, はてなブックマーク

          URL
                 マリオ
                       tag
                 Wii
                        Bookmark
                                   User



                                              5
1. はじめに
Social Bookmarkの例:はてなブックマーク




                              6
1. はじめに
  Annotation (Tag) を利用した情報探索
• Tagは…
  – コンテンツを組織化するための手法
  – おもしろい情報資源を発見させるナビゲーション機構
• Tagによる情報探索法
  – Keyword検索
     • Tagに関連するコンテンツをすべて表示
  – Tag Cloud View
                     • アルファベット順
                     • フォントサイズ
                     • フォント色

                     入力 :    Annotationの選択




                                             7
1. はじめに
               問題点
• 小規模なTag集合
 – Tag Cloudによる人気Tagの閲覧
• 大規模なTag集合
 – コンテンツとTagは単純な文字表現の結びつき
   • 同義語 :   似た意味の単語
    – 単純なマッチングでは関連する情報資源を見つけられない
   • あいまいさ :   複数の意味を持つ単語
    – ゴミページを紹介してしまう
 – 返ってくる結果がカテゴライズされていない
   • たくさんの結果からおもしろい情報資源を閲覧するの
     は困難


                                   8
1. はじめに
       本論文の目的
• Annotationの急増による閲覧性の低下
 – Tag Cloudでは見れない
 – Keyword検索では関連するTagが見れない



  大規模なAnnotationを効率的に閲覧
   する手法 “ELSABer”の提案


                             9
2. 提案手法
2. 提案手法
                       準備
• 対象
  – Social BookmarkサイトDel.icio.us
• Annotationの定義
  (User, URL, Tag, Time)
           URL
                 マリオ
                       tag
                 Wii
                        Bookmark   User

• AnnotationをTagging Spaceの点とみなす
• (最初の解析ではUser・Timeは使わない)

                                             11
2. 提案手法
                      行列表現
                                                                    n個
                                                              URL
                                        U1    U2        Uj          Un
   U1                Un                             …
          Uj
                     tt                 c11   c12       c1j         c1n
                                   t1
    t1               t28
                      28
               tt       28
               t22                      c12   c22       3
                                   t2
                2
    t55
    t                 ti
                                                         :
                                   :
                ti                             行列 C
                                              … … cij …
                                        c1i                         cin
                                   ti
                                                         :
                                   :
cij : URLj に対してタグ ti を                                   :
                             Tag
      つけた利用者数                                       …
                                        cm1 cm2         cmj         cmn
                                   tm
                             m個
      =タグ ti のTF値



                                                               12
2. 提案手法
                    関連行列

      m11   m12  m1n 
関連行列                                                  
                                                n
                                                        
                            mij  cij  log 
      m21             
             mij
                                             URLti 
                                                         
  M 
                                                      
        
                      
     m           mmn 
      m1              
                                                n
                                TF (ti )  log 
                                                 DF (t ) 
  mij : URLj とタグ ti の関連度                                  
                                                      i

   本研究では mij に TFIDF を用いる
                               文書Dj ページ Uj における
                               タグ(単語)tiの重要度


                                                         13
2. 提案手法
          ELSABerの提案
• ELSABer
 – Effective Large Scale Annotation Browser
 – 大規模Annotationの効果的閲覧手法
 – 3つの特徴
     Semantic     Hierarchical   Effective
     Browsing      Browsing      Browsing
    意味概念を形成       単語„tag‟間に      Tag分布の分析
    類似単語„tag‟       階層付け
      の集合



                                              14
2. 提案手法
      試作システムのUI




            サブカテゴリ   選択されたTagに
最初の画面
                     関連するページ集合
                                 15
 人気のあるTag
2. 提案手法
       ELSABerの全体像
                                  Enhanced Model
  大規模な
  Annotation

                                  User     Time
                      Effective
                      Browsing
                     Tag分布の分析
                     重要タグの抽出
 Semantic
                                         実験
 Browsing
意味概念を形成
類似単語の集合




Hierarchical
 Browsing
単語„tag‟間に
  階層付け



                                          16
3. Semantic Browsing
3. Semantic Browsing
      類似するTagとは
 Social Annotation環境において、類似したTagは類
似したURLに付与され、また、類似したURLは類似
したTagを付与される


 類似している




 意味概念(類似したTagの集合)を求めたい
                                    18
3. Semantic Browsing
          Tag間の類似度
• コサイン尺度で計算
   類似度= cosTi , T j       URLy
                                            Tj
                                                 Ti
       m11   m12  m1n              θ
関連行列                   
       m21             
              mij
   M 
                           o
                                                    URLx
                       
      m           mmn                  Ti  T j
       m1              
                            cos  
                                      | Ti || T j |

                                                       19
3. Semantic Browsing
       3.2 意味概念の生成
•  すべてのTagについ
                       ぬこ
   て類似度を求める                   ねこ
1. あるTagについて類
                                          あとで見る
                ハロプロ
   似する上位N個の
                                   ようつべ
   Tagを選ぶ                 θ
2. 類似度が閾値θ以上     これはすごい
                                    youtube
   なら意味概念        ネタ           YouTube     you tube
                                You tube
                                      youtube
                   動画
                     Video
                  映像
                       YouTubeの意味概念




                                                 20
4. Hierarchical Browsing
4. Hierarchical Browsing
       ELSABerの全体像
                                  Enhanced Model
  大規模な
  Annotation

                                  User     Time
                      Effective
                      Browsing
                     Tag分布の分析
                     重要タグの抽出
 Semantic
                                         実験
 Browsing
意味概念を形成
類似単語の集合




Hierarchical
 Browsing
単語„tag‟間に
  階層付け



                                              22
4. Hierarchical Browsing
   4. Hierarchical Browsing
  Social Annotationとして使われるTagは異なる意味
  レベルを示す

• Hierarchical Browsing
  – Tag間の上下関係
     • Sub-Tagの抽出




                                            23
4. Hierarchical Browsing
4.1 Hierarchical Annotationの要件


1. 目的情報へのパスが複数
   存在すべき
   • 一つのURLは複数のカ
     テゴリに関係する

2. カテゴリ構成が柔軟であるべき
   • Programming, Designという違う興味からJSPへ辿りつく

3. 動的に階層構造が変化すべき
   • 増え続けるAnnotationに対応する

                                         24
4. Hierarchical Browsing
     4.2 Tagの上下関係 (1)
• Tagのタイプ
 – 親Tag
   • 意味レベルが高い、より一般的なTag
                                    親Tag
 – Sub-Tag
   • 意味レベルが低いTag
                               tj   Current Tag
   • 関係あるURLの内容を表しているTag
   • サブカテゴリに属するTag
 – その他のTag                     ti   Sub-Tag
   • 関連のある別の情報資源を表すが、
      – 一般的ではないTag            ti:sub-tag候補
      – 明確ではないTag             tj:current tag

                                           25
4. Hierarchical Browsing
     4.2 Tagの上下関係 (2)
• Sub-Tagの生成法
 – 親TagとSub-Tagを決
                              true       false
   める決定木による生成
  a. Coverage of Tags
  b. Intersection Rate
  c. IRR




                                           26
4. Hierarchical Browsing
     a. Coverage of Tags
                                        100
• 類似するTag間に上下関係をつ                              High
                                  Web
  ける                                      50
                                 Google
                                          30
 – WebのほうがGoogleよりも関係する
                                Googletips      Low
   URLが多い
 – GoogleのほうがGoogletipsよりも関係す
   るURLが多い



                      U (ti ) tiでTag付けされたURL数
         Coverageij 
                      U (t j )

                                               27
4. Hierarchical Browsing
         b. Intersection Rate
Google

U(tj)                                              High
                                     Google
                 gmaps

                 U(ti)
                                     gmaps          Low


• gmaps が付けられたURLのほと
                                   U (ti )  U (t j )
                          IRij 
  んどにGoogleが付いている
• Googleが付けられたURLに                      U (ti )
  gmapsがあまり付いてない

                                                  28
4. Hierarchical Browsing
                    c. IRR
• Intersection Rate Ranking:IRR
  – IRによるランクから1, 2, 3の離散値を付与

                  rank       value
           Top 30             1
           30th   ~ 60th      2
           61st ~             3




                                             29
4. Hierarchical Browsing
  Sub-Tagを判定する決定木
• 手動でラベル付けした学習データを用意
 – Coverage
 – IR
                    true     false
 – IRR
• 決定木を生成



              親TagとSub-Tagを決める決定木


                                     30
5. Effective Browsing
5. Effective Browsing
       ELSABerの全体像
                                  Enhanced Model
  大規模な
  Annotation

                                  User     Time
                      Effective
                      Browsing
                     Tag分布の分析
                     重要タグの抽出
 Semantic
                                         実験
 Browsing
意味概念を形成
類似単語の集合




Hierarchical
 Browsing
単語„tag‟間に
  階層付け



                                              32
5. Effective Browsing
   5. Effective Browsing
 人は人気のあるTagをURLに付け、また、人気
 のあるURLは大多数のTagを付けられる

• Tagの分布を分析する
 – 問題
  • Tagging Spaceが大きい
    – 数百万のTag
  • 転置インデックスが有効でなくなる
 – 小規模なTagging Spaceへ落とし込む
  • SamplingによってSub-Tagging Spaceへ縮小化

                                      33
5. Effective Browsing
                Tagの分布
• Tagの分布
  – 人気のあるTagはURLに付
    与されやすい
     • 人気のないTagはほとんど
       付与されない
  – 人気のあるTagは頻繁かつ
    広範囲にわたって使用され
    る

• Sampling
   – 小規模なTagging Spaceへ
  – 上位K個のTagと上位K
    個のURLで十分
                                        34
ELSABerのまとめ
• Semantic Browsing
  – 類似するTagを見つける
• Hierarchical Browsing
  – 類似するTag間の上下関係を見つける
    • Sub-Tag
       – 意味レベルが下位のTag
• Effective Browsing
  – Tagの分布
  – SamplingによるTagging Spaceの縮小化

                                   35
6. Enhanced Model
ELSABerの全体像
                                  Enhanced Model
  大規模な
  Annotation

                                  User     Time
                      Effective
                      Browsing
                     Tag分布の分析
                     重要タグの抽出
 Semantic
                                         実験
 Browsing
意味概念を形成
類似単語の集合




Hierarchical
 Browsing
単語„tag‟間に
  階層付け



                                              37
6. Enhanced Model
         6. Enhanced Model
• Personalized            • Time-related
  Browsing                  Browsing
                  User                     Time


  – 人によって興味は違う              – 人は最新の話題に興味
                              がある
  – 利用者情報の利用
                            – 時間情報の利用
     • 個人化„
       Personalization‟        • 最近人気のあるTagを
                                 発見
     • 利用者の興味により近
       いマッチング




                                            38
7. 実験
7. 実験
                 7. 実験
• 実験データ
 – 2006年3月に集めたDel.icio.usのデータ
       Webページ数         1,736,268ページ
       一意なAnnotation   269,566個

• 各実験
 7.1   類似度計測
 7.2   階層化の結果
 7.3   実行時間
 7.4   Personalized Browsingの結果
 7.5   Time-related Browsingの結果


                                      40
7. 実験
         7.1 類似度計測の結果
高い関係性を持つTag (同義語、省略形、複数形)
CVS                         Versioncontrol, SVN, subversion, control
Movie                       Movies, Film, Films
Computer/Gallery            Album, photogallery, fotos
Programming/Meta            Metaprogramming
Programming/Movie           screenshot, screencapture
Programming/Brainstorming   mindmap, freemind

Current Tagの意味は、それまでの利用者の選択に影響を受ける
    例)
                              :”films”, “moving picture”
    日常生活での”movie”
    “programming”を選択して”movie” : “screenshot”, “screencapture”



                                                                 41
7. 実験
         7.1 類似度計測の結果
高い関係性を持つTag (同義語、省略形、複数形)
CVS                     Versioncontrol, SVN, subversion, control
Movie                   Movies, Film, Films
Computer/Gallery        Album, photogallery, fotos
Programming/Meta          Metaprogramming
      Social Annotation環境における
Programming/Movie         screenshot, screencapture
  Tag間の関係を正確に反映している
Programming/Brainstorming mindmap, freemind

Current Tagの意味は、それまでの利用者の選択に影響を受ける
    例)
                              :”films”, “moving picture”
    日常生活での”movie”
    “programming”を選択して”movie” : “screenshot”, “screencapture”



                                                             42
7. 実験
          7.2 階層化の結果(1)
• 研究室内の学生に
  Del.icio.us人気Topic100個
  の中からランダムに選んで
  もらった概念
• 概念は異なる分野に分布
  – Del.icio.usのTagはITに関係す
    るものが多い
  – 選択されたTopicもITに関係す
    るものが多い




                             43
7. 実験
            7.2 階層化の結果(2)
• Science
  – math, physics, psychologyなどの   概念のラベル
    サブカテゴリーを表示




                                   下位概念




                                          44
7. 実験
            7.2 階層化の結果(2)
• Science
  – math, physics, psychologyなどの   概念のラベル
    サブカテゴリーを表示




      人々が日常生活の中で思うような
       Tagの階層構造が形成された
                                   下位概念




                                          45
7. 実験
                7.3 実行時間
• Spec
  – Intel Pentium Ⅳ: 3.0 GHz
  – Memory         : 1GB
  – 2 Processors
• システム
  – 言語:Java
  – 全文検索エンジン「Lucene」のAPI
     • URLとTagのインデックス
  – DB
     • 上位2000のURL-Tag行列を格納



 20概念の平均処理時間                   :1.3秒
                                       46
7. 実験
 7.4 Personalized Browsingの結果
• 利用者のProfileを考慮するTag Cloud試作
                                                    システムが推薦するTag
                                                    すでにTag付けしているもの
                                                    その他のTag




• 実験における利用者profile
  – 25tags, 45URLs
  – 上位5個のtag
     • “Linux”, “media”, “video”, “JavaScript”, “Java”
     • Web開発者かメディアに関心がある人
  – 利用者が興味のある情報資源を効果的に発見する支援をし
    ている
                                                              47
7. 実験
 7.5 Time-related Browsingの結果
• 3URLに関連するTag Countの分布
  – 時間とともに人気は変化する
  – 新たに出現してくるURLの発見
  – 周期的なHot Topicの発見




                            48
7. 実験
 7.5 Time-related Browsingの結果
• 3URLに関連するTag Countの分布
  – 時間とともに人気は変化する
  – 新たに出現してくるURLの発見
  – 周期的なHot Topicの発見

時間情報を含むSocial Annotationを閲
覧することによって人気のTopicを取
得できる



                            49
8. おわりに
まとめ
• Social Annotationの閲覧
  – 大規模なAnnotationのための効率的な閲覧手法が必要
  – ELSABerを提案
• ELSABer
  – Semantic Browsing
  – Hierarchical Browsing
  – Effective Browsing
• Enhanced Model
  – Personalized Browsing
  – Time-related Browsing
• 実験
  – Del.icio.usのデータを利用
  – 有効性を実証

                                    51
ご静聴ありがとうございました




 指建礼   折手礼 拓手礼 双手礼   合手礼

Mais conteúdo relacionado

Mais procurados

もっと仕事で使うRuby
もっと仕事で使うRubyもっと仕事で使うRuby
もっと仕事で使うRuby
Kentaro Goto
 
Cybozu Inc 10th anniversary event - developing section.
Cybozu Inc 10th anniversary event - developing section.Cybozu Inc 10th anniversary event - developing section.
Cybozu Inc 10th anniversary event - developing section.
cydn.cybozu.co.jp
 
技術トレンディセミナー JavaScriptフレームワーク活用
技術トレンディセミナー JavaScriptフレームワーク活用技術トレンディセミナー JavaScriptフレームワーク活用
技術トレンディセミナー JavaScriptフレームワーク活用
terada
 
DS-026-知識管理的導入策略與步驟
DS-026-知識管理的導入策略與步驟DS-026-知識管理的導入策略與步驟
DS-026-知識管理的導入策略與步驟
handbook
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanohara
Hiroshi Ono
 
はてなブックマークのシステムについて
はてなブックマークのシステムについてはてなブックマークのシステムについて
はてなブックマークのシステムについて
Naoya Ito
 
Conf Of Library Hyogo(20080919)
Conf Of Library Hyogo(20080919)Conf Of Library Hyogo(20080919)
Conf Of Library Hyogo(20080919)
真 岡本
 

Mais procurados (20)

T2@java-ja#toyama
T2@java-ja#toyamaT2@java-ja#toyama
T2@java-ja#toyama
 
もっと仕事で使うRuby
もっと仕事で使うRubyもっと仕事で使うRuby
もっと仕事で使うRuby
 
xv-ii.com
xv-ii.comxv-ii.com
xv-ii.com
 
Cybozu Inc 10th anniversary event - developing section.
Cybozu Inc 10th anniversary event - developing section.Cybozu Inc 10th anniversary event - developing section.
Cybozu Inc 10th anniversary event - developing section.
 
Top Ten SE Concepts V11.1 Jp
Top Ten SE Concepts V11.1 JpTop Ten SE Concepts V11.1 Jp
Top Ten SE Concepts V11.1 Jp
 
S12
S12S12
S12
 
Kymco Marketing Plan
Kymco Marketing PlanKymco Marketing Plan
Kymco Marketing Plan
 
第3回「国連機関への就職ガイダンス」議事録
第3回「国連機関への就職ガイダンス」議事録第3回「国連機関への就職ガイダンス」議事録
第3回「国連機関への就職ガイダンス」議事録
 
技術トレンディセミナー JavaScriptフレームワーク活用
技術トレンディセミナー JavaScriptフレームワーク活用技術トレンディセミナー JavaScriptフレームワーク活用
技術トレンディセミナー JavaScriptフレームワーク活用
 
XS Japan 2008 Ganeti Japanese
XS Japan 2008 Ganeti JapaneseXS Japan 2008 Ganeti Japanese
XS Japan 2008 Ganeti Japanese
 
DS-026-知識管理的導入策略與步驟
DS-026-知識管理的導入策略與步驟DS-026-知識管理的導入策略與步驟
DS-026-知識管理的導入策略與步驟
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanohara
 
Microfinance Forum 2008 (5.マイクロファイナンスの新地平 Final)
Microfinance Forum 2008 (5.マイクロファイナンスの新地平 Final)Microfinance Forum 2008 (5.マイクロファイナンスの新地平 Final)
Microfinance Forum 2008 (5.マイクロファイナンスの新地平 Final)
 
XS Japan 2008 App Data Japanese
XS Japan 2008 App Data JapaneseXS Japan 2008 App Data Japanese
XS Japan 2008 App Data Japanese
 
20世紀Ruby
20世紀Ruby20世紀Ruby
20世紀Ruby
 
Perlで圧縮
Perlで圧縮Perlで圧縮
Perlで圧縮
 
S22
S22S22
S22
 
iReport實做練習part(1)
iReport實做練習part(1) iReport實做練習part(1)
iReport實做練習part(1)
 
はてなブックマークのシステムについて
はてなブックマークのシステムについてはてなブックマークのシステムについて
はてなブックマークのシステムについて
 
Conf Of Library Hyogo(20080919)
Conf Of Library Hyogo(20080919)Conf Of Library Hyogo(20080919)
Conf Of Library Hyogo(20080919)
 

Destaque (6)

Personality Test
Personality TestPersonality Test
Personality Test
 
El Cuaderno Rojo
El Cuaderno RojoEl Cuaderno Rojo
El Cuaderno Rojo
 
Democracy Thai2907
Democracy Thai2907Democracy Thai2907
Democracy Thai2907
 
Manual Actualizado
Manual ActualizadoManual Actualizado
Manual Actualizado
 
Spa20 2
Spa20 2Spa20 2
Spa20 2
 
Web Design - The Forgotten Nuts and Bolts
Web Design - The Forgotten Nuts and Bolts Web Design - The Forgotten Nuts and Bolts
Web Design - The Forgotten Nuts and Bolts
 

Towards Effective Browsing of Large Scale Social Annotations

  • 1. 論文紹介 Towards Effective Browsing of Large Scale Social Annotations Rui Li, Shenghua Bao, Ben Fei, Zhong Su, and Yong Yu Proceedings of the 16th international conference on World Wide Web (WWW2007) 伊東研 修士2年 百田信
  • 3. 1. はじめに Social Annotationの普及 • Annotation: 注釈 • Social Annotation – Webコンテンツに対しAnnotation(注釈)を付け る – Annotationを公開し共有する – Tag, コメント, 日付, … – Social Annotationサービスの例 • 動画 YouTube • 画像 Flickr • ブックマーク Del.icio.us • はてなブックマーク ブックマーク 3
  • 5. 1. はじめに Social Bookmark • Social Bookmarkとは – Social Annotation Serviceのひとつ – Tag (Annotation)付けしたBookmark 例:Del.icio.us, はてなブックマーク URL マリオ tag Wii Bookmark User 5
  • 7. 1. はじめに Annotation (Tag) を利用した情報探索 • Tagは… – コンテンツを組織化するための手法 – おもしろい情報資源を発見させるナビゲーション機構 • Tagによる情報探索法 – Keyword検索 • Tagに関連するコンテンツをすべて表示 – Tag Cloud View • アルファベット順 • フォントサイズ • フォント色 入力 : Annotationの選択 7
  • 8. 1. はじめに 問題点 • 小規模なTag集合 – Tag Cloudによる人気Tagの閲覧 • 大規模なTag集合 – コンテンツとTagは単純な文字表現の結びつき • 同義語 : 似た意味の単語 – 単純なマッチングでは関連する情報資源を見つけられない • あいまいさ : 複数の意味を持つ単語 – ゴミページを紹介してしまう – 返ってくる結果がカテゴライズされていない • たくさんの結果からおもしろい情報資源を閲覧するの は困難 8
  • 9. 1. はじめに 本論文の目的 • Annotationの急増による閲覧性の低下 – Tag Cloudでは見れない – Keyword検索では関連するTagが見れない 大規模なAnnotationを効率的に閲覧 する手法 “ELSABer”の提案 9
  • 11. 2. 提案手法 準備 • 対象 – Social BookmarkサイトDel.icio.us • Annotationの定義 (User, URL, Tag, Time) URL マリオ tag Wii Bookmark User • AnnotationをTagging Spaceの点とみなす • (最初の解析ではUser・Timeは使わない) 11
  • 12. 2. 提案手法 行列表現 n個 URL U1 U2 Uj Un U1 Un … Uj tt c11 c12 c1j c1n t1 t1 t28 28 tt 28 t22 c12 c22 3 t2 2 t55 t ti : : ti 行列 C … … cij … c1i cin ti : : cij : URLj に対してタグ ti を : Tag つけた利用者数 … cm1 cm2 cmj cmn tm m個 =タグ ti のTF値 12
  • 13. 2. 提案手法 関連行列  m11 m12  m1n  関連行列     n   mij  cij  log   m21  mij  URLti   M        m  mmn   m1  n  TF (ti )  log   DF (t )  mij : URLj とタグ ti の関連度   i 本研究では mij に TFIDF を用いる 文書Dj ページ Uj における タグ(単語)tiの重要度 13
  • 14. 2. 提案手法 ELSABerの提案 • ELSABer – Effective Large Scale Annotation Browser – 大規模Annotationの効果的閲覧手法 – 3つの特徴 Semantic Hierarchical Effective Browsing Browsing Browsing 意味概念を形成 単語„tag‟間に Tag分布の分析 類似単語„tag‟ 階層付け の集合 14
  • 15. 2. 提案手法 試作システムのUI サブカテゴリ 選択されたTagに 最初の画面 関連するページ集合 15 人気のあるTag
  • 16. 2. 提案手法 ELSABerの全体像 Enhanced Model 大規模な Annotation User Time Effective Browsing Tag分布の分析 重要タグの抽出 Semantic 実験 Browsing 意味概念を形成 類似単語の集合 Hierarchical Browsing 単語„tag‟間に 階層付け 16
  • 18. 3. Semantic Browsing 類似するTagとは Social Annotation環境において、類似したTagは類 似したURLに付与され、また、類似したURLは類似 したTagを付与される 類似している 意味概念(類似したTagの集合)を求めたい 18
  • 19. 3. Semantic Browsing Tag間の類似度 • コサイン尺度で計算 類似度= cosTi , T j  URLy Tj Ti  m11 m12  m1n  θ 関連行列    m21  mij M    o  URLx   m  mmn  Ti  T j  m1  cos   | Ti || T j | 19
  • 20. 3. Semantic Browsing 3.2 意味概念の生成 • すべてのTagについ ぬこ て類似度を求める ねこ 1. あるTagについて類 あとで見る ハロプロ 似する上位N個の ようつべ Tagを選ぶ θ 2. 類似度が閾値θ以上 これはすごい youtube なら意味概念 ネタ YouTube you tube You tube youtube 動画 Video 映像 YouTubeの意味概念 20
  • 22. 4. Hierarchical Browsing ELSABerの全体像 Enhanced Model 大規模な Annotation User Time Effective Browsing Tag分布の分析 重要タグの抽出 Semantic 実験 Browsing 意味概念を形成 類似単語の集合 Hierarchical Browsing 単語„tag‟間に 階層付け 22
  • 23. 4. Hierarchical Browsing 4. Hierarchical Browsing Social Annotationとして使われるTagは異なる意味 レベルを示す • Hierarchical Browsing – Tag間の上下関係 • Sub-Tagの抽出 23
  • 24. 4. Hierarchical Browsing 4.1 Hierarchical Annotationの要件 1. 目的情報へのパスが複数 存在すべき • 一つのURLは複数のカ テゴリに関係する 2. カテゴリ構成が柔軟であるべき • Programming, Designという違う興味からJSPへ辿りつく 3. 動的に階層構造が変化すべき • 増え続けるAnnotationに対応する 24
  • 25. 4. Hierarchical Browsing 4.2 Tagの上下関係 (1) • Tagのタイプ – 親Tag • 意味レベルが高い、より一般的なTag 親Tag – Sub-Tag • 意味レベルが低いTag tj Current Tag • 関係あるURLの内容を表しているTag • サブカテゴリに属するTag – その他のTag ti Sub-Tag • 関連のある別の情報資源を表すが、 – 一般的ではないTag ti:sub-tag候補 – 明確ではないTag tj:current tag 25
  • 26. 4. Hierarchical Browsing 4.2 Tagの上下関係 (2) • Sub-Tagの生成法 – 親TagとSub-Tagを決 true false める決定木による生成 a. Coverage of Tags b. Intersection Rate c. IRR 26
  • 27. 4. Hierarchical Browsing a. Coverage of Tags 100 • 類似するTag間に上下関係をつ High Web ける 50 Google 30 – WebのほうがGoogleよりも関係する Googletips Low URLが多い – GoogleのほうがGoogletipsよりも関係す るURLが多い U (ti ) tiでTag付けされたURL数 Coverageij  U (t j ) 27
  • 28. 4. Hierarchical Browsing b. Intersection Rate Google U(tj) High Google gmaps U(ti) gmaps Low • gmaps が付けられたURLのほと U (ti )  U (t j ) IRij  んどにGoogleが付いている • Googleが付けられたURLに U (ti ) gmapsがあまり付いてない 28
  • 29. 4. Hierarchical Browsing c. IRR • Intersection Rate Ranking:IRR – IRによるランクから1, 2, 3の離散値を付与 rank value Top 30 1 30th ~ 60th 2 61st ~ 3 29
  • 30. 4. Hierarchical Browsing Sub-Tagを判定する決定木 • 手動でラベル付けした学習データを用意 – Coverage – IR true false – IRR • 決定木を生成 親TagとSub-Tagを決める決定木 30
  • 32. 5. Effective Browsing ELSABerの全体像 Enhanced Model 大規模な Annotation User Time Effective Browsing Tag分布の分析 重要タグの抽出 Semantic 実験 Browsing 意味概念を形成 類似単語の集合 Hierarchical Browsing 単語„tag‟間に 階層付け 32
  • 33. 5. Effective Browsing 5. Effective Browsing 人は人気のあるTagをURLに付け、また、人気 のあるURLは大多数のTagを付けられる • Tagの分布を分析する – 問題 • Tagging Spaceが大きい – 数百万のTag • 転置インデックスが有効でなくなる – 小規模なTagging Spaceへ落とし込む • SamplingによってSub-Tagging Spaceへ縮小化 33
  • 34. 5. Effective Browsing Tagの分布 • Tagの分布 – 人気のあるTagはURLに付 与されやすい • 人気のないTagはほとんど 付与されない – 人気のあるTagは頻繁かつ 広範囲にわたって使用され る • Sampling – 小規模なTagging Spaceへ – 上位K個のTagと上位K 個のURLで十分 34
  • 35. ELSABerのまとめ • Semantic Browsing – 類似するTagを見つける • Hierarchical Browsing – 類似するTag間の上下関係を見つける • Sub-Tag – 意味レベルが下位のTag • Effective Browsing – Tagの分布 – SamplingによるTagging Spaceの縮小化 35
  • 37. ELSABerの全体像 Enhanced Model 大規模な Annotation User Time Effective Browsing Tag分布の分析 重要タグの抽出 Semantic 実験 Browsing 意味概念を形成 類似単語の集合 Hierarchical Browsing 単語„tag‟間に 階層付け 37
  • 38. 6. Enhanced Model 6. Enhanced Model • Personalized • Time-related Browsing Browsing User Time – 人によって興味は違う – 人は最新の話題に興味 がある – 利用者情報の利用 – 時間情報の利用 • 個人化„ Personalization‟ • 最近人気のあるTagを 発見 • 利用者の興味により近 いマッチング 38
  • 40. 7. 実験 7. 実験 • 実験データ – 2006年3月に集めたDel.icio.usのデータ Webページ数 1,736,268ページ 一意なAnnotation 269,566個 • 各実験 7.1 類似度計測 7.2 階層化の結果 7.3 実行時間 7.4 Personalized Browsingの結果 7.5 Time-related Browsingの結果 40
  • 41. 7. 実験 7.1 類似度計測の結果 高い関係性を持つTag (同義語、省略形、複数形) CVS Versioncontrol, SVN, subversion, control Movie Movies, Film, Films Computer/Gallery Album, photogallery, fotos Programming/Meta Metaprogramming Programming/Movie screenshot, screencapture Programming/Brainstorming mindmap, freemind Current Tagの意味は、それまでの利用者の選択に影響を受ける 例) :”films”, “moving picture” 日常生活での”movie” “programming”を選択して”movie” : “screenshot”, “screencapture” 41
  • 42. 7. 実験 7.1 類似度計測の結果 高い関係性を持つTag (同義語、省略形、複数形) CVS Versioncontrol, SVN, subversion, control Movie Movies, Film, Films Computer/Gallery Album, photogallery, fotos Programming/Meta Metaprogramming Social Annotation環境における Programming/Movie screenshot, screencapture Tag間の関係を正確に反映している Programming/Brainstorming mindmap, freemind Current Tagの意味は、それまでの利用者の選択に影響を受ける 例) :”films”, “moving picture” 日常生活での”movie” “programming”を選択して”movie” : “screenshot”, “screencapture” 42
  • 43. 7. 実験 7.2 階層化の結果(1) • 研究室内の学生に Del.icio.us人気Topic100個 の中からランダムに選んで もらった概念 • 概念は異なる分野に分布 – Del.icio.usのTagはITに関係す るものが多い – 選択されたTopicもITに関係す るものが多い 43
  • 44. 7. 実験 7.2 階層化の結果(2) • Science – math, physics, psychologyなどの 概念のラベル サブカテゴリーを表示 下位概念 44
  • 45. 7. 実験 7.2 階層化の結果(2) • Science – math, physics, psychologyなどの 概念のラベル サブカテゴリーを表示 人々が日常生活の中で思うような Tagの階層構造が形成された 下位概念 45
  • 46. 7. 実験 7.3 実行時間 • Spec – Intel Pentium Ⅳ: 3.0 GHz – Memory : 1GB – 2 Processors • システム – 言語:Java – 全文検索エンジン「Lucene」のAPI • URLとTagのインデックス – DB • 上位2000のURL-Tag行列を格納 20概念の平均処理時間 :1.3秒 46
  • 47. 7. 実験 7.4 Personalized Browsingの結果 • 利用者のProfileを考慮するTag Cloud試作 システムが推薦するTag すでにTag付けしているもの その他のTag • 実験における利用者profile – 25tags, 45URLs – 上位5個のtag • “Linux”, “media”, “video”, “JavaScript”, “Java” • Web開発者かメディアに関心がある人 – 利用者が興味のある情報資源を効果的に発見する支援をし ている 47
  • 48. 7. 実験 7.5 Time-related Browsingの結果 • 3URLに関連するTag Countの分布 – 時間とともに人気は変化する – 新たに出現してくるURLの発見 – 周期的なHot Topicの発見 48
  • 49. 7. 実験 7.5 Time-related Browsingの結果 • 3URLに関連するTag Countの分布 – 時間とともに人気は変化する – 新たに出現してくるURLの発見 – 周期的なHot Topicの発見 時間情報を含むSocial Annotationを閲 覧することによって人気のTopicを取 得できる 49
  • 51. まとめ • Social Annotationの閲覧 – 大規模なAnnotationのための効率的な閲覧手法が必要 – ELSABerを提案 • ELSABer – Semantic Browsing – Hierarchical Browsing – Effective Browsing • Enhanced Model – Personalized Browsing – Time-related Browsing • 実験 – Del.icio.usのデータを利用 – 有効性を実証 51
  • 52. ご静聴ありがとうございました 指建礼 折手礼 拓手礼 双手礼 合手礼