SlideShare a Scribd company logo
1 of 18
Download to read offline
ネットワークの特徴量で Twitter の
   友達リストを分析する

      Karubi Namuru
      Aug 22nd, 2010
自己紹介

●   Karubi Namuru
●   博士(理学)
●   Kauli 株式会社,代表
●   オンライン広告配信技術
●   Twitter: @karubi
●   Facebook: http://facebook.com/karubi
●   出身:広島 , 居住:東京 , Seongnam
学生時代の話


      ●   在学中の研究
          ●   統計的手法による日常行動分析
              –   実世界:ライフログ
              –   ウェブ:閲覧, clicks

200                      200
180                      180
160                      160
140                      140

120                      120

100                      100

80                       80

60                       60

40                       40

20                       20

 0                         0
今日の内容

●   モチベーション
    ●   複数の方からグラフの話を聞きたいと DM が来た
    ●   初心者でも分かりやすい話がききたい
●   ネット上の資源で遊ぶ Part II
    ●   グラフの基礎
    ●   分析方法の紹介
    ●   分析結果の一例
グラフの概要

●   ある対象について,関連する事柄や出来事の関
    係をあらわしたもの
●   数学的にはグラフ理論であつかわれている
数学的なグラフ

●   構成要素
    ●   ノード
        –   頂点や節点で表現できる
    ●   エッジ
        –   枝や辺で表現できる




                引用: http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%A9%E3%83%95%E7%90%86%E8%AB%96
辺の向き

●   問題によっては辺の向きを考慮する場合もあ
    ●   ノード同士の繋がりのみを考慮する
        –   →  向きが無いので「無向」
    ●   ノード同士について,どちらがどちらに繋がってい
        るかどうかも考慮する
        –   →  向きがあるので「有向」
グラフ構造

●   グラフをコンピュータで扱えるようにする
    ●   お絵かきした図については,人間が解釈できるがコ
        ンピュータが解釈できない表現
●   グラフ構造:データ構造としてグラフを表現
    ●   コンピュータが解釈できる表現
    ●   一定の形式を導入する
    ●   データ処理をおこなう際に,もっともやりやすくす
        ることが目的(深い話につながるのでここまで)
グラフ構造で記述できるもの

●   生活中のさまざまな自然現象
    ●   日常生活で形成した知り合いの関係
    ●   人の興味・嗜好と買い物の関係
    ●   目的地までの移動方法
●   インターネット内の現象
    ●   ウェブページ同士の繋がり
    ●   ウェブページの HTML コンテンツの配置
    ●   電子メールの送受信履歴
グラフ構造の分析

●   グラフ構造を処理することで問題を解決する
    ●   グラフ内の要素を分析する場合
        –   個々の頂点で,最も多くの辺が張られる頂点はどれか
    ●   グラフ同士を分析する場合
        –   ふたつのグラフが似ているかどうか




                   引用: http://www.weblio.jp/content/%E4%B8%80%E7%AD%86%E6%9B%B8%E3%81%8D
グラフの分析例


●   たとえば一筆書きの例
    ●   ケーニヒスベルクという大きな町
    ●   この町の中央にプレーゲル川という大きな川
    ●   七つの橋が架けられている
    ●   あるとき町の人が「この 7 つの橋
        を 2 度通らず,全て渡って,元の
        所に帰ってくることができるか


                引用: http://www.weblio.jp/content/%E4%B8%80%E7%AD%86%E6%9B%B8%E3%81%8D
グラフマイニング


●   主にグラフに埋もれた知識や知見を発見するた
    めのグラフ構造の分析
    ●   大量のデータ
    ●   データ構造
    ●   計算方法
    ●   豊富な計算能力
実際にマイニング


●   友達関係を分析してみる
    ●   問題
        –   自分の友達のなかで,注目に値する友達を誰か特定した
            い
    ●   たとえば,このように考えてみる
        –   もっとも話をする友達が一番注目に値する!
            ●
                TopTwitterFriend
マイニングの一例




 参照: http://businessspeak.wordpress.com/2009/03/27/top-twitter-friends-map-brian-solis-pr-20
Karubi の考え


●   友達同士の繋がりに注目
    ●   注目に値する友達は,自分の知っている友達が多く
        友達関係をもちかけている人
    ●   もちろん友達関係をもちかけられる数が多ければ多
        いほど,注目に値するのはないか
    ●   ただし,一方的に見ず知らずの人でも,なんでもか
        んでも友人関係を大量にいろんな人にもちかけてい
        る人は注目に値しない
実際に分析してみる

●
    PageRank
    ●   考え方:論文の引用関係のように,重要なウェブ
        ページがリンクを集める
●   計算方法は割愛;;
    ●   ネットで調べればいくらでも出てきますよ
実際に分析してみる
まとめ


●   グラフマイニングの概要
●   Twitter の Following で実験
●   人選はランダムなので結果は気にしないで☆
●   ご質問ございましたらメールください
      gogokarubi@gmail.com まで

More Related Content

Similar to ネットワークマイニング(グラフ構造分析)

20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itselfHiroyukiOtsubo
 
Link prediction
Link predictionLink prediction
Link predictionybenjo
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―Hisao Soyama
 
レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎Katsuhiro Takata
 
People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析Hisao Soyama
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
セグメンテーションの考え方・使い方 - TokyoR #44
セグメンテーションの考え方・使い方 - TokyoR #44セグメンテーションの考え方・使い方 - TokyoR #44
セグメンテーションの考え方・使い方 - TokyoR #44horihorio
 
Intoroduction of Bad Data Handbook
Intoroduction of Bad Data HandbookIntoroduction of Bad Data Handbook
Intoroduction of Bad Data HandbookAtsushi Hayakawa
 
2012年度webゼミ前期発表
2012年度webゼミ前期発表2012年度webゼミ前期発表
2012年度webゼミ前期発表Chihiro Koyama
 
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Ken SASAKI
 
20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jror20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jrorYoshiharu Hashimoto
 

Similar to ネットワークマイニング(グラフ構造分析) (15)

20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
Link prediction
Link predictionLink prediction
Link prediction
 
Semi 2011 1-7_reminder
Semi 2011 1-7_reminderSemi 2011 1-7_reminder
Semi 2011 1-7_reminder
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
 
レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎
 
People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
セグメンテーションの考え方・使い方 - TokyoR #44
セグメンテーションの考え方・使い方 - TokyoR #44セグメンテーションの考え方・使い方 - TokyoR #44
セグメンテーションの考え方・使い方 - TokyoR #44
 
Intoroduction of Bad Data Handbook
Intoroduction of Bad Data HandbookIntoroduction of Bad Data Handbook
Intoroduction of Bad Data Handbook
 
2012年度webゼミ前期発表
2012年度webゼミ前期発表2012年度webゼミ前期発表
2012年度webゼミ前期発表
 
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01
 
20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jror20100619 wakhok important_of_io_with_jror
20100619 wakhok important_of_io_with_jror
 

More from Katsuhiro Takata

自然言語処理 with NLTK
自然言語処理 with NLTK自然言語処理 with NLTK
自然言語処理 with NLTKKatsuhiro Takata
 
高次元データ処理,手書き編(Dimension Reduction)
高次元データ処理,手書き編(Dimension Reduction)高次元データ処理,手書き編(Dimension Reduction)
高次元データ処理,手書き編(Dimension Reduction)Katsuhiro Takata
 
広告ログの解析システム
広告ログの解析システム広告ログの解析システム
広告ログの解析システムKatsuhiro Takata
 
相関マイニング(バスケット分析)
相関マイニング(バスケット分析)相関マイニング(バスケット分析)
相関マイニング(バスケット分析)Katsuhiro Takata
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 

More from Katsuhiro Takata (6)

自然言語処理 with NLTK
自然言語処理 with NLTK自然言語処理 with NLTK
自然言語処理 with NLTK
 
高次元データ処理,手書き編(Dimension Reduction)
高次元データ処理,手書き編(Dimension Reduction)高次元データ処理,手書き編(Dimension Reduction)
高次元データ処理,手書き編(Dimension Reduction)
 
広告ログの解析システム
広告ログの解析システム広告ログの解析システム
広告ログの解析システム
 
Frequency Pattern Mining
Frequency Pattern MiningFrequency Pattern Mining
Frequency Pattern Mining
 
相関マイニング(バスケット分析)
相関マイニング(バスケット分析)相関マイニング(バスケット分析)
相関マイニング(バスケット分析)
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

ネットワークマイニング(グラフ構造分析)

  • 1. ネットワークの特徴量で Twitter の 友達リストを分析する Karubi Namuru Aug 22nd, 2010
  • 2. 自己紹介 ● Karubi Namuru ● 博士(理学) ● Kauli 株式会社,代表 ● オンライン広告配信技術 ● Twitter: @karubi ● Facebook: http://facebook.com/karubi ● 出身:広島 , 居住:東京 , Seongnam
  • 3. 学生時代の話 ● 在学中の研究 ● 統計的手法による日常行動分析 – 実世界:ライフログ – ウェブ:閲覧, clicks 200 200 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 0
  • 4. 今日の内容 ● モチベーション ● 複数の方からグラフの話を聞きたいと DM が来た ● 初心者でも分かりやすい話がききたい ● ネット上の資源で遊ぶ Part II ● グラフの基礎 ● 分析方法の紹介 ● 分析結果の一例
  • 5. グラフの概要 ● ある対象について,関連する事柄や出来事の関 係をあらわしたもの ● 数学的にはグラフ理論であつかわれている
  • 6. 数学的なグラフ ● 構成要素 ● ノード – 頂点や節点で表現できる ● エッジ – 枝や辺で表現できる 引用: http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%A9%E3%83%95%E7%90%86%E8%AB%96
  • 7. 辺の向き ● 問題によっては辺の向きを考慮する場合もあ ● ノード同士の繋がりのみを考慮する – →  向きが無いので「無向」 ● ノード同士について,どちらがどちらに繋がってい るかどうかも考慮する – →  向きがあるので「有向」
  • 8. グラフ構造 ● グラフをコンピュータで扱えるようにする ● お絵かきした図については,人間が解釈できるがコ ンピュータが解釈できない表現 ● グラフ構造:データ構造としてグラフを表現 ● コンピュータが解釈できる表現 ● 一定の形式を導入する ● データ処理をおこなう際に,もっともやりやすくす ることが目的(深い話につながるのでここまで)
  • 9. グラフ構造で記述できるもの ● 生活中のさまざまな自然現象 ● 日常生活で形成した知り合いの関係 ● 人の興味・嗜好と買い物の関係 ● 目的地までの移動方法 ● インターネット内の現象 ● ウェブページ同士の繋がり ● ウェブページの HTML コンテンツの配置 ● 電子メールの送受信履歴
  • 10. グラフ構造の分析 ● グラフ構造を処理することで問題を解決する ● グラフ内の要素を分析する場合 – 個々の頂点で,最も多くの辺が張られる頂点はどれか ● グラフ同士を分析する場合 – ふたつのグラフが似ているかどうか 引用: http://www.weblio.jp/content/%E4%B8%80%E7%AD%86%E6%9B%B8%E3%81%8D
  • 11. グラフの分析例 ● たとえば一筆書きの例 ● ケーニヒスベルクという大きな町 ● この町の中央にプレーゲル川という大きな川 ● 七つの橋が架けられている ● あるとき町の人が「この 7 つの橋 を 2 度通らず,全て渡って,元の 所に帰ってくることができるか 引用: http://www.weblio.jp/content/%E4%B8%80%E7%AD%86%E6%9B%B8%E3%81%8D
  • 12. グラフマイニング ● 主にグラフに埋もれた知識や知見を発見するた めのグラフ構造の分析 ● 大量のデータ ● データ構造 ● 計算方法 ● 豊富な計算能力
  • 13. 実際にマイニング ● 友達関係を分析してみる ● 問題 – 自分の友達のなかで,注目に値する友達を誰か特定した い ● たとえば,このように考えてみる – もっとも話をする友達が一番注目に値する! ● TopTwitterFriend
  • 15. Karubi の考え ● 友達同士の繋がりに注目 ● 注目に値する友達は,自分の知っている友達が多く 友達関係をもちかけている人 ● もちろん友達関係をもちかけられる数が多ければ多 いほど,注目に値するのはないか ● ただし,一方的に見ず知らずの人でも,なんでもか んでも友人関係を大量にいろんな人にもちかけてい る人は注目に値しない
  • 16. 実際に分析してみる ● PageRank ● 考え方:論文の引用関係のように,重要なウェブ ページがリンクを集める ● 計算方法は割愛;; ● ネットで調べればいくらでも出てきますよ
  • 18. まとめ ● グラフマイニングの概要 ● Twitter の Following で実験 ● 人選はランダムなので結果は気にしないで☆ ● ご質問ございましたらメールください gogokarubi@gmail.com まで