SlideShare a Scribd company logo
1 of 27




                       複雑ネットワークと
                    データマイニング徹底入門
                                             @millionsmile
                         #TokyoWebmining at 6th, Nov 2011




2011年11月6日日曜日

     my bible for
     complex networks

          増⽥田直紀,今野紀雄:
          『複雑ネットワーク	
  -	
  基礎から
          応⽤用まで』,近代科学社
          (2010)

          ヽ(*^▽^*)ノワーイ♪	
  かなりハマってます☆⼺彡


          増⽥田さんのサイト↓

          http://www.stat.t.u-tokyo.ac.jp/~masuda/




2011年11月6日日曜日




     複雑ネットワークって?




2011年11月6日日曜日
Social Network




                 http://www.facebook.com/notes/facebook-engineering/visualizing-friendships/469716398919




2011年11月6日日曜日
Capital Network




                http://www.newscientist.com/article/mg21228354.500-revealed--the-capitalist-network-that-runs-the-world.html




2011年11月6日日曜日

                                                      複雑ネットワークの起源はグラフ理論にあり。
                                                                      18c : スイスの数学者オイラーによってグラフ理論の幕開け[1]



                                       グラフ理論が数学的に体系化、実用化されるようになる。
                                                                       20c : アメリカの数学者ハラリー(近代グラフ理論の父)の貢献



                                                      ネットワークの統計的性質が解明されていく。
                                                                                           1998年 : ワッツとストロガッツ[2]
                                                                                            1999年 : バラバシとアルバート[3]




                             [1]	
  ケーニヒスベルクの橋の問題を解明し、グラフ化。オイラーグラフと呼ばれる。

                             [2]	
  Watts,	
  D.	
  J.,	
  Strogatz,	
  S.	
  H.	
  :	
   Collective	
  dynamics	
  of	
  'small-worldʼ’ ,	
  Nature,	
  Vol.	
  393(1998)

                             [3]	
  Barabasi,	
  A.	
  -L.,	
  Albert,	
  R.	
  :	
   Emergence	
  of	
  scaling	
  in	
  random	
  networks ,	
  Science,	
  Vol.	
  286(1999)




       オイラー
  http://en.wikipedia.org/
    wiki/Leonhard_Euler




2011年11月6日日曜日





2011年11月6日日曜日

                    =
                  同じ構造
                (連続性が同じ)




2011年11月6日日曜日

                    =
                  同じ構造
                (連続性が同じ)




                    ≠
                  違う構造
                (連続性が違う)




2011年11月6日日曜日

                                                  =
                                                同じ構造
                                              (連続性が同じ)




                                                   ≠
                                                 違う構造
                                               (連続性が違う)



           トポロジーでは、連続的に変形可能なものは同⼀一とみなす。距離は無視する。
       ※コーヒーカップとドーナツが同じ話に同じ。(	
  http://ja.wikipedia.org/wiki/%E4%BD%8D%E7%9B%B8%E5%B9%BE%E4%BD%95%E5%AD%A6	
  )




2011年11月6日日曜日

                         (昔)
                       空間構造のみ




                         (現在)
                      空間構造 + 情報
                より現実社会の背景に沿った発展を遂げていく




2011年11月6日日曜日

      9




                    複雑ネットワーク(ネットワークサイエンス)とは、

                    トポロジーとか関係性をみるサイエンス
                                               です。




2011年11月6日日曜日





                                     10
  ネットワーク指標
        局所的ネットワークを計測:
        次数、次数相関、クラスター係数、モチーフなど

        ⼤大局的ネットワークを計測:
        平均距離、中⼼心性、コミュニティー構造など


   現実のネットワークをこれらのネットワーク指標を使い、
   データマイニングやネットワーク分析を⾏行行う。




2011年11月6日日曜日





                                                                                11
  Definition
         N   :頂点数(ノード数)
         k :枝の数(リンク数)、次数と呼ぶ
        p(k) :次数  が全頂点に占める割合
                 k
       < k > :平均次数
                          N
                       1 
                 k =       ki
                       N i=1

      d(vi , vj ) :2頂点  と  距離
                      vi vj
         L      :平均距離
                       2          
                L=                       d(vi , vj )
                   N (N − 1)
                               1≤i≤j≤N
                                                                    2
                ※無向グラフで頂点対の最⼤大数は組合せで求める:               N C2 =
                                                                N (N − 1)
                ※有向グラフで頂点対の最⼤大数は順列で求める: N P2 = N (N − 1)




2011年11月6日日曜日





                                                                                    12
  スモールワールド実験	
  -	
  平均距離
                現実のネットワークでは、
                      Nが⼤大きくてもLがあまり⼤大きくない
                      = L ∝ log N 的である
                ことが⾮非常に多い。
                  例)logの底を10とした場合、 Nの増加の割にLは増えにくい
                    N = 103 , L = 3 N = 104 , L = 4 N = 105 , L = 5

                人間関係ネットワークでLが小さいことが実証されている
                 ●ミリグラムらによる「スモールワールド実験」(1960年代)
                  →目標人物まで手紙を届ける実験。わずか平均L=6で到達(6次の隔たり)
                 ●ワッツらによる「スモールワールド・プロジェクト」(2002年)
                  →目標人物までメールを届ける実験。目標人物と同じ国L=5, 違う国L=7
                 ●mixiのスモールワールド性の検証(2008) http://alpha.mixi.co.jp/blog/?p=144
                  →調査員から1300万のmixiユーザまでの平均距離L=6が95.7%, L=7が98.2%




2011年11月6日日曜日





                                                                                                    13
  Itʼ’s	
  a	
  small	
  world!	
  -	
  クラスター係数
   クラスター(三⾓角形)の多寡は、クラスター係数  で求める。             Ci
   vi                       ki (ki − 1)/2
     の含む三⾓角形は最⼤大            個ある。
          vi を含む三角形の数
     Ci ≡                          0 ≤ Ci ≤ 1
              ki (ki − 1)/2

   クラスター係数の平均
            N
         1 
      C≡
         N i=1
               Ci                   0≤C≤1

  完全グラフでのみC=1、三⾓角形が⼀一つもないC=0。
  現実のネットワークは「スモールワールド・ネットワーク」。
    →世界中の誰とでも6次の隔たり程度でつながっていて(⼩小さいL)、
      新しく出会った友⼈人との間にも共通の知り合いの1⼈人くらいは⾒見見つかりやすい(⼤大きいC)



           v4       v7
     v5                  v1 の隣接点 = 4                3       2        4       1      1       1
                                             C2 =     , C3 = , C4 =    , C5 = , C6 = , C7 =
                         v1 を含む三角形の最大数 = 6          6       3       10       1      3       3
      v2        v1 v3           3                  8
                         C1 =                C=
           v6                   6                 15

2011年11月6日日曜日





                                              14
  次数相関
   次数相関とは隣接する2点の次数が似る度合いを測るもの。
   ●正の次数相関	
  -	
  ハブの隣にはハブがいやすい
   ●負の次数相関	
  -	
  ハブの隣に次数の⼩小さい頂点がいやすい
   次数相関の計測⽅方法は2つある
   ●隣接点の平均次数に基づく⽅方法
             は⾃自分の次数が  であるという条件のもとで、
     P (k  |k)       k
     隣接点の次数が  になる割合である。
                 k
      knn (k) =        k  P (k  |k)
                    k
   ●ピアソン相関関係という1変数で次数相関を測る⽅方法
       を横軸、  を縦軸にとり、最⼩小⼆二乗法で
     k     k
     もっともあてはまる直線を決め、その傾きの正負で次数相関を判定




2011年11月6日日曜日





                                      15
  似てる?似てない?	
  -	
  次数相関
   負の次数関数になりやすいネットワーク
   ●⽣生物系(タンパク質、神経系、⾷食物網など)
   ●⼯工学系(インターネット、WWWなど)
   正の次数関数になりやすいネットワーク
   ●⼈人間関係(知⼈人関係、共著ネットワーク)
     ※類は友を呼ぶ傾向を「ホモフィリー」という


   knn (k)          knn (k)




                k             k




2011年11月6日日曜日





                                                    16
  中⼼心性
   ネットワークの中⼼心性を計測する指標は4つある。
   ●次数中⼼心性
   ●近接中⼼心性
   ●媒介中⼼心性
   ●固有ベクトル中⼼心性


   現実のネットワークで中⼼心性をどこに置くかは、
   ネットワーク分析を⾏行行う上で⾮非常に⼤大事な問題。
   問)	
  Facebookで友達1000⼈人いる⼈人は中⼼心性が⾼高いといえるか?




2011年11月6日日曜日





                                                     17
  次数中⼼心性と近接中⼼心性
   次数中⼼心性とは、ハブが中⼼心という指標。次数が多い⼈人が中⼼心。
   ex)	
  Facebookで1000⼈人友達いる⼈人と10⼈人友達いる⼈人とでは、
     	
  	
  1000⼈人の⽅方が中⼼心だと考える。



   近接中⼼心性とは、ネットワーク全体に情報を広めやすいポジショ
   ンにある頂点を中⼼心とみなす。⾃自分から他⼈人まで平均的にどれく
   らい近いかどうかによって定義される。

                N −1          1
      N                    =
       j=1;j=i d(vi , vj )
                              Li




2011年11月6日日曜日





                                                              18
  媒介中⼼心性
  媒介中⼼心性は橋渡し役になっている頂点を中⼼心とみなす。
      N   is −1  (i i )
                  gi s t
                is =1;is =i   it =1;it =i Nis it
      bi ≡
                   (N − 1)(N − 2)/2

        p(bi )    p(k) ∝ k , 2  γ 3
    の分布      について。                    のとき
  bi
                                                     −γ


       p(b) ∝ b−δ (δ ≈ 2.0 または 2.2)

    が⼤大きいハブはネットワークで重要な役割を果たすことが多く
  ki
    が⼤大きい頂点も同様である。
  bi
    と  はずれやすいからこそ、  を計測する意義がある。
  ki bi            bi




2011年11月6日日曜日





                                            19
  固有ベクトル中⼼心性
   媒介中⼼心性は中⼼心的な頂点と隣接していると⾃自分の中⼼心性も⼤大き
   いと考える。GoogleのPageRankも同様の考え。
   ※隣接⾏行行列が⾮非対称の場合は注意が必要




   A(隣接行列)の最大固有値を と置くと固有ベクトルが定まる。
                 λN
     λN µ = Aµ




2011年11月6日日曜日





                                                                20
  コミュニティ構造
   コミュニティはモジュール、グループ、クラスター、コンパート
   メントなどと呼ばれる。
   ネットワークをどのようにコミュニティに分割するかが重要であ
   り、コミュニティ検出問題と呼ばれる。


   詳細は、第9回のTokyoWebminingの発表を参照。
   http://www.slideshare.net/komiyaatsushi/newman-6670300




2011年11月6日日曜日





                                                              21
  モチーフ
   モチーフとはネットワークに含まれやすい三⾓角形のパターンのこ
   と。ex)	
  ⾷食物網のモチーフ、神経回路のモチーフ



   有向ネットワークでは3頂点で13パターン、4頂点で199パター
   ンある。無向ネットワークの場合クラスター係数の計測に同じ。
   測定⽅方法:元のネットワークにパターンiが    個あり、つなぎ
                          Nm
   かえたネットワークにパターンiが      個ある。    >      
                     rand
                    Nm       Nm Nm  rand

   ならばパターンiはこのネットワークのモチーフである。
                      rand      rand
             Nm −  Nm       Nm  ・・・つなぎかえたパターンiの数の平均
      Zm   =       rand          rand
                                σNm ・・・標準偏差
                  σNm




2011年11月6日日曜日





                                                                              22
  ランダムネットワーク

                                                               p(k)


                      N = 10                                          k
                       2           1          4           3
   p(0) = 0, p(1) =      , p(2) =    , p(3) =    , p(4) =
                      10          10          10          10


    ランダムネットワークの特徴
    ・ポワソン分布になる
    ・ハブがない




2011年11月6日日曜日





                                                                         23
  スケールフリーネットワーク
  多くのネットワークはべき則(=パレートの法則、ジップの法則)になる




                  −γ
       p(k) ∝ k        A: 俳優の共演関係(γ=2.3)、B: WWW(γ=2.1)、C: 電力網(γ=4)

                    2≤γ≤3
   現実のフリースケールネットワークは     程である。
   いくつ以上の次数がハブという決まりはない。
   γ
    が小さいほどハブが出やすい。
   特徴的なスケール(縮尺)がない(フリー)に由来。




2011年11月6日日曜日

      24




                    bibliography

                    増田直紀,今野紀雄:『複雑ネットワーク - 基礎から応用まで』,近代科学社(2010)


                    増田直紀,今野紀雄:『「複雑ネットワーク」とは何か』,ブルーバックス(2006)


                    北海道大学 工学研究科 応用物理学専攻の方の資料 http://www.topo.hokudai.ac.jp/education/SpecialLecture/090501.pdf


                    鈴木努さんのサイト http://www.tiu.ac.jp/~nakabasa/NetAnalysis/SNATsuzuki.html


                    Watts, D. J., Strogatz, S. H. : “Collective dynamics of 'small-world’”, Nature, Vol. 393(1998)

                    Barabasi, A. -L., Albert, R. : “Emergence of scaling in random networks”, Science, Vol. 286(1999)




2011年11月6日日曜日

More Related Content

What's hot

3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)
tn1031
 

What's hot (20)

Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリング
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
Chapter9 2
Chapter9 2Chapter9 2
Chapter9 2
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
 

Viewers also liked

TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
Issei Kurahashi
 
サーバ異常検知入門
サーバ異常検知入門サーバ異常検知入門
サーバ異常検知入門
mangantempy
 
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題   線型計画問題編 Rで解く最適化問題   線型計画問題編
Rで解く最適化問題 線型計画問題編
Hidekazu Tanaka
 
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
horihorio
 
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
Hiroko Onari
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
Hiroko Onari
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
sleipnir002
 

Viewers also liked (20)

Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
Tokyor18
Tokyor18Tokyor18
Tokyor18
 
2ch
2ch2ch
2ch
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
Tokyor17
Tokyor17Tokyor17
Tokyor17
 
サーバ異常検知入門
サーバ異常検知入門サーバ異常検知入門
サーバ異常検知入門
 
Tokyo r 10_12
Tokyo r 10_12Tokyo r 10_12
Tokyo r 10_12
 
Tokyor16
Tokyor16Tokyor16
Tokyor16
 
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題   線型計画問題編 Rで解く最適化問題   線型計画問題編
Rで解く最適化問題 線型計画問題編
 
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
 
Rデバッグあれこれ
RデバッグあれこれRデバッグあれこれ
Rデバッグあれこれ
 
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
 
予測にもとづくネットワーク化制御系の安定化
予測にもとづくネットワーク化制御系の安定化予測にもとづくネットワーク化制御系の安定化
予測にもとづくネットワーク化制御系の安定化
 
Tokyo r18
Tokyo r18Tokyo r18
Tokyo r18
 
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
 
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
 
集合知プログラミング第2章推薦を行う
集合知プログラミング第2章推薦を行う集合知プログラミング第2章推薦を行う
集合知プログラミング第2章推薦を行う
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
 
Social network analysis for startups ch6
Social network analysis for startups ch6Social network analysis for startups ch6
Social network analysis for startups ch6
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
 

Similar to Tokyo webmining 複雑ネットワークとデータマイニング (8)

LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413
 
Proof summit2014mizar
Proof summit2014mizarProof summit2014mizar
Proof summit2014mizar
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 

More from Hiroko Onari

Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Hiroko Onari
 
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Hiroko Onari
 
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
Hiroko Onari
 
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
Hiroko Onari
 

More from Hiroko Onari (10)

teaming and weak internal information
teaming and weak internal informationteaming and weak internal information
teaming and weak internal information
 
Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形
Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形
Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
 
はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716
 
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
 
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク
 
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
 
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
 
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
 

Tokyo webmining 複雑ネットワークとデータマイニング

  • 1. 複雑ネットワークと データマイニング徹底入門 @millionsmile #TokyoWebmining at 6th, Nov 2011 2011年11月6日日曜日
  • 2. my bible for complex networks 増⽥田直紀,今野紀雄: 『複雑ネットワーク  -  基礎から 応⽤用まで』,近代科学社 (2010) ヽ(*^▽^*)ノワーイ♪  かなりハマってます☆⼺彡 増⽥田さんのサイト↓ http://www.stat.t.u-tokyo.ac.jp/~masuda/ 2011年11月6日日曜日
  • 3. 複雑ネットワークって? 2011年11月6日日曜日
  • 4. Social Network http://www.facebook.com/notes/facebook-engineering/visualizing-friendships/469716398919 2011年11月6日日曜日
  • 5. Capital Network http://www.newscientist.com/article/mg21228354.500-revealed--the-capitalist-network-that-runs-the-world.html 2011年11月6日日曜日
  • 6. 複雑ネットワークの起源はグラフ理論にあり。 18c : スイスの数学者オイラーによってグラフ理論の幕開け[1] グラフ理論が数学的に体系化、実用化されるようになる。 20c : アメリカの数学者ハラリー(近代グラフ理論の父)の貢献 ネットワークの統計的性質が解明されていく。 1998年 : ワッツとストロガッツ[2] 1999年 : バラバシとアルバート[3] [1]  ケーニヒスベルクの橋の問題を解明し、グラフ化。オイラーグラフと呼ばれる。 [2]  Watts,  D.  J.,  Strogatz,  S.  H.  :   Collective  dynamics  of  'small-worldʼ’ ,  Nature,  Vol.  393(1998) [3]  Barabasi,  A.  -L.,  Albert,  R.  :   Emergence  of  scaling  in  random  networks ,  Science,  Vol.  286(1999) オイラー http://en.wikipedia.org/ wiki/Leonhard_Euler 2011年11月6日日曜日
  • 8. = 同じ構造 (連続性が同じ) 2011年11月6日日曜日
  • 9. = 同じ構造 (連続性が同じ) ≠ 違う構造 (連続性が違う) 2011年11月6日日曜日
  • 10. = 同じ構造 (連続性が同じ) ≠ 違う構造 (連続性が違う) トポロジーでは、連続的に変形可能なものは同⼀一とみなす。距離は無視する。 ※コーヒーカップとドーナツが同じ話に同じ。(  http://ja.wikipedia.org/wiki/%E4%BD%8D%E7%9B%B8%E5%B9%BE%E4%BD%95%E5%AD%A6  ) 2011年11月6日日曜日
  • 11. (昔) 空間構造のみ (現在) 空間構造 + 情報 より現実社会の背景に沿った発展を遂げていく 2011年11月6日日曜日
  • 12. 9 複雑ネットワーク(ネットワークサイエンス)とは、 トポロジーとか関係性をみるサイエンス です。 2011年11月6日日曜日
  • 13. 10 ネットワーク指標 局所的ネットワークを計測: 次数、次数相関、クラスター係数、モチーフなど ⼤大局的ネットワークを計測: 平均距離、中⼼心性、コミュニティー構造など 現実のネットワークをこれらのネットワーク指標を使い、 データマイニングやネットワーク分析を⾏行行う。 2011年11月6日日曜日
  • 14. 11 Definition N :頂点数(ノード数) k :枝の数(リンク数)、次数と呼ぶ p(k) :次数  が全頂点に占める割合 k < k > :平均次数 N 1 k = ki N i=1 d(vi , vj ) :2頂点  と  距離 vi vj L :平均距離 2 L= d(vi , vj ) N (N − 1) 1≤i≤j≤N 2 ※無向グラフで頂点対の最⼤大数は組合せで求める: N C2 = N (N − 1) ※有向グラフで頂点対の最⼤大数は順列で求める: N P2 = N (N − 1) 2011年11月6日日曜日
  • 15. 12 スモールワールド実験  -  平均距離 現実のネットワークでは、 Nが⼤大きくてもLがあまり⼤大きくない       = L ∝ log N 的である ことが⾮非常に多い。   例)logの底を10とした場合、 Nの増加の割にLは増えにくい N = 103 , L = 3 N = 104 , L = 4 N = 105 , L = 5 人間関係ネットワークでLが小さいことが実証されている  ●ミリグラムらによる「スモールワールド実験」(1960年代)   →目標人物まで手紙を届ける実験。わずか平均L=6で到達(6次の隔たり)  ●ワッツらによる「スモールワールド・プロジェクト」(2002年)   →目標人物までメールを届ける実験。目標人物と同じ国L=5, 違う国L=7  ●mixiのスモールワールド性の検証(2008) http://alpha.mixi.co.jp/blog/?p=144   →調査員から1300万のmixiユーザまでの平均距離L=6が95.7%, L=7が98.2% 2011年11月6日日曜日
  • 16. 13 Itʼ’s  a  small  world!  -  クラスター係数 クラスター(三⾓角形)の多寡は、クラスター係数  で求める。 Ci vi ki (ki − 1)/2   の含む三⾓角形は最⼤大            個ある。 vi を含む三角形の数 Ci ≡ 0 ≤ Ci ≤ 1 ki (ki − 1)/2 クラスター係数の平均 N 1 C≡ N i=1 Ci 0≤C≤1 完全グラフでのみC=1、三⾓角形が⼀一つもないC=0。 現実のネットワークは「スモールワールド・ネットワーク」。   →世界中の誰とでも6次の隔たり程度でつながっていて(⼩小さいL)、     新しく出会った友⼈人との間にも共通の知り合いの1⼈人くらいは⾒見見つかりやすい(⼤大きいC) v4 v7 v5 v1 の隣接点 = 4 3 2 4 1 1 1 C2 = , C3 = , C4 = , C5 = , C6 = , C7 = v1 を含む三角形の最大数 = 6 6 3 10 1 3 3 v2 v1 v3 3 8 C1 = C= v6 6 15 2011年11月6日日曜日
  • 17. 14 次数相関 次数相関とは隣接する2点の次数が似る度合いを測るもの。 ●正の次数相関  -  ハブの隣にはハブがいやすい ●負の次数相関  -  ハブの隣に次数の⼩小さい頂点がいやすい 次数相関の計測⽅方法は2つある ●隣接点の平均次数に基づく⽅方法           は⾃自分の次数が  であるという条件のもとで、 P (k |k) k   隣接点の次数が  になる割合である。 k knn (k) = k P (k |k) k ●ピアソン相関関係という1変数で次数相関を測る⽅方法     を横軸、  を縦軸にとり、最⼩小⼆二乗法で k k   もっともあてはまる直線を決め、その傾きの正負で次数相関を判定 2011年11月6日日曜日
  • 18. 15 似てる?似てない?  -  次数相関 負の次数関数になりやすいネットワーク ●⽣生物系(タンパク質、神経系、⾷食物網など) ●⼯工学系(インターネット、WWWなど) 正の次数関数になりやすいネットワーク ●⼈人間関係(知⼈人関係、共著ネットワーク)   ※類は友を呼ぶ傾向を「ホモフィリー」という knn (k) knn (k) k k 2011年11月6日日曜日
  • 19. 16 中⼼心性 ネットワークの中⼼心性を計測する指標は4つある。 ●次数中⼼心性 ●近接中⼼心性 ●媒介中⼼心性 ●固有ベクトル中⼼心性 現実のネットワークで中⼼心性をどこに置くかは、 ネットワーク分析を⾏行行う上で⾮非常に⼤大事な問題。 問)  Facebookで友達1000⼈人いる⼈人は中⼼心性が⾼高いといえるか? 2011年11月6日日曜日
  • 20. 17 次数中⼼心性と近接中⼼心性 次数中⼼心性とは、ハブが中⼼心という指標。次数が多い⼈人が中⼼心。 ex)  Facebookで1000⼈人友達いる⼈人と10⼈人友達いる⼈人とでは、       1000⼈人の⽅方が中⼼心だと考える。 近接中⼼心性とは、ネットワーク全体に情報を広めやすいポジショ ンにある頂点を中⼼心とみなす。⾃自分から他⼈人まで平均的にどれく らい近いかどうかによって定義される。 N −1 1 N = j=1;j=i d(vi , vj ) Li 2011年11月6日日曜日
  • 21. 18 媒介中⼼心性 媒介中⼼心性は橋渡し役になっている頂点を中⼼心とみなす。 N is −1 (i i ) gi s t is =1;is =i it =1;it =i Nis it bi ≡ (N − 1)(N − 2)/2 p(bi ) p(k) ∝ k , 2 γ 3   の分布      について。                    のとき bi −γ p(b) ∝ b−δ (δ ≈ 2.0 または 2.2)   が⼤大きいハブはネットワークで重要な役割を果たすことが多く ki   が⼤大きい頂点も同様である。 bi   と  はずれやすいからこそ、  を計測する意義がある。 ki bi bi 2011年11月6日日曜日
  • 22. 19 固有ベクトル中⼼心性 媒介中⼼心性は中⼼心的な頂点と隣接していると⾃自分の中⼼心性も⼤大き いと考える。GoogleのPageRankも同様の考え。 ※隣接⾏行行列が⾮非対称の場合は注意が必要 A(隣接行列)の最大固有値を と置くと固有ベクトルが定まる。 λN λN µ = Aµ 2011年11月6日日曜日
  • 23. 20 コミュニティ構造 コミュニティはモジュール、グループ、クラスター、コンパート メントなどと呼ばれる。 ネットワークをどのようにコミュニティに分割するかが重要であ り、コミュニティ検出問題と呼ばれる。 詳細は、第9回のTokyoWebminingの発表を参照。 http://www.slideshare.net/komiyaatsushi/newman-6670300 2011年11月6日日曜日
  • 24. 21 モチーフ モチーフとはネットワークに含まれやすい三⾓角形のパターンのこ と。ex)  ⾷食物網のモチーフ、神経回路のモチーフ 有向ネットワークでは3頂点で13パターン、4頂点で199パター ンある。無向ネットワークの場合クラスター係数の計測に同じ。 測定⽅方法:元のネットワークにパターンiが    個あり、つなぎ Nm かえたネットワークにパターンiが      個ある。    >       rand Nm Nm Nm rand ならばパターンiはこのネットワークのモチーフである。 rand rand Nm − Nm Nm ・・・つなぎかえたパターンiの数の平均 Zm = rand rand σNm ・・・標準偏差 σNm 2011年11月6日日曜日
  • 25. 22 ランダムネットワーク p(k) N = 10 k 2 1 4 3 p(0) = 0, p(1) = , p(2) = , p(3) = , p(4) = 10 10 10 10 ランダムネットワークの特徴 ・ポワソン分布になる ・ハブがない 2011年11月6日日曜日
  • 26. 23 スケールフリーネットワーク 多くのネットワークはべき則(=パレートの法則、ジップの法則)になる −γ p(k) ∝ k A: 俳優の共演関係(γ=2.3)、B: WWW(γ=2.1)、C: 電力網(γ=4) 2≤γ≤3 現実のフリースケールネットワークは     程である。 いくつ以上の次数がハブという決まりはない。 γ  が小さいほどハブが出やすい。 特徴的なスケール(縮尺)がない(フリー)に由来。 2011年11月6日日曜日
  • 27. 24 bibliography 増田直紀,今野紀雄:『複雑ネットワーク - 基礎から応用まで』,近代科学社(2010) 増田直紀,今野紀雄:『「複雑ネットワーク」とは何か』,ブルーバックス(2006) 北海道大学 工学研究科 応用物理学専攻の方の資料 http://www.topo.hokudai.ac.jp/education/SpecialLecture/090501.pdf 鈴木努さんのサイト http://www.tiu.ac.jp/~nakabasa/NetAnalysis/SNATsuzuki.html Watts, D. J., Strogatz, S. H. : “Collective dynamics of 'small-world’”, Nature, Vol. 393(1998) Barabasi, A. -L., Albert, R. : “Emergence of scaling in random networks”, Science, Vol. 286(1999) 2011年11月6日日曜日