SlideShare uma empresa Scribd logo
1 de 25
Baixar para ler offline
相関係数
ベクトルで理解する相関係数




MATSUURA Satoshi
matsuura@is.naist.jp


         1
相関が強い/弱いとは?

とても強い(線形)                強い                    弱い
料金               物理の得点                    成果




             >                        >
0      消費量       0            数学の得点       0         予算




                         2
相関係数
・目的
 2つの集合(x, y)の線形関係を定量的に表現したい


・性質
 1.相関係数は[-1, 1]の範囲で表す。
 2.0に近いほど相関が弱く、1(-1)に近づくほど相関が強い。
 3.相関関数が3倍になる事は、3倍の相関を得ることを示さない。
   相関度合いの比較を可能とするだけである。


・計算式
 x = (x1, x2, x3, ... xn), y = (y1, y2, y3, ... yn)の時
                                                        n
 x, yの相関関係Rは下記の式で求まる。だたし、      である。               x = n i=1 xi
                                                  ¯ 1

                       n
                       i=1 (xi     x)(yi
                                   ¯        y)
                                            ¯
      R=          n                    n
                  i=1 (xi    x)2
                             ¯         i=1 (yi    y )2
                                                  ¯

                                   3
問題点
・危険な(浅い)理解の仕方

     相関係数って、
関連がどれくらい有るかの値でしょ。


  ・値の大小が何を意味するか分からない
  ・そもそも[-1,1]の値を取る事を知らない
  ・相関係数が3倍になると3倍の相関が
   あると思ってしまう
            4
Goal
・簡潔な理解の仕方

     相関係数って、
     cosθ でしょ。

・[-1,1]の値を取るのは自明
・二つの集合(ベクトル)が同じ向き→1, 逆向き→-1
・¦cosθ¦ 1(強い相関)、¦cosθ¦ 0(弱い相関)

              5
そもそも線形の関係とは

線形:直線上に並ぶ
y

y4                         ・二つの集合(x, y)を考える
y3
                           ・x = (x1, x2, ... xn), y = (y1, y2, ... yn)とする
y2
y1                         ・(x1, y1), (x2, y2), ... (xn, yn)の全ての点を、
                            ある一つの直線が通過する時、二つの集合は
                            線形の関係にあると呼ぶ。
                       x
0    x1 x2   x3   x4




                                    6
線形関係の特徴

線形:直線上に並ぶ          重心を取る            重心と原点を重ねる

y              y                       y

                      x                0
                                           x
                                               x



0      x       0           x



             POINT: 重心は必ず直線上の点になる




                     7
線形関係の特徴

重心と原点が重なる
                    ・平行移動後の集合を(x , y )とする
 ように平行移動
                    ・x = (x1 , x2 , ... xn ), y = (y1 , y2 , ... yn )
   y       y = ax   →y = ax の関係が成り立つ

   0                              ・最重要ポイント
       x
             x                    x , y をn次元空間の1点と捉える


                    ・x , y の二つのベクトルの向きが等しい(a > 0)




                              8
ベクトルとcosθ
  y       y = ax

  0
                   ・線形の関係
      x            ・ベクトルx , y は4次元上で同一の方向を指す
            x

                   ・x , y で作る角度が0→cosθの値は1


  y       y = ax
                   ・線形に近い関係
  0
      x
            x
                   ・ベクトルx , y は4次元上で似た方向を指す
                   ・x , y で作る角度が小さい→cosθの値は1に近い


  y       y = ax
                   ・線形から遠い関係
  0
      x
            x
                   ・ベクトルx , y は4次元上で違った方向を指す
                   ・x , y で作る角度が大きい→cosθの値は0に近い



4点(4次元)は想像しにくいので、具体的な3点で確認してみて下さい
                          9
このcosθが
相関係数です。


   10
本当でしょうか?
  (以下確認)


   11
cosθの導出

         初期状態            (回帰直線と)重心を求める              重心を原点へ平行移動

     y                         y                        y


                                   x
                                                        0
                                                            x
     0          x              0          x                          x




                       POINT: 重心は必ず回帰直線上の点になる*




* 回帰直線:最小二乗法より求められる直線。重心が回帰直線上に存在することを確認するには少々の計算が必要(末尾のおまけを参照の事)。

                                   12
cosθの導出
                 ・初期状態の集合を(x, y)とする
                 ・平行移動後の集合を(x , y )とする
y                ・x = (x1 , x2 , ... xn ), y = (y1 , y2 , ... yn )


0                                       内積を考える
    x
          x


                 x ・y = ¦x ¦¦y ¦cosθ
                 ここで平行移動した距離は原点と重心間の距離に
                                 n
                        x = n i=1 xi
                        ¯ 1
                 等しく、       のように表される(yも同様)。
                 cosθについて解くと、下記を得る(p.3のRと同じ式)。

                      n
                      i=1 (xi         x)(yi
                                      ¯       y)
                                              ¯
        cos =    n                        n
                 i=1 (xi        x)2
                                ¯         i=1 (yi   y )2
                                                    ¯
                           13
ここまでのまとめ
       1.   集合 x, yの相関係数を求めたい
       2.   集合の重心を原点に合わせるように平行移動
       3.   平行移動後の集合 x , y をn次元の1点と捉える
       4.   ベクトルx , y から得られるcosθが求める相関係数

    ・相関係数の解釈の仕方

          どれだけ点(集合)が直線に沿って分布しているか
                      ↓
      どれだけベクトル(平行移動後の集合)が同じ方向を向いているか

y                      y                   y


                           x
                                           0
                                               x
0            x         0        x                  x




                           14
相関係数って、
  cosθ でしょ、
と思えたでしょうか。


     15
ここまで説明した、
相関係数のイメージが
 掴めれば十分です。
 (以下、おまけ)

    16
残された疑問
  ・なぜ、回帰直線を利用するのか
  ・本当に、回帰直線上に集合の重心が位置するのか
  ・回帰直線とcosθの関係はどうなっているのか
・p.12 cosθの導出より

         初期状態          (回帰直線と)重心を求める           重心を原点へ平行移動

     y                      y                    y


                                x
                                                 0
                                                     x
     0            x         0         x                  x




                      POINT: 重心は必ず回帰直線上の点になる
                                17
回帰直線を利用する理由
相関係数:線形関係にどれだけ近いか(遠いか)を示す値
              ↓
       基準となる直線が必要だ
              ↓
 出来るだけ、点(集合)の近くを通る直線を設定しよう
  (そうで無いと線形関係の場合、点(集合)が線上に存在しないという矛盾した状態が生じる)

            ↓
   そういう直線は最小二乗法で求められるよ
            ↓
  回帰直線:最小二乗法によって算出される直線

                       18
回帰直線と重心
       f (x) = ax + b
求める直線を        とおき、最小二乗法により求める。
       n
                                   J    J
J=          (yi       f (x)) が最小の時、       が成り立つ。
                            2
                                     =0   =0
      i=1
                                   a    b
                  n
      J
        =2     xi (axi + b               yi )2 = 0
      a    i=1
                  n
      J                                                          n
        =2     (axi + b              yi ) = 0
                                         2
                                                              =
                                                          以後、   とする。
      b    i=1                                                  i=1



  a         x2 + b
             i         xi           xi yi = 0

  a         xi + nb             yi = 0

                       n                        n
   x = n i=1 xi y = n i=1 yi
    ¯ 1         ¯ 1
ここで、             とおくと、

       xi yi     x2
             =a   i
                    + b¯
                       x
       n        n
                                             - (1)               y = a¯ + b
                                                                 ¯          (¯, y )
                                                                             x ¯
                                                            (1)式、      より重心   は
                                                                      x
  y = a¯ + b
  ¯    x                                                    回帰直線上に存在することがわかる



                                                     19
回帰直線とcosθ
続いて、回帰直線を求める。(1)より b を消去すると、

  xi yi              x2
            xy = a(
            ¯¯        i
                                       x2 )
                                       ¯                              - (2)
  n                 n

ここで、(2)式の右辺、左辺を整理する。
                                                                          n
  x2                  x2           xi               ¯
                                                    x2
   i
          x2 =
          ¯            i
                               2¯
                                x     +                                    =n
                                                                 (αが定数の時      が成り立つ)
 n                   n            n                n                     i=1

            =        (x2
                       i       2xi x + x2 )
                                   ¯ ¯
                 n
            =        (xi       x)2
                               ¯                                      - (2a)
                 n

  xi yi                  xi yi
           xy =
           ¯¯                    xy + y x + xy
                                 ¯ ¯ ¯¯ ¯ ¯
  n                      n
                         xi yi           ¯
                                      xi y     yi x + n¯y
                                                  ¯    x¯
                 =             +
                         n                   n
                 =       (xi yi         ¯
                                     xi y     yi x + xy )
                                                 ¯ ¯¯
                     n
                 =       (xi      x)(yi
                                  ¯           y)
                                              ¯                      - (2b)
                     n
                                                            20
回帰直線とcosθ
(2a), (2b)式を(2)に代入してaを得る。
       (xi     x)(yi y )
                ¯    ¯
 a=
             (xi x)2
                  ¯

(1)式に代入し、bを得る。
 b=y
   ¯   a¯
        x
             (xi     x)(yi y )
                      ¯     ¯
  =y
   ¯                           ¯
                               x
                   (xi x)
                        ¯ 2



a, bより回帰直線が下記の様に求まる。
       (xi     x)(yi y )
                ¯     ¯            (xi     x)(yi y )
                                            ¯     ¯
 y=                      x+y
                           ¯                         ¯
                                                     x       - (3)
             (xi x)
                  ¯ 2                    (xi x)
                                              ¯ 2



        y                                       y
                                                                     回帰直線

                                                    x                重心  y )
                                                                       (¯, ¯
                                                                        x

        0                x                      0        x




                                              21
回帰直線とcosθ
相関係数:線形関係にどれだけ近いかを示す値。
下図において回帰直線と点との差(赤線部)が小さいほど線形関係に近い。
→ 二乗和の比を利用して表す(定義。平行移動後の状態を利用する)。


・平行移動後の回帰直線をr(x)とすると、

             r(xi x)2
                   ¯
  R2 =                  - (4)
             (yi y )2
                  ¯



                                           (xi   ¯
                                                 x, y i   y)
                                                          ¯
  y                       y                                     y = r(x)


         x                                        (xi     ¯
                                                          x, r(xi   x))
                                                                    ¯

                          0
                              x
  0             x                      x
                                                                      x


                                  22
回帰直線とcosθ
(3)式よりr(x)は下記の様に求まり、(4)式を整理する。
                  (xi     x)(yi y )
                           ¯     ¯
 r(x) =                             x
                        (xi x)
                             ¯ 2


              r(xi x)2
                    ¯
 R =
  2
              (yi y )2
                   ¯
                  P
                      (xi x)(yi y )
                       P ¯       ¯
              (          (xi x)2
                              ¯     (xi    x))2
                                           ¯
      =
                            (yi y )2
                                  ¯
              P
          (   (xi x)(yi y ))2
               P ¯        ¯
              ( (xi x)
                     ¯ 2 )2          (xi    x)2
                                            ¯
      =
               (yi y )2
                    ¯
        ( (xi x)(yi y ))2
               ¯      ¯
      =
         (xi x)2 (yi y )2
             ¯          ¯

したがって、相関係数Rは下記の様に求まる。

                        (xi     x)(yi
                                ¯           y)
                                            ¯
 R=
                   (xi        x)2
                              ¯           (yi     y )2
                                                  ¯           p.13で求めたcosθと同じ式が得られた




                                                         23
おまけのまとめ

    ・相関係数:線形関係にどれだけ近いかを示す値。
     → 二乗和の比を利用して表す(定義)
    ・回帰直線からcosθと同じ値が得られた



・まとめの一言

    時には、定義から相関係数を導ける事も必要でしょう。
普段は、相関係数=cosθとベクトルと共にイメージ出来れば十分です。




                24
参考文献

・相関係数
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF
%82%E6%95%B0


・5 回帰直線(1)
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/rp4/rp4.htm




                              25

Mais conteúdo relacionado

Mais procurados

相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
Tsubasa Hirakawa
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Mais procurados (20)

10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
因子分析
因子分析因子分析
因子分析
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
機械学習と主成分分析
機械学習と主成分分析機械学習と主成分分析
機械学習と主成分分析
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定
 

Semelhante a ベクトルで理解する相関係数

030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
t2tarumi
 
量子アニーリング解説 1
量子アニーリング解説 1量子アニーリング解説 1
量子アニーリング解説 1
Kohta Ishikawa
 
数学教材(中間発表)
数学教材(中間発表)数学教材(中間発表)
数学教材(中間発表)
Mizuguchi1205
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
Issei Kurahashi
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
sleipnir002
 

Semelhante a ベクトルで理解する相関係数 (20)

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 
Linera lgebra
Linera lgebraLinera lgebra
Linera lgebra
 
量子アニーリング解説 1
量子アニーリング解説 1量子アニーリング解説 1
量子アニーリング解説 1
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
 
数学教材(中間発表)
数学教材(中間発表)数学教材(中間発表)
数学教材(中間発表)
 
【材料力学】3次元空間のひずみ (II-11 2018)
【材料力学】3次元空間のひずみ  (II-11 2018)【材料力学】3次元空間のひずみ  (II-11 2018)
【材料力学】3次元空間のひずみ (II-11 2018)
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
2014年度春学期 画像情報処理 第13回 Radon変換と投影定理 (2014. 7. 16)
2014年度春学期 画像情報処理 第13回 Radon変換と投影定理 (2014. 7. 16)2014年度春学期 画像情報処理 第13回 Radon変換と投影定理 (2014. 7. 16)
2014年度春学期 画像情報処理 第13回 Radon変換と投影定理 (2014. 7. 16)
 
2014年度秋学期 応用数学(解析) 第4部・複素関数論ダイジェスト / 第12回 複素関数・正則関数 (2014. 12. 18)
2014年度秋学期 応用数学(解析) 第4部・複素関数論ダイジェスト / 第12回 複素関数・正則関数 (2014. 12. 18)2014年度秋学期 応用数学(解析) 第4部・複素関数論ダイジェスト / 第12回 複素関数・正則関数 (2014. 12. 18)
2014年度秋学期 応用数学(解析) 第4部・複素関数論ダイジェスト / 第12回 複素関数・正則関数 (2014. 12. 18)
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
2015年度秋学期 応用数学(解析) 第12回 複素関数・正則関数 (2015. 12. 10)
2015年度秋学期 応用数学(解析) 第12回 複素関数・正則関数 (2015. 12. 10)2015年度秋学期 応用数学(解析) 第12回 複素関数・正則関数 (2015. 12. 10)
2015年度秋学期 応用数学(解析) 第12回 複素関数・正則関数 (2015. 12. 10)
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
2015年度春学期 画像情報処理 第13回 Radon変換と投影定理
2015年度春学期 画像情報処理 第13回 Radon変換と投影定理2015年度春学期 画像情報処理 第13回 Radon変換と投影定理
2015年度春学期 画像情報処理 第13回 Radon変換と投影定理
 
さくっと線形代数
さくっと線形代数さくっと線形代数
さくっと線形代数
 
C03
C03C03
C03
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 

ベクトルで理解する相関係数