はじめよう多変量解析~主成分分析編~
- 1. 第 31 回 Tokyo.R
はじめよう多変量解析
~主成分分析編~
@sanoche16
- 8. 1、多変量解析とは
広告費 社員数 会員数 売上
A 社 12 億円 2000 人 100 万人 200 億円
B 社 2 億円 1200 人 150 万人 750 億円
C 社 10 億円 800 人 60 万人 600 億円
D 社 8 億円 1000 人 200 万人 ?
例えば・・・
変量
デ
|
タ
- 9. 1、多変量解析とは
広告費 社員数 会員数 売上
A 社 12 億円 2000 人 100 万人 200 億円
B 社 2 億円 1200 人 150 万人 750 億円
C 社 10 億円 800 人 60 万人 600 億円
D 社 8 億円 1000 人 200 万人 ?
例えば・・・
変量
デ
|
タ
D 社の売上はいくらと予想出来るか!?
- 10. 1、多変量解析とは
広告費 社員数 会員数 売上
A 社 12 億円 2000 人 100 万人 200 億円
B 社 2 億円 1200 人 150 万人 750 億円
C 社 10 億円 800 人 60 万人 500 億円
D 社 8 億円 1000 人 200 万人 550 億円
例えば・・・
変量
デ
|
タ
- 11. 1、多変量解析とは
広告費 社員数 会員数 売上
A 社 12 億円 2000 人 100 万人 200 億円
B 社 2 億円 1200 人 150 万人 750 億円
C 社 10 億円 800 人 60 万人 500 億円
D 社 8 億円 1000 人 200 万人 550 億円
例えば・・・
変量
デ
|
タ
予測出来た!
- 12. 1、多変量解析とは
国語 数学 社会 理科
A 君 82 点 68 点 92 点 76 点
B 君 76 点 98 点 58 点 62 点
C 君 80 点 92 点 72 点 86 点
D 君 86 点 74 点 82 点 90 点
例えば・・・
変量
デ
|
タ
- 13. 1、多変量解析とは
国語 数学 社会 理科
A 君 82 点 68 点 92 点 76 点
B 君 76 点 98 点 58 点 62 点
C 君 80 点 92 点 72 点 86 点
D 君 86 点 74 点 82 点 90 点
例えば・・・
変量
デ
|
タ
2つのタイプに分けたい!
- 42. 例えば
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) x1 x2 z
ガンホー 1,267 32 1,267 32 1299
マツモトキヨシ 137 137 137 137 274
旭化成 952 824 952 824 1776
キリン 1662 1278 1662 1278 2940
アオキ 139 111 139 111 250
資生堂 601 304 601 304 905
第一生命 1412 1649 1412 1649 3061
シャープ 629 135 629 135 764
- 43. 2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) x1 2 × x2 z
ガンホー 1,267 32 1,267 64 1331
マツモトキヨシ 137 137 137 274 411
旭化成 952 824 952 1648 2600
キリン 1662 1278 1662 2556 4218
アオキ 139 111 139 222 361
資生堂 601 304 601 608 1209
第一生命 1412 1649 1412 3298 4710
シャープ 629 135 629 270 899
例えば
- 44. 2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) 3 × x1 x2 z
ガンホー 1,267 32 3809 32 3833
マツモトキヨシ 137 137 411 137 548
旭化成 952 824 2856 824 3680
キリン 1662 1278 4986 1278 6264
アオキ 139 111 417 111 528
資生堂 601 304 1803 304 2107
第一生命 1412 1649 4236 1649 5885
シャープ 629 135 1887 135 2022
例えば
- 45. 一般化
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) a1 × x1 a2 × x2 z
ガンホー 1,267 32 1267a1 32a2 1267a1 + 32 a2
マツモトキヨシ 137 137 137a1 137a2 137a1 + 137a2
旭化成 952 824 952a1 824a2 952a1 + 824a2
キリン 1662 1278 1662a1 1278a2
1662a1 +
1278a2
アオキ 139 111 139a1 111a2 139a1 + 111a2
資生堂 601 304 601a1 304a2 601a1 + 304a2
第一生命 1412 1649 1412a1 1649a2
1412a1 +
1649a2
シャープ 629 135 629a1 135a2 629a1 + 135a2
- 46. 一般化
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) a1 × x1 a2 × x2 z
ガンホー 1,267 32 1267a1 32a2 1267a1 + 32 a2
マツモトキヨシ 137 137 137a1 137a2 137a1 + 137a2
旭化成 952 824 952a1 824a2 952a1 + 824a2
キリン 1662 1278 1662a1 1278a2
1662a1 +
1278a2
アオキ 139 111 139a1 111a2 139a1 + 111a2
資生堂 601 304 601a1 304a2 601a1 + 304a2
第一生命 1412 1649 1412a1 1649a2
1412a1 +
1649a2
シャープ 629 135 629a1 135a2 629a1 + 135a2
とおく
- 48. 一般化
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) a1 × x1 a2 × x2 z
ガンホー 1,267 32 1267a1 32a2 1267a1 + 32 a2
マツモトキヨシ 137 137 137a1 137a2 137a1 + 137a2
旭化成 952 824 952a1 824a2 952a1 + 824a2
キリン 1662 1278 1662a1 1278a2
1662a1 +
1278a2
アオキ 139 111 139a1 111a2 139a1 + 111a2
資生堂 601 304 601a1 304a2 601a1 + 304a2
第一生命 1412 1649 1412a1 1649a2
1412a1 +
1649a2
シャープ 629 135 629a1 135a2 629a1 + 135a2
z で会社の規模を判断したい
=>z が最もバラつくように a1, a2 決める
=>z の分散を最大化するように a1, a2 を決める!
- 59. 実際に使ってみる
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) 0.67 × x1 0.74 × x2 z
ガンホー 1,267 32 848.89 23.68 872.57
マツモトキヨシ 137 137 91.79 101.38 193.17
旭化成 952 824 637.84 609.76 1247.60
キリン 1662 1278 1113.54 945.72 2059.26
アオキ 139 111 93.13 82.14 175.27
資生堂 601 304 402.67 224.96 627.63
第一生命 1412 1649 946.04 1220.26 2166.30
シャープ 629 135 421.43 99.90 521.33
- 60. 実際に使ってみる
2、主成分分析の簡単なお話
時価総額 (x1) 純資産 (x2) 0.67 × x1 0.74 × x2 z
ガンホー 1,267 32 848.89 23.68 872.57
マツモトキヨシ 137 137 91.79 101.38 193.17
旭化成 952 824 637.84 609.76 1247.60
キリン 1662 1278 1113.54 945.72 2059.26
アオキ 139 111 93.13 82.14 175.27
資生堂 601 304 402.67 224.96 627.63
第一生命 1412 1649 946.04 1220.26 2166.30
シャープ 629 135 421.43 99.90 521.33
主成分得点が出せた!
- 73. R を用いて
2、主成分分析の簡単なお話
~ R でやってみる~
・ prcomp 関数にデータフレームを入れれば良い
第 1 主成分 第2主成分第 1 主成分
注)データを標準化して分析したい場合は
prcomp 関数の引数 scale に T を指定する
- 80. 実際にやってみる
3、2次元から多次元へ
安打 本塁打 打点 三振 四球
松本 27 3 9 19 4
山崎 10 1 6 8 1
田村 23 4 15 19 11
ブランコ 64 21 58 45 29
中村 54 7 25 23 19
後藤 7 2 4 7 2
荒波 35 0 5 26 8
鶴岡 19 0 11 13 7
6/1 に yahoo より作成
- 84. 結果
3、2次元から多次元へ
・第1主成分
z = 0.44× 安打+ 0.44× 本塁打+ 0.45× 打点+ 0.44× 三振+ 0.46× 四球
=> どれだけ試合に出場しているか
・第2主成分
z = 0.59× 安打- 0.57× 本塁打- 0.43× 打点+ 0.37× 三振+ 0.06× 四球
=> 短打力(逆は長打力)
・第3主成分
z = 0.33× 安打- 0.18× 本塁打+ 0.10× 打点- 0.77× 三振+ 0.50× 四球
=> 逃げる力(三振をとにかく回避)
- 92. ということで拝借
4、量的データから質的データに
コク 香り 酸味
S マルタ -0.116248 1.2456822 1.5275252
モーニング S -1.278724 -1.245682 0.0727393
BOSS 1.0462287 -0.415227 0.8001323
FIRE 1.0462287 0.4152274 -0.654654
サンタマルタ 1.0462287 1.2456822 1.5275252
BLACK 無糖 0.4649906 -0.415227 -0.654654
UCCB -1.278724 1.2456822 -1.382047
ジョージア B -1.278724 -1.245682 -1.382047
ROOT -0.697486 -1.245682 0.0727393
WANDA 1.0462287 0.4152274 0.0727393