Mais conteúdo relacionado Semelhante a おしゃスタat銀座 (20) Mais de Issei Kurahashi (13) おしゃスタat銀座2. 私が『Statistics』を読んで内容を話してます
これまで第1回~第5回まで開催
◦ 第1章:制御された実験
◦ 第2章:観察研究
◦ 第3章:ヒストグラム
◦ 第4章:平均と標準偏差
◦ 第5章:正規近似
◦ 第6章:測定誤差
◦ 第7章:直線プロット
◦ 第8, 9章:相関
◦ 第10, 11, 12章:回帰
◦ 第13, 14章:確率
◦ 第15章:二項式
ここまで進んでます
2
3. 2011年東京大学博士号取得
◦ 修士まで:医療系の統計学が中心
疫学、臨床試験
◦ 博士から:データマイニング分野の研究
統計的学習、機械学習
2011年iAnalysis設立メンバー
◦ 分析ノウハウをビジネスへ
◦ ミッション:日々溜まっていくデータをどうやったら有効活用できるか?
Twitter: @isseing333
blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/
3
4. 設立:2011年3月24日
Web:http://ianalysis.jp/
場所:東京都港区南青山2-2-15 ウィン青山 1403
取引先業種
◦ 製薬会社
◦ 医療系支援・コンサルティング会社
◦ 広告代理店
◦ 人材サービス会社
◦ ソーシャルゲーム会社
◦ 商社
◦ 統計解析会社
医療分野から始まり、様々な業種へコンサルティングを行なっています
4
8. ある事象を数値化した集合
◦ 身長が165cm
◦ 体重が60kg
分析をするためには基本的に表(テーブル)の形にしなければならない
ID 年齢 身長 体重
1 20 165 60
2 43 178 73
3 36 163 57
... ... ... ...
◦ データベースのテーブルやエクセルのシートのイメージ
8
9. 列 項目、変数
ID 年齢 身長 体重
1 20 165 60
行 2 43 178 73
3 36 163 57
(1つの)データ
観測 ... ... ... ...
特徴ベクトル
「行」が1つ分のデータ、「列」が1つの項目
9
11. SASジャパンとクロス・マーケティングによる調査
◦ ビジネスパーソン1,000人へのアンケート
◦ http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html
◦ イメージ:顧客ニーズ、市場調査、数字をベースにした業務など
ちょっと曖昧、、、
11
12. ネットフリックス
◦ 1997〜
◦ DVDのオンラインレンタル
既に全国展開していた「ブロックバスター」を破綻に追いやるほど成長
◦ http://www.afpbb.com/article/economy/2759296/6233470
12
13. ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す
◦ 1999年の売上:500万ドル
◦ 2006年の売上:10億ドル
7年で売上200倍!
成功した理由は、、、
13
14. ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す
◦ 1999年の売上:500万ドル
◦ 2006年の売上:10億ドル
7年で売上200倍!
成功した理由は、、、
数学、統計、データマイニング
14
15. 顧客の好みを分析して映画をレコメンド(推奨)する
◦ アマゾンの推奨が有名
商品のクラスタリング
顧客のクラスタリング
レビューの分析
在庫状況
◦ 普段借りられないが好みの合映画を推奨する
自社:数学者、エンジニア、統計家などで開発
社外:コンテストを利用して優秀な力を借りている
◦ シネマッチの性能を最も改善できたチームに100万ドル
◦ 優秀な人材を雇う人件費に比べたら100万ドルは微々たるもの
15
16. ビジネスモデル:月額固定で借り放題、期間制限・延滞料なし、配送無料
普段は借りず、たまにしか借りない顧客が利益率が高く、最重要!!
このような顧客に優先してDVDを届けたい
頻繁に借りる会員が「不公平だ」と感じてしまう(→訴訟へ発展)
「利益の最適化」と「公平な配送」のバランスを計算する
このアルゴリズムのお陰で、利益を上げつつ不満も解消できた
16
17. 過去に借りられた「似ている映画」と同じくらいレンタルされるだろう
「ファヴェーラの丘」という映画
主役はリオデジャネイロのスラム出身ミュージシャン
リオのスラム街を描いた「シティ・オブ・ゴッド」は100万回
インドのスラム街を描いた「売春窟に生まれついて」は50万回
両方借りられた回数は25万回
なので「ファヴェーラの丘」も25万回は借りられるだろうと推測できる
17
18. チーフ・プロダクト・オフィサーの言葉
商品管理からエンジニアリングに至るあらゆる部署で分析のできる人間を
雇い、定量分析を行なっている
消費者の行動パターンについて、同時にいくつかの実験を行う
例えば“ネットフリックス試写室”を実験中
ネット上に4種類の試写室を用意して、会員2万人に試してもらった
比較対照のために、試写室に誘導しないグループも設けた
最後まで見る人は何人居るか、作品をお気に入り登録する人は何人居る
か、最終的に借りるか、借りた後の評価はどうだったか
すべてデータにしてチェックする
18
19. 野球:アスレチックス、レッドソックス(映画:マネーボール)
娯楽:アマゾン、ネットフリックス
小売:ウォルマート
Web:グーグル、ヤフー
ソーシャルゲーム:DeNA、グリー
金融:キャピタル・ワン
19
20. 野球:アスレチックス、レッドソックス(映画:マネーボール)
娯楽:アマゾン、ネットフリックス
小売:ウォルマート
Web:グーグル、ヤフー
ソーシャルゲーム:DeNA、グリー
金融:キャピタル・ワン
分析すると業績が上がる!?
20
22. データマイニング
Phase I
データの収集・加工
DBの作成・接続
ログの収集
システム開発
サーベイ、調査 Phase IV
効果検証
Phase II デザイン
Phase III A/Bテスト
データの可視化 モデル作成
ヒストグラム ランダム化試験
予測モデル 実験計画
散布図
機械学習
時系列プロット
クラスタリング
円グラフ、棒グラフ
因果推論
地域プロット
22
23. データを「解析できる形」にする
◦ データが全くない場合は作る
◦ データが様々なデータベース(DB)に保存されている場合は統合する
DBに保存されていてもフォーマットが違う
管理している部署が違う
アクセス制限がある
“汚い”データを綺麗にクレンジングする必要がある
◦ 欠測値の検討
そのまま残す、除去する、補完する
補完:平均値、多重補完(proc MI)
◦ 外れ値の検討
間違った値→除去、欠測
間違ってないが解析には大きすぎる→ウィンザライゼーション
23
24. 数値の羅列であるデータを目に見える形にする
◦ ヒストグラム
◦ 箱ひげ図
◦ 棒グラフ 第 1 四半期
◦ 円グラフ 第 2 四半期
◦ 時系列プロット 第 3 四半期
◦ 散布図 第 4 四半期
6
5 6
4 5
3 4
3
2
2
1
1
0 0
時点1 時点2 時点3 時点4
24
26. データに様々な「モデル」を当てはめて、情報を探索する
◦ 変数同士の関連をチェックする
◦ ある変数に影響を与えている変数は何か?
マーケティング:購買、課金、リピートに影響する変数は何か?
医療:疾病発症、生存時間、再発、予後に影響する変数は何か?
予測したい変数:結果変数
予測に使われる変数:説明変数
◦ 呼び方がたくさんある
結果変数→応答変数、従属変数
説明変数→予測変数、独立変数
◦ 「統計学を勉強するときに知っておきたい10ポイント」
http://d.hatena.ne.jp/isseing333/20110710/1310283922
モデルの例:「購買したかどうか」という結果変数を、「性別・年齢・居住地
域・収入」などの説明変数で予測する
◦ ロジスティック回帰、判別分析、SVM、ニューラルネットワーク
26
27. 既にあるデータを分析するだけでは「介入効果」は測定不可
◦ 広告の購買効果
◦ 薬剤の治療効果
ランダム化試験を行う
◦ 対象者をランダムにいくつかの群に分けて、異なる介入を行う
◦ 介入後の結果を比較する
例
◦ 広告A vs. 広告B
◦ 薬剤A vs. 薬剤B
サンプルサイズ設計を行い、介入を行うべき人数を計算する
◦ ランダム化試験を行えば、介入人数は数百人で十分な場合が多い
◦ 大がかりな試験をすることなく、介入効果の有無を見積もることが可能
27
30. “Data Mining and Statistics for Decision Making.”
『意思決定のためのデータマイニングと統計学』
Stphane Tuffry
Data mining is a tool for extracting the
jewel of truth from the data.
データマイニングとはデータから真実という
宝を抽出するためのツールである
30
31. 知識
データマイニング定番のプロセス (Knowledge)
パターン
変換データ (Pattern)
(Transformed Data)
前処理データ
(Preprocessed Data)
データマート
データベース (Data Mining Mart)
(Source Data)
Cleaning
Data
DB DB Data
DB
31
33. 厳密にはニュアンスが異なるが、どれも「データ分析」を指している
ニュアンス
データマイニング
◦ ビッグデータと関連して話されることが多い
◦ 砂漠のようなデータから金を見つける
機械学習
◦ 中身はブラックボックスだが予測精度が良い
統計的学習
◦ 計算方法の可読性・解釈を重視
33
34. 様々なところに記録されているデータを統合する
◦ 社内の部署連携
◦ データベースエンジニア、インフラエンジニア
大規模データを扱う必要
◦ 数100GB~数10TB
◦ Facebookは1日に約100TBのデータが発生
◦ Googleは約200億(?)のサイトから検索を行っている(約400TB?)
◦ Amazonは数千万アイテムの中からリコメンド(推奨)している
「分散処理」によって高速に処理を行う
◦ Hadoop(ハドゥープ)
Googleの基盤技術であるMapReduceをJavaでオープンソース実装した分散処理のフ
レームワーク
34
35. Hadoop
◦ 分散処理のためのJavaライブラリ
「Hadoop分散処理、6時間から5分に高速化 - Yahoo! Japan」
◦ http://journal.mycom.co.jp/news/2009/03/04/030/index.html
MapReduceという概念
◦ Map:データを分散して処理
◦ Reduce:処理を統合
http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/
35
36. 論文:Map-Reduce for Machine Learning on Multicore
◦ http://www.cs.stanford.edu/people/ang//papers/nips06-
mapreducemulticore.pdf
MapReduceできる統計手法
◦ 局所重み付き線形回帰(Locally Weighted Linear Regression)
◦ ナイーブベイズ(Naive Bayes)
◦ 判別分析(Gaussian Discriminative Analysis)
◦ K-means法
◦ ロジスティック回帰(Logistic Regression)
◦ ニューラルネットワーク(Neural Network)
◦ 主成分分析(Principal Components Analysis)
◦ 独立成分分析(Independent Component Analysis)
◦ EMアルゴリズム(Expectation Maximization)
◦ サポートベクターマシン(Support Vector Machine)
これらを組み込んでいるのがMahout
リアルタイム性を重視したJubatus
36
37. 教師付き学習
◦ “予測的”データマイニング
◦ 過去のデータを使って将来の値を予測する
1. 回帰モデル
2. カテゴリ予測
3. 機械学習
非教師付き学習
◦ “記述的”データマイニング
◦ データのパターンを発見する
A. アソシエーションルール
B. クラスタリング
C. テキストマイニング
37
38. 教師付き学習
一般化線形モデル
◦ 線形回帰:Y = a + bx1 + cx2 + …
◦ ロジスティック回帰:logit(P) = a + bx1 + cx2 + …
◦ ポアソン回帰:log(Y) = a + bx1 + cx2 + …
正則化回帰
◦ リッジ回帰、LASSO、LARS
パラメータ推定にペナルティを付けて過適合を防ぐ
時系列モデル
◦ ARIMA
非線形回帰
◦ スプライン、一般化加法モデル
◦ 多変量加法回帰スプライン(multiple adaptive regression splines; MARS)
生存時間解析
◦ カップラン・マイヤー曲線、Cox比例ハザードモデル
38
39. 教師付き学習
判別分析
ロジスティック回帰
決定木
◦ 再帰的分割アルゴリズム(Recursive Partitioning Algorithms)
収入>○○
Yes No
職歴>3年 高負債
購入する 購入しない 購入しない 購入する
39
40. 教師付き学習
サポートベクターマシン(Support Vector Machine; SVM)
カーネルトリック
ニューラルネットワーク(Neural Network; NN)
input
ニューロン output
x1 β1
x2 β2
Y
…
β0
xn βn
40
41. 線形予測・判別
非線形予測・判別
41
42. 複雑な結果(非線形)になるので解釈が難しい
データの特徴を単純化(モデル化)できない
複雑なモデルから解釈可能なルールを抽出する方法もある
◦ 決定木を駆使してルールを抽出する
42
43. 「学習」させ過ぎると「過適合」が起こる
クロスバリデーション(交差検証)を行う必要がある
◦ K-fold Cross-Validation(K=10、K=2、K=nの場合が多い)
…
…
K回
…
…
Validation Data(検証データ)
Training Data(学習データ、訓練データ)
43
44. エラー
検証データ
ここで学習を止める(early stopping)
過適合!!
学習データ
学習
44
45. 非教師付き学習
バスケット分析
◦ 一緒に購入しやすいアイテムのパターンを抽出する
・support(X→Y) = number of (X U Y) / total number
・confidence(X→Y) = support(X U Y) / support(X)
対象者 アイテム
1 Item6, Item2, Item4
2 Item1, Item3
3 Item3, Item6
4 Item1, Item2, Item3
5 Item1, Item2, Item6, Item3, Item4
6 Item2, Item6, Item4
7 Item2, Item4, Item6
Item6 → Item4, Item2 support = 4/7, confidence = 4/5
Item6, Item2 → Item4 support = 4/7, confidence = 4/4
45
46. 非教師付き学習
K-means
◦ ↓このサイトが非常に分かりやすい
◦ http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
自己組織化マップ(Self-Organization Map; SOM)
◦ ニューロンを使ったクラスタリング
ネットワーク分析
◦ データのネットワーク図を描いて特徴を探る
46
48. ハイテク企業の管理職21人の社会ネットワーク
◦ 『ネットワーク分析 (Rで学ぶデータサイエンス 8) 』
「アドバイスを求める」 「友人である」 「報告をする」
http://d.hatena.ne.jp/yokkuns/20110223/1298416018
48
49. 非教師付き学習
「文章」データから情報を抽出する
◦ Twitter、Facebook
◦ 小説
ワードクラウド
◦ 形態素解析+単語が利用されている頻度の可視化
49
51. 利点
Rは完全無料の統計ソフト
データサイズは1Gくらいまで分析できる(もちろんPC性能に依ります)
充実したライブラリ(全て無料)
欠点
保証がない→コミュニティ(使ってる人同士)でカバー
ビッグデータは扱えない→これからの発展に期待、Rhadoopとか
計算結果が本当に合っているのか→ベースとなる機能はほぼ大丈夫
◦ ミスが起こりやすいのはライブラリよりデータ加工やプログラムの方
プログラミングが必要→言語の中では取得しやすい
51