PyData Tokyo Tutorial & Hackathon #1

.
白ヤギコーポレーション
シバタアキラ, Ph.D.
ashibata.com
Tutorial & Hackathon #1

シバタアキラ, PhD. @punkphysicist
いま：CEO @白ヤギコーポレーション
カメリオ: あなたに必要な情報しか来ないアプリ
カメクト: コンテンツレコメンドエンジン
2010 - 2013: 経営コンサルティング @BCG
2004 - 2010: データサイエンティスト @NYU
統計的データ分析でヒッグス狩り @LHC, CERN
Pythonとは10年間の付き合い

オーガナイザー
@atelierhide
@iktakahiro @punkphysicist
池内考啓
Takahiro Ikeuchi
柴田暁
Akira Shibata
田中秀樹 
Hideki Tanaka
山本光穂
Mitsuo Yamamoto
下村勇介
Yusuke Shimomura
サポート
@kaita

じんるいの
えいちの
けっしょう
すごいぱわーの
ろけっと

すごいっアルゴリズム
すごいっサービス
すごいっ分析

開発でも研究でも幅広く使われているPythonは 
データ解析では一人勝ち状態

Python+Dataを通じて 
世界のPyDataエクスパートと繋がれる 
コミュニティーを作る

• 当面は「顔が見える」サイズを超えない： 
参加人数は 30人くらいを目安に
• 質問とディスカッションを重視： 
わからなけれ即質問、発表後も気が済むまでディスカッションを
• 参加者同士のつながりを大切に： 
懇親会は毎回行います！
• 今後初級者が「手を動かして」学べる開発イベントも検討
PyData.Tokyo運営方針

このチュートリアルで達成したいこと
実データを使ったコーディングを通じて実践力のあるデー
タサイエンティストを養成する
データ解析の基本を修得する
データ解析において今使われている最新ツールの習得
更にワンランク上のデータサイエンティストへの道

【第一部】データハンドリング
1 データのインポート

2 データの前処理・整形

3 集計・統計解析

4 データの可視化

【第二部】機械学習による予測
1 機械学習を分類モデルの生成

2 分類結果の検証

【第三部】ディスカッション

もっとよく知りたい人は
基本的なところからカバー 
Pandasの作者
機械学習に特に詳しい

さらに・・・
Pythonを仕事で使う上で欠かせない一冊 
Connpass作ってる会社
月末に出る予定

ハッカソンの人にお願い
• Kaggleにサブミットして高得点を目指してください
• コーヒセッションで初心者との疑問やディスカッショ
ンへの参加
• 最後のディスカッションセッションでの発表で、 
成果発表をしてください

乗客の年齢、性別その他の情報を機械学習アルゴリズムに学習さ
せることで、初心者でも80％に近い精度で生存者を当てることが
できるようになります。
中上級者は90％を目指してください（激ムズ）！
注意：Kaggleの提出は10回なので要注意！！
本日使う例題
タイタニックの乗客データを使った生存者推定モデルの生成

まずは自己紹介から30秒くらい
お名前
プロフィール：いまのお仕事、肩書、など
現在のPython及びDataとの関わり方
今日のチュートリアルに期待すること

1. データハンドリング（I/O, 前処理･整形, 正規化）
2. 初期分析と仮説構築（集計, 可視化, 仮説構築）
3. 機械学習（多変量解析, 教師あり学習, 教師なし学習）
4. 結果の評価（Precision/Recall, 交差検証）
データサイエンティストのいろは
【第一部】
【第二部】

• 大量のデータを解析するための並列処理
• アルゴリズムを更に良くする実装方法
• 得られた結果の統計的信頼性の評価
• 結果のチューニングのためのパラメーター調整
• シミュレーションによるデータ生成
重要だけど今回は対象外なトピックス

1. データハンドリングデータの種類
テーブル型テキスト型バイナリ型
構造がしっかりしていて分
析しやすいが、シンプルな
構造に限られる
より複雑な構造をサポート 
テキストなので汎用性高い 
が読み込みが少し煩雑
いかなる構造もサポートす
るが、汎用性が低い。 
囲い込みビジネスができる
今回は最も一般的なテーブル型データを扱う

1. データハンドリングデータの読み込み方法
インメモリストリーム分散処理
高速な処理ができるが、 
メモリのサイズによって 
データ量が制限される
継続的人流れてくる 
データをリアルタイムに 
集計していく
超大量のデータを分散し、 
データのあるところで 
処理を行う
Pythonを使った分析は基本的にインメモリ

CSV、SQL等様々なフォーマットをメモリに読み込む

1. メタデータの確認：データタイプや定義
2. 正規化：データの値はコントロールされてるか
3. ダミー変数：データの値を扱いやすくする
4. 欠損値への対処：データに歯抜けがあった時
5. 外れ値・不正値処理：計測に問題があったかもしれない
6. 特徴量抽出：より効果的な特徴量を作り出す
7. 不均衡データへの対応：正例が極端（10％以下）に少ない
無意味にデータを増やしても精度は上がらない
1. データハンドリングデータの前処理

1. データハンドリングデータの前処理：メタデータの確認
目的変数 
「当てたい」結果
特徴量（説明変数）
名義尺度数値データ
カテゴリデータ

1. データハンドリングデータの前処理：ダミー変数
出典：http://www.slideshare.net/canard0328/ss-44288984
ダミー変数を使うことで、アルゴリズムが扱える様になる

バイアスが生じるが、削除や代入はよく使われる
1. データハンドリングデータの前処理：欠損値への対処
出典：http://www.slideshare.net/dichika/maeshori-missing

1. データハンドリングデータの前処理：外れ値
測定時のエラーもしくは個別事由による外れ値は 
除いてモデル化したほうが良いことも

1. データハンドリングデータの前処理：特徴量抽出
既存の特徴量から新たに特徴量を作る
+ =

2. 初期分析と仮説構築集計
38%の人が生存平均年齢30歳
最高年齢80歳
運賃は人によって 
大きく違う

覚えておいてほしいこと
「データを見る」ことなく結果はでない： 
「もっといっぱいのデータ」があっても 
「もっといいアルゴリズム」があっても解決できない
アルゴリズムは魔法ではない： 
アルゴリズムはいわれたことをやるだけ、 
正しい問題設定なしには役に立たない

2. 初期分析と仮説構築可視化
簡単な可視化を行うだけでも多くの仮設を立てられる

Pythonでもいろいろなツールがある

Python頑張らなくてもいい

2. 初期分析と仮説構築仮説の構築
女の生存率が高い、若いほど生存率が高い

上級のクラスのほうが生存率が高い

傾向としては、なんか分けられるような気もする

3. 機械学習（多変量解析, 教師あり学習）
4. 結果の評価（Precision/Recall, 交差検証）
【第一部】
【第二部】

3. 機械学習多変量解析
出典：
三次元以上になると人力では仮説が立てにくくなる

• 人力：判別力のそうな特徴量だけを少数選ぶ
• 多変量解析：複数の特徴量を組み合わせる
• 機械学習：複数特徴量から最適パターンを見つける
どんどん複雑になっていく

既存の特徴量から新たに特徴量を作る
+ =

出典：http://www.nlpca.org/pca_principal_component_analysis.html
クラス間の分散を最大化する特徴量を探す 
他にもk-meansなどのクラスタリング法も

3. 機械学習教師あり学習
特徴量（説明変数）
目的変数 
「当てたい」結果

回帰型木型ニューラルネット型
線形回帰 
Support Vector Machine 
等
Decision Tree 
Random Forest 
等
Neural Network 
深層学習 
等
他にも遺伝的アルゴリズムなどの手法も

Support Vector Machine：
Linear Regression：
シンプルで、早い分類手法 
結果が確率値として解釈できる 
割といい結果が出るが、ベストではない
最も分割距離が大きくなる 
平面を定義できる様、空間を 
重み付けする

Random Forest：
Decision Tree：
特徴量に対する条件の組み合わせ 
で、正答率を最高にする 
単純で理解しやすい
ランダムに特徴量とデータをサンプリング 
し、生まれた決定木を組み合わせ、最も 
正答率の高い組み合わせを見つける 
（多数の特徴量に対応し、欠損値の取り扱いも柔軟）

http://peekaboo-vision.blogspot.jp/2013/01/machine-learning-cheat-sheet-for-scikit.html

機械学習の応用
1. 分類：センチメント分析、判別
2. 推測：レコメンデーション、ランキング
3. 最適化：価格決定、損失削減
4. 未来予測：シミュレーション、事前予防
5. 生成：対話、画像生成

3. 機械学習（多変量解析, 教師あり学習, 教師なし学習）
4. 結果の評価（モデル評価, 交差検証）
【第一部】
【第二部】

• Type I error:  
無罪の人を死刑に
• Type II error:  
本当は病気なのに誤診断
4. 結果の評価モデル評価
モデルの正確さを理解する必要がある

Accuracy =

陽性と判定したものがどれだけ真なのか（適合率）：
真のうちどれだけを陽性と判定したのか（再現率）：
両方を合わせた結果指標（F値）：

1万人のデータのうち100人が陽性の時、常に
陰性と判定するモデルがあったとして…
適合率：
再現率：
F値：
0/100=0
0/100=0
0

4. 結果の評価仮説検定
性能がいいモデル

4. 結果の評価交差検証
K-分割交差検証
K-分割交差検証では、標本群を
K個に分割する。そして、その
うちの1つをテスト事例とし、
残る K − 1 個を訓練事例とす
るのが一般的である。交差検証
は、K 個に分割された標本群そ
れぞれをテスト事例として k
回検証を行う。そうやって得ら
れた k 回の結果を平均して1つ
の推定を得る。
学習モデルのもつ判別力がまぐれではないと確認できる

PyData Tokyo Tutorial & Hackathon #1

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (10)

Semelhante a PyData Tokyo Tutorial & Hackathon #1

Semelhante a PyData Tokyo Tutorial & Hackathon #1 (20)

Mais de Akira Shibata

Mais de Akira Shibata (18)

PyData Tokyo Tutorial & Hackathon #1