Mais conteúdo relacionado
Semelhante a PyData Tokyo Tutorial & Hackathon #1 (20)
Mais de Akira Shibata (18)
PyData Tokyo Tutorial & Hackathon #1
- 3. シバタアキラ, PhD. @punkphysicist
いま:CEO @白ヤギコーポレーション
カメリオ: あなたに必要な情報しか来ないアプリ
カメクト: コンテンツレコメンドエンジン
2010 - 2013: 経営コンサルティング @BCG
2004 - 2010: データサイエンティスト @NYU
統計的データ分析でヒッグス狩り @LHC, CERN
Pythonとは10年間の付き合い
- 21. 1. データハンドリング(I/O, 前処理・整形, 正規化)
2. 初期分析と仮説構築(集計, 可視化, 仮説構築)
3. 機械学習(多変量解析, 教師あり学習, 教師なし学習)
4. 結果の評価(Precision/Recall, 交差検証)
データサイエンティストのいろは
【第一部】
【第二部】
- 23. 1. データハンドリング(I/O, 前処理・整形, 正規化)
2. 初期分析と仮説構築(集計, 可視化, 仮説構築)
3. 機械学習(多変量解析, 教師あり学習, 教師なし学習)
4. 結果の評価(Precision/Recall, 交差検証)
データサイエンティストのいろは
【第一部】
【第二部】
- 24. 1. データハンドリング データの種類
テーブル型 テキスト型 バイナリ型
構造がしっかりしていて分
析しやすいが、シンプルな
構造に限られる
より複雑な構造をサポート
テキストなので汎用性高い
が読み込みが少し煩雑
いかなる構造もサポートす
るが、汎用性が低い。
囲い込みビジネスができる
今回は最も一般的なテーブル型データを扱う
- 25. 1. データハンドリング データの読み込み方法
インメモリ ストリーム 分散処理
高速な処理ができるが、
メモリのサイズによって
データ量が制限される
継続的人流れてくる
データをリアルタイムに
集計していく
超大量のデータを分散し、
データのあるところで
処理を行う
Pythonを使った分析は基本的にインメモリ
- 33. 1. データハンドリング(I/O, 前処理・整形, 正規化)
2. 初期分析と仮説構築(集計, 可視化, 仮説構築)
3. 機械学習(多変量解析, 教師あり学習, 教師なし学習)
4. 結果の評価(Precision/Recall, 交差検証)
データサイエンティストのいろは
【第一部】
【第二部】
- 43. 1. データハンドリング(I/O, 前処理・整形, 正規化)
2. 初期分析と仮説構築(集計, 可視化, 仮説構築)
3. 機械学習(多変量解析, 教師あり学習)
4. 結果の評価(Precision/Recall, 交差検証)
データサイエンティストのいろは
【第一部】
【第二部】
- 45. 3. 機械学習 多変量解析
• 人力:判別力のそうな特徴量だけを少数選ぶ
• 多変量解析:複数の特徴量を組み合わせる
• 機械学習:複数特徴量から最適パターンを見つける
どんどん複雑になっていく
- 49. 3. 機械学習 教師あり学習
回帰型 木型 ニューラルネット型
線形回帰
Support Vector Machine
等
Decision Tree
Random Forest
等
Neural Network
深層学習
等
他にも遺伝的アルゴリズムなどの手法も
- 50. 3. 機械学習 教師あり学習
Support Vector Machine:
Linear Regression:
シンプルで、早い分類手法
結果が確率値として解釈できる
割といい結果が出るが、ベストではない
最も分割距離が大きくなる
平面を定義できる様、空間を
重み付けする
- 51. 3. 機械学習 教師あり学習
Random Forest:
Decision Tree:
特徴量に対する条件の組み合わせ
で、正答率を最高にする
単純で理解しやすい
ランダムに特徴量とデータをサンプリング
し、生まれた決定木を組み合わせ、最も
正答率の高い組み合わせを見つける
(多数の特徴量に対応し、欠損値の取り扱いも柔軟)
- 56. 1. データハンドリング(I/O, 前処理・整形, 正規化)
2. 初期分析と仮説構築(集計, 可視化, 仮説構築)
3. 機械学習(多変量解析, 教師あり学習, 教師なし学習)
4. 結果の評価(モデル評価, 交差検証)
データサイエンティストのいろは
【第一部】
【第二部】
- 57. • Type I error:
無罪の人を死刑に
• Type II error:
本当は病気なのに誤診断
4. 結果の評価 モデル評価
モデルの正確さを理解する必要がある