SlideShare uma empresa Scribd logo
1 de 20
2章
エンドツーエンド の機械学習プロ
ジェクト
SCIKIT-LERANとTENSORFLOWによる実践機械学習
機械学習プロジェクトの主要ステップ
データを観察する
データ
前処理
訓練する
モデル
微調整
機械学習プロジェクトの主要ステップ
全体の構図を掴む
データ
を手に入れる
データを観察
する
データ
前処理
訓練する モデル微調整
ソリューション
を
プレゼン
本番稼働
メンテナンス
モニタリング
1全体の構図を掴む
• データサイエンティストの仕事は
データ分析するだけじゃない!
1全体の構図を掴む
• そのプロジェクトがどうやったら”成功”になるのかを把握し、全体
の構図を掴んでからプロジェクトを始めなければならない
=> End to End
1全体の構図を掴む
~性能指標の選択~
• データ収集、データ分析を始める前に
「どうやったら”成功”になるか」という点から
機械学習プロジェクトの性能指標を決定する。
1全体の構図を掴む
~性能指標の選択(回帰)~
性能指標
決定係数 R^2
平均二乗誤差 RMSE Root Mean Squared Error
平均絶対誤差 MAE Mean Absolute Error
1全体の構図を掴む
~性能指標の選択(回帰)~
• 回帰モデルでは、一般的に平均二乗誤差(RMSE)が望ましいとされている。
RMSE:大きな値を重視
外れ値の影響を受けやすいため、正規分布(ベル型曲線)に近い分
布だと性能が高いものになる
MAE:小さな値を重視
外れ値となる区域が多い場合にその外れ値を無視できるので性
能が高いものになる
IIデータを手に入れる
• どのようなデータがどのような形で欲しいのか
そのフォーマットで得やすい形でデータを集める必要がある
=> データを集められるものを作る、もしくは要求する
III データを観察する
-受け取ったデータ-
受け取ったデータ
データ
タイプ
データ
変換
収集
III データを観察する
• そのデータちゃんと正しい形になってる?
III データを観察する
受け取ったデータ
データ
タイプ
データ
変換
収集
間違った収集方法
データの形
適切でない変換
III データを観察する
間違った収集方法
収集できる上限下限があるetc.
データの形
データによって単位が違うetc.
適切でない変換
データが不適切な範囲でスケーリングされているetc.
=> データがどのように処理されたかを把握しておくとGood
III データを観察する
-データの盗み見-
• 人間は全てのデータを見てはいけない
III データを観察する
-データの盗み見-
人間は恐るべきパターン検知能力を持っているため、
データの全体を見てしまうと
複雑すぎるパターンを当てはめ
それに思考がつられてしまう可能性がある
IV データの前処理
~データクリーニング~
• データに欠損値がある場合の対応
https://www.ibm.com/blogs/solutions/jp-ja/wp-content/uploads/sites/2/2016/03/Im
1欠損値があるデータを削除
2 欠損値が多い属性を削除
3 0,平均,中央値で値を埋める
計算できないカ
テゴリ属性など
IV データの前処理
~ワンホットエンコーディング~
• カテゴリA,B,Cなど数値で表せない属性があった際、
=> ダミー変数がよく使用される。
カテゴリA = 0
カテゴリB = 1 など
カテゴリC =2
IV データの前処理
~ワンホットエンコーディング~
• MLアルゴリズムは、数値で近いか遠いか判断するため、
ダミー変数では、AとBはAとCよりも近いと判断されてし
まう。
 ワンホットエンコーディング
ある要素だけ1で他の要素は0
特徴量が多くなるとカテゴリーEmbeding で次元削減(ベクトル化)
SMLのように順番になってるものなら012で表現してもok
IV データの前処理
~特徴量のスケーリング~
• 入力データの数値が大きくなったりすると、計算が遅く
なったりするため、スケールを変換して
小さくしたりすると良い
1 最小最大スケーリング
2 標準化
IV データの前処理
~特徴量のスケーリング~
• 1 最小最大スケーリング
0(最小)~1(最大)にスケール変換する。
外れ値の影響が大きくなるが、ニューラルネット
ワークと相性がいい
2 標準化
データを正規分布に沿うように変換する
外れ値の影響が少なくなるが、ニューラルネットとは相性が悪い

Mais conteúdo relacionado

Semelhante a Endto end

Tableau Drive、企業に導入する新しい方法
Tableau Drive、企業に導入する新しい方法Tableau Drive、企業に導入する新しい方法
Tableau Drive、企業に導入する新しい方法Tableau Software
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.hirano
 
データサイエンス勉強会_効率の良い勉強方法
データサイエンス勉強会_効率の良い勉強方法データサイエンス勉強会_効率の良い勉強方法
データサイエンス勉強会_効率の良い勉強方法Kikuya Takumi
 
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用Reiko Rikuno
 
ウェブオペレーション
ウェブオペレーションウェブオペレーション
ウェブオペレーションGavin Zhou
 
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たちUnity Technologies Japan K.K.
 
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...Takamasa Maejima
 
博士論文公聴会
博士論文公聴会博士論文公聴会
博士論文公聴会Makoto SAKAI
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre正善 大島
 
とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門陽一 滝川
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】Tomoharu ASAMI
 
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンテスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンyuichi_kuwahara
 
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンテスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンyuichi_kuwahara
 
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日Hironori Washizaki
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜MicroAd, Inc.(Engineer)
 
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北Akiko Kosaka
 

Semelhante a Endto end (20)

Tableau Drive、企業に導入する新しい方法
Tableau Drive、企業に導入する新しい方法Tableau Drive、企業に導入する新しい方法
Tableau Drive、企業に導入する新しい方法
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.
 
I suc発表用v2.8
I suc発表用v2.8I suc発表用v2.8
I suc発表用v2.8
 
Msセミナー20170830 slideshare
Msセミナー20170830 slideshareMsセミナー20170830 slideshare
Msセミナー20170830 slideshare
 
データサイエンス勉強会_効率の良い勉強方法
データサイエンス勉強会_効率の良い勉強方法データサイエンス勉強会_効率の良い勉強方法
データサイエンス勉強会_効率の良い勉強方法
 
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用
Redmineの活用事例‐多様なプロジェクト管理に対するツールの適用
 
ウェブオペレーション
ウェブオペレーションウェブオペレーション
ウェブオペレーション
 
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち
【Unity道場 京都スペシャル4】 知って得する、 テンションが上がりそうな 新機能たち
 
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...
そのエラーやお困りごと、ツールを使えば解決できるかも! ~ Sysinternals や OS 標準ツールの徹底活用術 ~ (Microsoft de:c...
 
博士論文公聴会
博士論文公聴会博士論文公聴会
博士論文公聴会
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre
 
とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
DL-D_ver1.pdf
DL-D_ver1.pdfDL-D_ver1.pdf
DL-D_ver1.pdf
 
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】
分析/イベント駆動 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第17回】
 
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンテスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
 
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオンテスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
 
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
 
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北
AgileJapan2010 官公庁でも取り組み始めたアジャイル! NECソフトウェア東北
 

Endto end