Mais conteúdo relacionado
Semelhante a 機械学習の全般について 4 (6)
Mais de Masato Nakai (20)
機械学習の全般について 4
- 2. 2
機械学習との関わり
• データ分析と統計モデル構築15年
• 吟味したデータで構築したモデルは実運用でも精度を維持する
• 現在は自前で構築したモデルよりフリーのモデルの方が高精度
• 統計数理研究所の機械学習ゼミに4年間在籍
• PRMLを読み殆どの統計モデルをスクラッチで構築
判別木 SVM ベイジアンネット DeepLearning(CNN LSTM)
本資料のモデルや図は全てこの当時作成したもの
• 所属ゼミでは最近まではDeepLearningが禁止だった
• AI論文は月に2000本発表される。しかし日本人の
投稿は殆どない
• 日米の投資額の差(1000倍)
• 単一民族の日本人は多様性を捉える統計が馴染まない
- 4. 4
機械学習モデル構築の工程
• 機械学習ツールを使う前処理が大部分を占る
• 機械学習のツールを使うのは全体の5%のみ
• 実用上は運用データでの精度が大事
課題 工数 課題例(企業審査モデル) 区分 負荷
分析方針 5 審査モデル可能性の調査 計画 5.0%
データ所在調査 5 与信先のデータの調査
データ取得 10 与信先のデータの集積
データの解釈 10 データの整合性の検討
データの統合 10 有意なデータの選択と統合
データ分割 10 与信先のタイプで区分
データ加工 20 信用を説明する有意なデータの加工
モデル化 5 モデルを適用 モデル適用 5.0%
モデル精度検証 10 過学習、劣学習を検証 モデル検証 10.0%
モデル実装 5 審査モデルを実装
モニタリング 10 運用データでの精度をモニタリング
データ加工
後処理
65.0%
15.0%
- 5. 5
学習モデルの大分類
K-means LDA EM 隠れた判別変数を見出し、収束状態で判断非教師モデル
大分類 説明
頻度統計モデル モデルを決めるパラメータを一度で最適化する 教師データ有
モデル
ベイズ統計モデル
教師付モデル 教師データが判断別基準
データの背後に隠れた変数を逐次最適化する 教師データ無
判別ツリー SVA
教師
半教師モデル 一部の教師データで全データを推定する
識別
生成
VAE
統計
グラフィカルモデル データをグラフ化して分析する ベイジアンネット SEM
自然言語処理 文章データを分類、意味解析する 機械翻訳 word2vec
非統計モデル データは独立していると仮定 ニューロ 計画法
時系列モデル 時系列のデータから将来予測 ARMA カルマンフィルター
非
数値
1
2
3
4
5
6
7
8
9
10 DeepLearning 画像 音声 言語の識別 CNN LSTM
11 強化学習 報酬(得点 勝敗)の最大化を目指し意思決定 ロボテックス アルファ碁
- 17. 17
9 word2vec
• 大量の文書をよんで文字をvectorで表現にする
– vectorなので加減算で推論・推薦ができる
• 連想
vec(日本) - vec(東京) + vec(パリ) → vec(フランス)
• 推奨 映画のBackoFutureにviolenceを強くした映画は?
vec(バックツウザフューチャ) + 2×vec(暴力) → vec(ターミネータ)
+ =2×violence