SlideShare uma empresa Scribd logo
1 de 84
Copyright iAnalysis LLC All rights reserved
アイアナリシス合同会社
最高経営責任者(CEO) 倉橋一成
1
 1983年 広島生まれ
 2011年 東京大学医学系研究科で保健学博士取得
◦ 東大病院情報システム部助教(1年半勤務)
 海外論文約40本
◦ iAnysis(アイアナリシス)合同会社設立
 ホンダ、リクルート、ベネッセ、IHIなど23業種・44社(うち36%が東証一部上場企業)へコンサル
ティング
 『データサイエンス養成読本』『超分析の教科書』『ビジネス統計の教科書』著
 2014年 NTTドコモに重点的にコンサルティング
◦ LTV開発やカスタマージャーニー分析など
 2018年 油絵を始め、個展や展覧会など
 2020年 日本を良くしたい、データを大企業の経営に活かすことで貢献
◦ クレディセゾンデータ駆動
Copyright iAnalysis LLC All rights reserved
2011年サービス開始から2014年の3年の間、
株式会社NTTドコモ
株式会社ベネッセコーポレーション
株式会社リクルートキャリア
株式会社インターネットイニシアティブジャパン
日本経済団体連合会
エーザイ株式会社
大鵬薬品工業株式会社
旭化成ファーマ株式会社
株式会社gumi
株式会社日経BP
株式会社ミクシィ
東京大学医学部付属病院
など23業種、44社へサービス提供
(うち東証1部上場企業:36%)
3
ほかには
大手自動車会社
大手携帯キャリア
大手製造会社
大手航空宇宙製造会社
Web広告ベンチャー
情報セキュリティベンチャーなど
Copyright iAnalysis LLC All rights reserved
関係者外秘
4
データモニタリング
KPI厳選
マーケティング調査
顧客分析
テキストマイニング
仮説検証
広告効果測定
施策効果検証試験
反応スコアリング
ライフタイム分析
需要予測
故障予測
個別最適化(機械学習)
レコメンデーション
ホームページ:ianalysis.jp
問い合わせ先:contact@ianalysis.jp
お電話:03-6868-3490
アナリティクスとは何か
Copyright iAnalysis LLC All rights reserved 6
Copyright iAnalysis LLC All rights reserved 7
Copyright iAnalysis LLC All rights reserved
 ネットフリックス
◦ 1997〜、DVDのオンラインレンタルビジネス
 全国展開していた「ブロックバスター」を破綻に追いや
るほど成長
8
Copyright iAnalysis LLC All rights reserved
 顧客の好みを分析して映画をレコメンド(推奨)する
◦ アマゾンのレコメンドが有名
9
 たまにしか借りない、利益率の高い顧客に優先してDVDを届けたいが、頻繁に
借りる会員が「不公平だ」と感じてしまう(→訴訟も)
 「利益の最適化」と「公平な配送」のバランスを計算するアルゴリズムを開発
 新しい映画の頒布権を購入するとき、過去に借りられた「似ているジャンルの映
画」と同じくらいレンタルされるだろう
 新しいサービスを作るとき、それが本当に効果があるかどうか、A/Bテストによって
常にチェックする
10
アナリティクスによってできる事
Copyright iAnalysis LLC All rights reserved
①現状を”知る”
②データから”意思決定”する
③将来を”予測”する
④全体から”個別化”する
11
Copyright iAnalysis LLC All rights reserved 12
経営企画部
商品開発部
営業部
人事部
財務部
法務部
経営状況のKPI分析
企業業績管理(CPM)
顧客分析(CRM)
会員離脱分析
広告効果分析
マーケット分析
ブランド分析
プライシング分析
人事配置の最適化
離職率の要因分析
M&A分析
投資分析
経費分析
特許分析
仮説検証
モデリング
仮説発見 予測モデル
最適化
異常検知
データ可視化
Copyright iAnalysis LLC All rights reserved 13
0
10
20
30
40
50
60
70
80
90
2005 2007 2009 2011 2013 2015 2017 2019 2021
データ量
単位(ゼタバイト)
※バイトの単位
キロバイト
メガバイト
ギガバイト
テラバイト
ペタバイト
エクサバイト
ゼタバイト
ヨタバイト
現在
10年間で44倍?
米国では2018年までに、高度なアナリティクス・スキル
を持つ人材(データサイエンティスト)が14〜19万人不
足し、大規模なデータセットのアナリティクスを活用し意
思決定のできるマネージャーやアナリストが150万人不足
する(by マッキンゼー)
Copyright iAnalysis LLC All rights reserved
「分析力のある企業」の成功事例
 GOOGLE:リスティング広告
 Amazon:商品のレコメンデーション
 PayPal:不正検知
 キャピタルワン:クレジットカードのパーソナライズ
 ネットフリックス:ビデオのレコメンデーション
一般事例
 ダイレクトマーケティングの効果アップ
 ユーザーの離反防止
 株式投資自動化
iAnalysis事例
 経営企画の仮説検証、論文研究のための仮説検証
 Web訪問者の属性予測、広告効果の高いユーザーセグメントの発見
 婚活サイトのユーザー分析
 化粧品会社の顧客分析
 新しいレコメンデーションシステム企画立案のための調査データ分析
 情報の不正流出検知アルゴリズムの開発
14
Copyright iAnalysis LLC All rights reserved 15
課題
鋼管製造の再開を検討。
しかし意思決定のためのコスト分析の信頼性が低いと感じていた。
2005年に価格競争のためシームレス鋼管製造を打ち切ったが、原油価
格が高騰したために原油採掘会社からの需要が高まった。
背景
分析
プロフィット・インサイトという分析ソフトを導入し、工場を再稼働
させるべきかどうか分析結果をみながら毎月検討。
12月に損益分岐点を超え、さらに予測モデルによってその後も価格上
昇が見込まれる状況になって初めて、製造の再開を行った。
成果
早期に生産再開した場合の損失4300万ドルを回避
Copyright iAnalysis LLC All rights reserved 16
1990年代、「情報ベース戦略」を打ち立てる。
「まだ顔を見たことない2億の人達について情報を集め、集めた情報を基にし
て、長期的な作戦を練る」
背景
分析
データベースの整備、分析などを精緻に行うことで、 「高額の商品を
あっさりクレジットで買い、長期にわたってゆっくり返済する客」が
最も優良顧客であることが判明。
成果
業界で初めて「リボルビング機能」をカードに搭載し、新商品開発に
つながった。
現在では1日に300回のマーケティング調査。
譲渡性預金の利息、ロールオーバーのための優遇措置、最低必要残高などと、
顧客定着率との間にはっきりとした関係があることが判明。
→定着率の87%アップ、新規顧客開拓コストの83%ダウン
Copyright iAnalysis LLC All rights reserved 17
Web訪問履歴
性別を推定
検索履歴
データ分析 データ加工
重回帰
ロジスティクス回帰
重み最適化
ランダムフォレスト
クラスタリング
距離計算
コサイン類似度
相関係数
n-グラム
AUC比較
GBM
ナイーブベイズ
SVM
決定木
統計解析
エラー値除去
データ集約
変数作成
割合化
標準化
ヒストグラム
散布図
箱ひげ図
集計表
データサイエンス
インプット アウトプット
正解率
約60%
正解率
約95%
アーキテクチャ
ターゲティング
広告へ
活用
プロジェクトメンバー:データサイエンティスト、エンジニア(弊社)
マネージャー、DBエンジニア
プロジェクト期間:3ヶ月(他の分析も並行)
プロジェクト予算
約1,500万円
Copyright iAnalysis LLC All rights reserved 18
データ分析 データ加工
指標の開発
相関分析
重回帰
統計解析
変数削除
指標の計算
外れ値除去
データ集約
ヒストグラム
散布図
箱ひげ図
集計表
シューハート
管理図
インフォグラフ
アナリティクス
インプット アウトプット
アーキテクチャ
全国へ周知し
売上増加へ
活用
プロジェクトメンバー:データサイエンティスト×2(弊社)
企画部課長、技術者
プロジェクト期間:3ヶ月
日本全国の
ディーラー
売上データ
売上と関連
のある経営指標
1ポイント上がると
年間120億円
の売上増加
プロジェクト予算
約2,500万円
Copyright iAnalysis LLC All rights reserved
データ活用の目的が明確ですか?
目的に合った分析ツールやシステム
を適切に選べていますか?
これまでデータ分析を活用してきた
社員が何人いますか?
これまでの勘や経験だけで
経営判断しませんか?
19
①目的
③人材
②環境
④文化
効果的な分析PJの進め方
データ活用の目的が明確ですか?
①目的
Copyright iAnalysis LLC All rights reserved 21
業務経験
ビジネス感 企画
目的設定
仮説作り
可視化等による
データ理解
優先度決定
高優先度のも
のから分析
ソリューション化
分析設計
データ設計
データ用意
手法適用
モデル開発
解釈
スタート ゴール
売上アップ
コスト削減
意思決定
新商品開発
効果検証設計 A/Bテスト
主に分析力が必要とされるパート
Copyright iAnalysis LLC All rights reserved 22
ビジネス
インテリジェンス
(BI)
ビジネス
アナリティクス
(BA)
Copyright iAnalysis LLC All rights reserved 23
 DBの加工
ERP
CRM
ETLツール
バッチ処理
・抽出
・変換
・ロード
DWH
データマート
・集約
・絞り込み
販売
生産
在庫
Copyright iAnalysis LLC All rights reserved
※分析の中でデータクレンジングに費やす時間の割合は70〜90%※
全国の健診データを分析するプロジェクト
 概要
◦ 目的:特定健診データを収集しクレアチニン測定の意義を分析する
◦ 全国数十の市町村からデータ収集
◦ 約60万人
◦ 5年間は追跡目標
 データクレンジングが最大のネック
◦ 国保によってcsvファイルの仕様が微妙に違う
 尿蛋白などが1~6になっていたり-, +-, …, +++になっていたり
◦ 入力ミス、エラー値がある
課題
 巨大データをどうやってクレンジングするか?
◦ データを全て可視化することができない
◦ ロジックを組んだからといってコンピュータに任せっきりは危険
◦ 「データが分かる人」が逐次モニターする必要がある
24
Copyright iAnalysis LLC All rights reserved
25
散布図
ヒストグラム
棒グラフ
箱ひげ図
単変量
二変量
Copyright iAnalysis LLC All rights reserved 26
http://d.hatena.ne.jp/isseing333/20111223/1324649420
Copyright iAnalysis LLC All rights reserved
 データに様々な「モデル」を当てはめて、情報を探索す
る
27
Copyright iAnalysis LLC All rights reserved 28
1000人 1000人
コンバージョン、直帰率、サイト滞在率、リピート率などを比較
インフラの整備、目的に合った
ツール・システム導入
目的に合った分析ツールやシステムを
適切に選べていますか?
②環境
Copyright iAnalysis LLC All rights reserved 30
インフラ・DB ソリューション
ソフトウェア
ETL・DWH
PENTAHO
Neteeza
Greenplum
SAS
Lavastorm
ORACLE
Hadoop
MySQL
PostogreSQL
Amazon RedShift
SPSS
JMP
Mathmatica
Statistica
Stata
エクセル
R Salesforce
GoogleAnalytics
GoogleAdwords
CRMサービス
ERPサービス
Copyright iAnalysis LLC All rights reserved
 様々なところに記録されているデータを統合する
◦ 社内の部署連携
◦ データベースエンジニア、インフラエンジニア
 大規模データを扱う必要
◦ 数100GB〜数10TB
◦ Facebookは1日に約100TBのデータが発生
◦ Googleは約200億(?)のサイトから検索を行っている(約
400TB?)
◦ Amazonは数千万アイテムの中からリコメンド(推奨)している
 「分散処理」によって高速に処理を行う
◦ Hadoop(ハドゥープ)
 Googleの基盤技術であるMapReduceをJavaでオープンソース実装し
た分散処理のフレームワーク
31
Copyright iAnalysis LLC All rights reserved 32
Copyright iAnalysis LLC All rights reserved 33
Copyright iAnalysis LLC All rights reserved 34
Copyright iAnalysis LLC All rights reserved
関係者外秘
35
サ
ー
ビ
ス
の
ア
ナ
リ
テ
ィ
ク
ス
機
能
利用者のアナリティクス・ITレベル
中級者
上級者
初級
中級
プロ
初心者
上級
現場でアナリティクスを活用
少数のプロがテンプレートを作成
人材確保、人材育成
これまでデータ分析を活用してきた社員が
何人いますか?
③人材
Copyright iAnalysis LLC All rights reserved
 事業会社系
◦ Google:広告効果を分析
◦ Amazon:レコメンドエンジンの効果を分析
◦ DeNA:マーケティング分析
◦ リクルート:多種サービスの分析
 コンサルティング系
◦ 富士通、NEC、日立:様々な企業のデータ分析
◦ アクセンチュア、野村総研:様々な企業へコンサルティング
◦ iAnalysis:様々な企業へコンサルティング
37
統計学を駆使してデータ分析することで
ビジネスインパクトのある結果を産み出す人
① ②
③
Copyright iAnalysis LLC All rights reserved 38
統計学
DBエンジニア
プログラマー
数学者
統計家
経営者
コンサルタント
マーケター
データサイエンティスト
機械学習 リサーチ
データ
サイエンス
①
②
③
Copyright iAnalysis LLC All rights reserved 39
エ
ン
ジ
ニ
ア
デ
ー
タ
エ
ン
ジ
ニ
ア
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
ビ
ジ
ネ
ス
(
マ
ー
ケ
タ
ー
等
)
ア
ナ
リ
ス
ト
エ
ン
ジ
ニ
ア
リ
ン
グ
+
統
計
学
+
業
務
知
識
+
+
情
報
系
の
部
署
ビ
ジ
ネ
ス
系
の
部
署
統計家
分
析
系
ス
キ
ル
分
析
力
(
コ
ン
サ
ル
力
)
Copyright iAnalysis LLC All rights reserved
1. Analytics:理論の学習
2. Engineer:エンジニアスキルの取得
3. Business:実戦
4. 情報収集
40
Analytics
理論の学習
Copyright iAnalysis LLC All rights reserved
 統計学:「経験的に得られたデータを分析し法則性を見出す学問」
 政治・ギャンブルなどのニーズから生まれた
42
webアクセス・広告
サンプリング調査
Copyright iAnalysis LLC All rights reserved 43
Copyright iAnalysis LLC All rights reserved
 例)ワイン品質の予測モデル
◦ ワインの質 =12.145+0.00117×前年の冬の降雨量
+ 0.0614×夏の育成期平均気温
+ 0.00386×収穫期降雨量
 ブドウの育成期の気象条件が原因でワインの品質が変わる
 夏が暑くて乾燥していると、ワインの出来がよい
 春に雨が多いと、質を落とすことなく収穫量が増える
◦ 予想価格と実際の価格との相関係数は、0.90を上回った
44
説明変数:xを使って、結果変数:yを
予測する計算式やアルゴリズム
Copyright iAnalysis LLC All rights reserved 45
説明変数:X
結果変数:y
f(x) f(x):予測モデル
y =
ID1
ID2
ID3
…
y x1 x2 x3 …
Copyright iAnalysis LLC All rights reserved 46
MemberID Vendor Year Specialty PayDelay DSFS
210 122401 Y1 Internal 162+ 3- 4 months
210 523791 Y1 Emergency 57 0- 1 month
210 122401 Y1 Internal 86 6- 7 months
210 142747 Y2 Other 38 3- 4 months
210 240043 Y2 Laboratory 31 0- 1 month
210 240043 Y3 Laboratory 23 2- 3 months
210 142747 Y3 Other 41 3- 4 months
3197 122401 Y1 Pediatrics 162+ 0- 1 month
3197 844976 Y1 Emergency 42 11-12 months
3197 122401 Y2 Internal 27 1- 2 months
3197 122401 Y3 Internal 27 0- 1 month
3197 122401 Y3 Internal 28 1- 2 months
3197 122401 Y3 Pediatrics 23 7- 8 months
Claims (1:n)
MemberID Year DSFS DrugCount
210 Y1 3- 4 months 2
210 Y1 0- 1 month 2
210 Y1 4- 5 months 1
210 Y3 7- 8 months 1
210 Y3 6- 7 months 1
210 Y3 8- 9 months 1
210 Y3 5- 6 months 2
3197 Y1 5- 6 months 2
3197 Y1 1- 2 months 1
3197 Y1 11-12 months 1
3197 Y1 10-11 months 1
3197 Y2 0- 1 month 2
3197 Y2 1- 2 months 1
DrugCount (1:n) MemberID DaysInHospital
210 0
3197 0
DaysInHospital (1:1)
MemberID MaxPayDelay MinPayDelay …
210 162 23 …
3197 42 23 …
aggregate
group by
Claims2 (1:1)
MemberID MaxDrugCount MinDrugCount …
210 2 1 …
3197 2 1 …
DrugCount2 (1:1)
merge
join
Copyright iAnalysis LLC All rights reserved 47
y = a+bx
a: 切片
b: 傾き
誤差
説明変数:x
結果変数:y
48
集団全体
購入しない
年齢≦40
集団1
購入しない
40<年齢
購入する
購入履歴≦25,000円 25,000円<購入履歴
・データをセグメントに切っていって特徴を探る手法
・数ある分析手法の中で最も理解しやすい表現で結果が出る手法のひとつ
年齢
購入履歴
赤:商品購入者、青:商品非購入者
Copyright iAnalysis LLC All rights reserved
49
"強い"木 "弱い"木の集合
Engineering
エンジニアスキルの取得
Copyright iAnalysis LLC All rights reserved 51
C++ d3.js
UNIX 基本は抑えておき、
必要となったらその場で
調べて利用するという
スタンス
データベース系 スクリプト、分析系
可視化、レポーティング系
Copyright iAnalysis LLC All rights reserved
 randomForest:超強力な汎用予測モデル
 RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの
接続
 plyr:データ集約
 reshape2:データ加工
 forecast:時系列予測
 (stringr:文字列操作)
 (lubridate:日付操作)
 (sqldf:SQLライクなデータ操作)
 (ggplot2:綺麗なプロットを描く)
 qcc:品質管理
 party:決定木が綺麗に描ける
 gbm:randomForestより汎用性の高い超強力な予測モデル
 survival:生存分析
 caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算で
きる
 XLConnect:エクセルのデータを読み込める、Rオブジェクトをエクセルに保存
できる
52
Business
実戦
Copyright iAnalysis LLC All rights reserved
 データサイエンスハッカソン@ロンドン
◦ 2012年7月21日
 医療データによる入院日数予測
◦ 1位には2.4億円(2013年4月3日締め切り)
 信用スコアの改善
 レコメンデーションシステム
 サッカーワールドカップ優勝国の予測
 高速道路の渋滞予測
 …
 現在48イベント
◦ http://www.kaggle.com/competitions
54
Copyright iAnalysis LLC All rights reserved 55
1,625チーム中
情報収集
Copyright iAnalysis LLC All rights reserved 57
Analytics+Business
(入門〜中級)
Engineering
(入門)
Copyright iAnalysis LLC All rights reserved
 統計学
◦ 統計学入門
◦ 自然科学の統計学
◦ 多変量解析入門
◦ Elemental of Statistical Learning(修士以上レベル)
◦ Data Mining for Decision Making
 エンジニアリング
◦ Rによるやさしい統計学
◦ 統計学:Rを用いた入門書
◦ Rによるデータサイエンス
◦ データサイエンティスト養成読本
 ビジネス、事例
◦ 分析力を武器とする企業
◦ 分析力を駆使する企業
58
企業内の分析文化
これまでの勘や経験だけで
経営判断しませんか?
④文化
Copyright iAnalysis LLC All rights reserved
 勘や経験や度胸 vs データ
 製品やサービスの価格を決めるとき、過去に類似の商品
が類似の状況でいくらなら売れたのかというデータを無
視して勘で決めたら?
 人材を採用するとき、そのポストではどんなスキルや適
性が高業績につながるか、過去のデータを分析せずに採
用担当者の直感で決めたら?
 在庫水準をデータに基づく最適水準に維持せず、「この
くらいがちょうどいい」という漠然とした経験で決めた
ら?
60
Copyright iAnalysis LLC All rights reserved 61
1
• 分析力に劣る企業
2
• 分析力の活用が限定的な企業
3
• 分析力の組織的な強化に取り組む企業
4
• 分析力はあるが決定打に至らない企業
5
• 分析力を武器とする企業
Copyright iAnalysis LLC All rights reserved 62
ステージ 組織戦略 人 インフラ
目標 現状 スキル
経営陣のコミッ
トメント
企業文化
1. 分析力に
劣る企業
顧客・市場・競
合について知る。
分析はほとん
ど行われてい
ない。
なし なし
データアレル
ギー。直感に頼
る。
データがない。
精度が低い。定
義が曖昧。シス
テムがばらばら。
2. 分析力の
活用が限
定的な企
業
データ分析の経
験を自主的に蓄
積し、トップの
関心を引く。
ごく狭い範囲
でしかデータ
収集・分析が
行われていな
い。
一部の部門にア
ナリストがいる
が孤立している。
特定事業や戦術
的な対応に限ら
れている。
客観的なデータ
が必要と感じて
いる。一部の部
門では関心が高
まっている。
各事業ばらばら
にデータを収集
している。重要
なデータが欠落
している。シス
テムが統合され
ていない。
3. 分析力の
組織的な
強化に取
り組む企
業
組織横断型で
データ収集・分
析を行う。全社
共通の業績評価
指標を設定する。
データ分析で事
業機会を探す。
分析プロセス
は各部門不統
一である。
多くの部門にア
ナリストがいる
が、ネットワー
ク化されていな
い。
分析力を競争優
位にすることに
一部の幹部が興
味をもち始めた。
経営陣は事実を
重んじる姿勢を
打ち出している
が、抵抗に遭っ
ている。
システムやソフ
トウェアは整い、
データウェアハ
ウスも拡張中。
Copyright iAnalysis LLC All rights reserved 63
ステージ 組織戦略 人 インフラ
目標 現状 スキル
経営陣のコミッ
トメント
企業文化
4. 分析力は
あるが決
定打に至
らない企
業
組織横断型の分
析プラット
フォームを構築
し、組織として
分析力を身につ
ける。
データ分析が
ある程度まで
業務プロセス
に組み込まれ
ている。
スキル開発は行
われているが、
まだ水準に達し
ていない、また
は適材適所では
ない。
経営陣のサポー
トが得られてい
る。
事実に基づく意
思決定の浸透を
図っている。
データの精度は
高く、全社的な
分析戦略もある。
分析環境は整っ
ている。
5. 分析力を
武器とす
る企業
データ分析から
多くの隠されて
いた事実を導き
出す。継続的に
データやシステ
ムの改善を図る。
データ分析が
定着し、高度
に統合化され
ている。
高度なスキルを
備え、意欲のあ
る専門家がそ
ろっている。周
辺業務はアウト
ソースされてい
る。
CEOを筆頭に経
営陣が積極的に
取り組んでいる。
事実に基づいて
意思決定を下す。
実験し学習する
姿勢が浸透して
いる。
組織横断型のシ
ステムが整備・
運用されている。
Copyright iAnalysis LLC All rights reserved 64
経営チーム
分析
グループ
部門A 部門B
集中管理モデル
経営チーム
分析
グループ
部門A 部門B
機能モデル
分散配置モデル(非推奨)
経営チーム
分析
グループ
部門A 部門B
分析
グループ
Copyright iAnalysis LLC All rights reserved
 時間がないとき
◦ 瞬時に決定する必要がある
 前例がないとき
◦ 小規模なA/Bテスト
 過去の事例が当てにならないとき
◦ 株価
◦ 地震
 意思決定者がきわめて経験豊富なとき
◦ データ収集と分析プロセスを頭の中で行なってしまう
 変数が計測できないとき
65
Copyright iAnalysis LLC All rights reserved
ブランド
営業力
既存顧
客
販売網
分析力
商品開
発
66
プロジェクト事例①
Copyright iAnalysis LLC All rights reserved 68
目的
・企業の健康保険組合からの依頼
「レセプトと健康診断データが
社内にあるが活用できていない。
データを活用して社員の健康管理
に役立てれないか」
メンバー
・医療系コンサルタント:仮説作り
・マネージャー:PJマネージメント
・分析者:分析設計、データ加工、分析
PJ期間:約3M
レセプトデータ 特定健診データ
結果
・高リスク者を把握し直接コンタクト
をとることで健康管理につなげる
目的設定・データ受け取り
データクレンジング
結果出し、コンサル
Copyright iAnalysis LLC All rights reserved
 保険証記号、番号、生年月日、性別、本人家族(、名前)を
ID
 特定健診とレセプトを突合
 IDの問題
◦ 同一人物が別のID
 引っ越し
 入力ミス
◦ 別人が同じID
 保険証番号の使い回し(稀?)
 入力ミス
◦ 問題が起こるのは1%程度?
 統計学として集団で考えると誤差とみなせる?
 健保、国保は両方のデータを持っている
 国が全国のデータで「レセプト等データベース」を作った
◦ 研究者が随時利用可能
 課題も多い
 どのようにデータが加工されているのか?
69
Copyright iAnalysis LLC All rights reserved
 特定健診(メタボ健診、40〜75歳対象)
◦ http://www.ssk.or.jp/goannai/jigyonaiyo/tokuteikenshin/tok
uteijoho/tokuteijoho_01.html
 国への提出はXML
 健保、国保にはcsvも
◦ もしくは加工するツールを持っている
70
Copyright iAnalysis LLC All rights reserved 71
PECULIAR(旧)
RECODE(新)
MED 国保
PHA 社保
DPC
DEN
NUR
10日分
20日分
社会保険診療報酬支払基金
http://www.ssk.or.jp/rezept/index.html
Copyright iAnalysis LLC All rights reserved
 傷病名マスター
 修飾語マスター
 歯式マスター
 医薬品マスター
 特定器材マスター
 コメントマスター
 医科診療行為マスター
 歯科診療行為マスター
 調剤行為マスター
 マスター仕様書
◦ http://www.ssk.or.jp/tensuhyo/kihonmasta/files/master01.
pdf
72
Copyright iAnalysis LLC All rights reserved
 http://www.ssk.or.jp/rezept/hokenja/download/ind
ex.html
◦ 11_RECODEINFO_MED.CSV(↓1枚分の病院レセプト)
73
2 1 0MN 9.1E+08東京都港区新橋 1.31E+16
1 2 0IR 1 13 1 9999913
サンプル医科ク
リニック1
1 3 0RE 23 1118 42204サンプル 79 1 3120628
1 4 0HO 6132013 1234567 79 1 1619
1 5 0SY 2500013 4140619 1 1
1 6 0SY 5739014 4140619 1
1 7 0SY 8833421 4150716 1 1
1 8 0SI 12 1 1.12E+08 69 1
1 9 0SI 12 1 1.12E+08 52 1
1 10 0SI 13 1 1.13E+08 225 1
1 11 0SI 21 1 1.2E+08 9 1
1 12 0IY 21 1 6.1E+08 1
1 13 0IY 1 6.2E+08 1
1 14 0IY 1 6.14E+08 0.5 19 35
1 15 0IY 21 1 6.2E+08 2 2 35
1 16 0SI 25 1 1.2E+08 42 1
1 17 0SI 25 1 1.2E+08 65 1
1 18 0SI 27 1 1.2E+08 8 1
1 19 0SI 60 1 1.6E+08 26 1
1 20 0SI 60 1 1.6E+08 50 1
1 21 0SI 60 1 1.6E+08
1 22 0SI 1 1.6E+08
1 23 0SI 1 1.6E+08
1 24 0SI 1 1.6E+08 56 1
1 25 0SI 60 1 1.6E+08 13 1
1 26 0SI 60 1 1.6E+08 144 1
1 27 0SI 60 1 1.6E+08 125 1
2 28 1EX
2 29 0RC Ver00001df061727252faec47486f785da58f351
Copyright iAnalysis LLC All rights reserved
 VC++がインストールされていれば動くものを開発
◦ VC++で行っているのはGUIとスクリプト処理
◦ 実際のデータハンドリングはRで行っている
74
Copyright iAnalysis LLC All rights reserved 75
IDは保険証番号・生年月日等をMD5でハッシュ関数にかけている
→MD5は復元可能?不可能?
IdRece ID year month kubun
ShinsaShiharaiKikan
IryoukikanMeishou IryoukikanCode
Iryoukikan.Juusho …
1 797ba085286916c4a36d43ac194d8c60 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
2 c44df39d17915c59b30e30a83fb8a4be 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
3 699dd0c050e0d6bfb58cc077138e05df 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
4 6801e7911beac8e0dc28c7a95f435070 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
5 aa37ac101383b5c31c9fd46c3fb4f743 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
6 40ef024c5fed758a3df572556a145b2a 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
7 39d298c387e056363514fa9484650aa5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
8 f45d04fcbb0de3925587225a5e345adc 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
9 57280412edea8fa57cd9bcdad7a5aaae 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
10 a5b72f8b877a3670be8326bbd532ed6b 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
11 0f14d95e461487b0aabbe633f70ef2a5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
12 30476e785e1753b277e4b4cd4219ed3e 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
13 78566939f387cdde8ec2d071f15311f6 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
14 b945dcf2047883a75e233f01201c34ea 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
15 742d8a01993425b3ca7a9053d6fd2a23 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
16 b87191dbad31251bf03db289ad6302ee 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
17 ea316881f4ef5c11d6e8f2e63b6113a9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
18 c85526499187c5c13bab939848d321d5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
19 94f9a22620b07d74825e3d110f2eb066 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
20 37246ab2a22e9466c6168b00ffc1e8de 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
21 0cca19256cebb24e8195524c2a7972d8 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
22 2063252a137972f915cc52d7db58cca9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
23 312f24201e123ea81b869bd6d4ced222 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
Copyright iAnalysis LLC All rights reserved
 ReceRjp(非公開)
◦ 現在はMED_RECODEのみ対応
 他の部分もプログラムは作っている
 日本語→英語に修正する必要がある
◦ マスタは適宜入れ替え必要
 マスタの仕様が変わると実行不可、要プログラム修正
76
Copyright iAnalysis LLC All rights reserved
2011/1/17
日本経済新聞
健保だより(2010/10)
プロジェクト事例②
Copyright iAnalysis LLC All rights reserved
 KAGGLEという「予測モデル」のコンテスト
 入院日数の予測→賞金300万ドル(約2億5千万円)
 3年分の過去データを使って4年目の将来入院日数を予測
する
◦ 保険加入者のリスク管理をして保険料の資金管理に繋げる目的
 1,300超のチーム
配布データ
 患者IDに様々な情報が紐付いている
◦ Claims (1:n) ⇒診療情報のデータ
◦ DaysInHospital_Y2 (1:1) ⇒入院日数のデータ
◦ DaysInHospital_Y3 (1:1)
◦ DrugCount (1:n) ⇒処方回数のデータ
◦ LabCount (1:n)
◦ Members (1:1)
◦ Target (1:1) ⇒予測ターゲット
79
Copyright iAnalysis LLC All rights reserved 80
Copyright iAnalysis LLC All rights reserved 81
Copyright iAnalysis LLC All rights reserved
 投稿方法:Target.csvに予測結果を記入してweb上で投稿
◦ 4年目の正解値と比較する
◦ 予測精度の評価方法
 順位:その場でLearderbordに表示される
 rules, dos and don'ts, Forumでルール等を確認
 外部データの利用可否についてはForumで議論されている
 milestone1〜3で賞金を取ったチームはモデルをレポートで公
開
◦ http://www.heritagehealthprize.com/c/hhp/Leaderboard/miles
tone1
82
Copyright iAnalysis LLC All rights reserved
 データマート作成
◦ 特徴ベクトルの作成⇒かなり時間がかかる
 モデル学習(学習データ)
◦ 各種モデル
 GLM
 SVM
 NN
 RF (Bagging)
 GBM (Boosting)
 Deep Learning ※Hot!!
◦ モデルのアンサンブル
 モデル評価(検証データ)
◦ クロスバリデーション
 モデル適用
 主にR、Python等で実行
83
Copyright iAnalysis LLC All rights reserved 84
Year1
X
Year2
Year3
2
y
3
4
Year1
X
Year2
2
y
3
X y
Year2 Year3
3 4
1-year
modeling
target
2-year
modeling
target

Mais conteúdo relacionado

Mais procurados

米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向
Takatsugu Kobayashi
 

Mais procurados (20)

米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向
 
データエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったことデータエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったこと
 
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
 
生産プロセスでのデータ分析と Low-Code ツールでのハンズオン
生産プロセスでのデータ分析と Low-Code ツールでのハンズオン生産プロセスでのデータ分析と Low-Code ツールでのハンズオン
生産プロセスでのデータ分析と Low-Code ツールでのハンズオン
 
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
 
「デジタルマーケティングプラットホーム」 に進化するGoogle アナリティクス
「デジタルマーケティングプラットホーム」 に進化するGoogle アナリティクス「デジタルマーケティングプラットホーム」 に進化するGoogle アナリティクス
「デジタルマーケティングプラットホーム」 に進化するGoogle アナリティクス
 
品質管理 Low code ハンズオン
品質管理 Low code ハンズオン品質管理 Low code ハンズオン
品質管理 Low code ハンズオン
 
クラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキングクラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキング
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
Qlik TechFest B-9 データリテラシーの基礎
Qlik TechFest B-9 データリテラシーの基礎 Qlik TechFest B-9 データリテラシーの基礎
Qlik TechFest B-9 データリテラシーの基礎
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
楽天のデータサイエンス/AIによるビッグデータ活用
楽天のデータサイエンス/AIによるビッグデータ活用楽天のデータサイエンス/AIによるビッグデータ活用
楽天のデータサイエンス/AIによるビッグデータ活用
 
デブサミ2020 事業グロースを加速させる「分析基盤」の作り方 japantaxi
デブサミ2020 事業グロースを加速させる「分析基盤」の作り方 japantaxiデブサミ2020 事業グロースを加速させる「分析基盤」の作り方 japantaxi
デブサミ2020 事業グロースを加速させる「分析基盤」の作り方 japantaxi
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
 
サイエンス視点からのデータアーキテクト
サイエンス視点からのデータアーキテクトサイエンス視点からのデータアーキテクト
サイエンス視点からのデータアーキテクト
 
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてJapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!
 

Semelhante a ビジネスに役立つデータ分析

【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
 

Semelhante a ビジネスに役立つデータ分析 (20)

データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
 
「進化した検索エンジンElasticsearchの採用方法」お教えします
「進化した検索エンジンElasticsearchの採用方法」お教えします「進化した検索エンジンElasticsearchの採用方法」お教えします
「進化した検索エンジンElasticsearchの採用方法」お教えします
 
Eguan - Analysys Japan
Eguan - Analysys Japan Eguan - Analysys Japan
Eguan - Analysys Japan
 
SLASH-7ご説明資料
SLASH-7ご説明資料SLASH-7ご説明資料
SLASH-7ご説明資料
 
研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
海外事例にみるヘルスデータ利活用と ITリスク管理
海外事例にみるヘルスデータ利活用とITリスク管理海外事例にみるヘルスデータ利活用とITリスク管理
海外事例にみるヘルスデータ利活用と ITリスク管理
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
医療・介護運営の今後のあり方ついて
医療・介護運営の今後のあり方ついて医療・介護運営の今後のあり方ついて
医療・介護運営の今後のあり方ついて
 
Presen110802
Presen110802Presen110802
Presen110802
 
データマネジメント2014
データマネジメント2014データマネジメント2014
データマネジメント2014
 
DGSメディカル リクルーティング資料
DGSメディカル リクルーティング資料DGSメディカル リクルーティング資料
DGSメディカル リクルーティング資料
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
JPC2018[I2]電子カルテシステム Opt.one × Microsoft Azure で実現する歯科業界初の AI 型治療計画支援システム
JPC2018[I2]電子カルテシステム Opt.one × Microsoft Azure で実現する歯科業界初の AI 型治療計画支援システムJPC2018[I2]電子カルテシステム Opt.one × Microsoft Azure で実現する歯科業界初の AI 型治療計画支援システム
JPC2018[I2]電子カルテシステム Opt.one × Microsoft Azure で実現する歯科業界初の AI 型治療計画支援システム
 
TechTarget新サービス
TechTarget新サービスTechTarget新サービス
TechTarget新サービス
 
~2020 and beyond~ スポーツ×IoTの取り組みご紹介_IoTビジネス共創ラボ 第9回 勉強会
~2020 and beyond~ スポーツ×IoTの取り組みご紹介_IoTビジネス共創ラボ 第9回 勉強会 ~2020 and beyond~ スポーツ×IoTの取り組みご紹介_IoTビジネス共創ラボ 第9回 勉強会
~2020 and beyond~ スポーツ×IoTの取り組みご紹介_IoTビジネス共創ラボ 第9回 勉強会
 

ビジネスに役立つデータ分析

  • 1. Copyright iAnalysis LLC All rights reserved アイアナリシス合同会社 最高経営責任者(CEO) 倉橋一成 1
  • 2.  1983年 広島生まれ  2011年 東京大学医学系研究科で保健学博士取得 ◦ 東大病院情報システム部助教(1年半勤務)  海外論文約40本 ◦ iAnysis(アイアナリシス)合同会社設立  ホンダ、リクルート、ベネッセ、IHIなど23業種・44社(うち36%が東証一部上場企業)へコンサル ティング  『データサイエンス養成読本』『超分析の教科書』『ビジネス統計の教科書』著  2014年 NTTドコモに重点的にコンサルティング ◦ LTV開発やカスタマージャーニー分析など  2018年 油絵を始め、個展や展覧会など  2020年 日本を良くしたい、データを大企業の経営に活かすことで貢献 ◦ クレディセゾンデータ駆動
  • 3. Copyright iAnalysis LLC All rights reserved 2011年サービス開始から2014年の3年の間、 株式会社NTTドコモ 株式会社ベネッセコーポレーション 株式会社リクルートキャリア 株式会社インターネットイニシアティブジャパン 日本経済団体連合会 エーザイ株式会社 大鵬薬品工業株式会社 旭化成ファーマ株式会社 株式会社gumi 株式会社日経BP 株式会社ミクシィ 東京大学医学部付属病院 など23業種、44社へサービス提供 (うち東証1部上場企業:36%) 3 ほかには 大手自動車会社 大手携帯キャリア 大手製造会社 大手航空宇宙製造会社 Web広告ベンチャー 情報セキュリティベンチャーなど
  • 4. Copyright iAnalysis LLC All rights reserved 関係者外秘 4 データモニタリング KPI厳選 マーケティング調査 顧客分析 テキストマイニング 仮説検証 広告効果測定 施策効果検証試験 反応スコアリング ライフタイム分析 需要予測 故障予測 個別最適化(機械学習) レコメンデーション ホームページ:ianalysis.jp 問い合わせ先:contact@ianalysis.jp お電話:03-6868-3490
  • 6. Copyright iAnalysis LLC All rights reserved 6
  • 7. Copyright iAnalysis LLC All rights reserved 7
  • 8. Copyright iAnalysis LLC All rights reserved  ネットフリックス ◦ 1997〜、DVDのオンラインレンタルビジネス  全国展開していた「ブロックバスター」を破綻に追いや るほど成長 8
  • 9. Copyright iAnalysis LLC All rights reserved  顧客の好みを分析して映画をレコメンド(推奨)する ◦ アマゾンのレコメンドが有名 9  たまにしか借りない、利益率の高い顧客に優先してDVDを届けたいが、頻繁に 借りる会員が「不公平だ」と感じてしまう(→訴訟も)  「利益の最適化」と「公平な配送」のバランスを計算するアルゴリズムを開発  新しい映画の頒布権を購入するとき、過去に借りられた「似ているジャンルの映 画」と同じくらいレンタルされるだろう  新しいサービスを作るとき、それが本当に効果があるかどうか、A/Bテストによって 常にチェックする
  • 11. Copyright iAnalysis LLC All rights reserved ①現状を”知る” ②データから”意思決定”する ③将来を”予測”する ④全体から”個別化”する 11
  • 12. Copyright iAnalysis LLC All rights reserved 12 経営企画部 商品開発部 営業部 人事部 財務部 法務部 経営状況のKPI分析 企業業績管理(CPM) 顧客分析(CRM) 会員離脱分析 広告効果分析 マーケット分析 ブランド分析 プライシング分析 人事配置の最適化 離職率の要因分析 M&A分析 投資分析 経費分析 特許分析 仮説検証 モデリング 仮説発見 予測モデル 最適化 異常検知 データ可視化
  • 13. Copyright iAnalysis LLC All rights reserved 13 0 10 20 30 40 50 60 70 80 90 2005 2007 2009 2011 2013 2015 2017 2019 2021 データ量 単位(ゼタバイト) ※バイトの単位 キロバイト メガバイト ギガバイト テラバイト ペタバイト エクサバイト ゼタバイト ヨタバイト 現在 10年間で44倍? 米国では2018年までに、高度なアナリティクス・スキル を持つ人材(データサイエンティスト)が14〜19万人不 足し、大規模なデータセットのアナリティクスを活用し意 思決定のできるマネージャーやアナリストが150万人不足 する(by マッキンゼー)
  • 14. Copyright iAnalysis LLC All rights reserved 「分析力のある企業」の成功事例  GOOGLE:リスティング広告  Amazon:商品のレコメンデーション  PayPal:不正検知  キャピタルワン:クレジットカードのパーソナライズ  ネットフリックス:ビデオのレコメンデーション 一般事例  ダイレクトマーケティングの効果アップ  ユーザーの離反防止  株式投資自動化 iAnalysis事例  経営企画の仮説検証、論文研究のための仮説検証  Web訪問者の属性予測、広告効果の高いユーザーセグメントの発見  婚活サイトのユーザー分析  化粧品会社の顧客分析  新しいレコメンデーションシステム企画立案のための調査データ分析  情報の不正流出検知アルゴリズムの開発 14
  • 15. Copyright iAnalysis LLC All rights reserved 15 課題 鋼管製造の再開を検討。 しかし意思決定のためのコスト分析の信頼性が低いと感じていた。 2005年に価格競争のためシームレス鋼管製造を打ち切ったが、原油価 格が高騰したために原油採掘会社からの需要が高まった。 背景 分析 プロフィット・インサイトという分析ソフトを導入し、工場を再稼働 させるべきかどうか分析結果をみながら毎月検討。 12月に損益分岐点を超え、さらに予測モデルによってその後も価格上 昇が見込まれる状況になって初めて、製造の再開を行った。 成果 早期に生産再開した場合の損失4300万ドルを回避
  • 16. Copyright iAnalysis LLC All rights reserved 16 1990年代、「情報ベース戦略」を打ち立てる。 「まだ顔を見たことない2億の人達について情報を集め、集めた情報を基にし て、長期的な作戦を練る」 背景 分析 データベースの整備、分析などを精緻に行うことで、 「高額の商品を あっさりクレジットで買い、長期にわたってゆっくり返済する客」が 最も優良顧客であることが判明。 成果 業界で初めて「リボルビング機能」をカードに搭載し、新商品開発に つながった。 現在では1日に300回のマーケティング調査。 譲渡性預金の利息、ロールオーバーのための優遇措置、最低必要残高などと、 顧客定着率との間にはっきりとした関係があることが判明。 →定着率の87%アップ、新規顧客開拓コストの83%ダウン
  • 17. Copyright iAnalysis LLC All rights reserved 17 Web訪問履歴 性別を推定 検索履歴 データ分析 データ加工 重回帰 ロジスティクス回帰 重み最適化 ランダムフォレスト クラスタリング 距離計算 コサイン類似度 相関係数 n-グラム AUC比較 GBM ナイーブベイズ SVM 決定木 統計解析 エラー値除去 データ集約 変数作成 割合化 標準化 ヒストグラム 散布図 箱ひげ図 集計表 データサイエンス インプット アウトプット 正解率 約60% 正解率 約95% アーキテクチャ ターゲティング 広告へ 活用 プロジェクトメンバー:データサイエンティスト、エンジニア(弊社) マネージャー、DBエンジニア プロジェクト期間:3ヶ月(他の分析も並行) プロジェクト予算 約1,500万円
  • 18. Copyright iAnalysis LLC All rights reserved 18 データ分析 データ加工 指標の開発 相関分析 重回帰 統計解析 変数削除 指標の計算 外れ値除去 データ集約 ヒストグラム 散布図 箱ひげ図 集計表 シューハート 管理図 インフォグラフ アナリティクス インプット アウトプット アーキテクチャ 全国へ周知し 売上増加へ 活用 プロジェクトメンバー:データサイエンティスト×2(弊社) 企画部課長、技術者 プロジェクト期間:3ヶ月 日本全国の ディーラー 売上データ 売上と関連 のある経営指標 1ポイント上がると 年間120億円 の売上増加 プロジェクト予算 約2,500万円
  • 19. Copyright iAnalysis LLC All rights reserved データ活用の目的が明確ですか? 目的に合った分析ツールやシステム を適切に選べていますか? これまでデータ分析を活用してきた 社員が何人いますか? これまでの勘や経験だけで 経営判断しませんか? 19 ①目的 ③人材 ②環境 ④文化
  • 21. Copyright iAnalysis LLC All rights reserved 21 業務経験 ビジネス感 企画 目的設定 仮説作り 可視化等による データ理解 優先度決定 高優先度のも のから分析 ソリューション化 分析設計 データ設計 データ用意 手法適用 モデル開発 解釈 スタート ゴール 売上アップ コスト削減 意思決定 新商品開発 効果検証設計 A/Bテスト 主に分析力が必要とされるパート
  • 22. Copyright iAnalysis LLC All rights reserved 22 ビジネス インテリジェンス (BI) ビジネス アナリティクス (BA)
  • 23. Copyright iAnalysis LLC All rights reserved 23  DBの加工 ERP CRM ETLツール バッチ処理 ・抽出 ・変換 ・ロード DWH データマート ・集約 ・絞り込み 販売 生産 在庫
  • 24. Copyright iAnalysis LLC All rights reserved ※分析の中でデータクレンジングに費やす時間の割合は70〜90%※ 全国の健診データを分析するプロジェクト  概要 ◦ 目的:特定健診データを収集しクレアチニン測定の意義を分析する ◦ 全国数十の市町村からデータ収集 ◦ 約60万人 ◦ 5年間は追跡目標  データクレンジングが最大のネック ◦ 国保によってcsvファイルの仕様が微妙に違う  尿蛋白などが1~6になっていたり-, +-, …, +++になっていたり ◦ 入力ミス、エラー値がある 課題  巨大データをどうやってクレンジングするか? ◦ データを全て可視化することができない ◦ ロジックを組んだからといってコンピュータに任せっきりは危険 ◦ 「データが分かる人」が逐次モニターする必要がある 24
  • 25. Copyright iAnalysis LLC All rights reserved 25 散布図 ヒストグラム 棒グラフ 箱ひげ図 単変量 二変量
  • 26. Copyright iAnalysis LLC All rights reserved 26 http://d.hatena.ne.jp/isseing333/20111223/1324649420
  • 27. Copyright iAnalysis LLC All rights reserved  データに様々な「モデル」を当てはめて、情報を探索す る 27
  • 28. Copyright iAnalysis LLC All rights reserved 28 1000人 1000人 コンバージョン、直帰率、サイト滞在率、リピート率などを比較
  • 30. Copyright iAnalysis LLC All rights reserved 30 インフラ・DB ソリューション ソフトウェア ETL・DWH PENTAHO Neteeza Greenplum SAS Lavastorm ORACLE Hadoop MySQL PostogreSQL Amazon RedShift SPSS JMP Mathmatica Statistica Stata エクセル R Salesforce GoogleAnalytics GoogleAdwords CRMサービス ERPサービス
  • 31. Copyright iAnalysis LLC All rights reserved  様々なところに記録されているデータを統合する ◦ 社内の部署連携 ◦ データベースエンジニア、インフラエンジニア  大規模データを扱う必要 ◦ 数100GB〜数10TB ◦ Facebookは1日に約100TBのデータが発生 ◦ Googleは約200億(?)のサイトから検索を行っている(約 400TB?) ◦ Amazonは数千万アイテムの中からリコメンド(推奨)している  「分散処理」によって高速に処理を行う ◦ Hadoop(ハドゥープ)  Googleの基盤技術であるMapReduceをJavaでオープンソース実装し た分散処理のフレームワーク 31
  • 32. Copyright iAnalysis LLC All rights reserved 32
  • 33. Copyright iAnalysis LLC All rights reserved 33
  • 34. Copyright iAnalysis LLC All rights reserved 34
  • 35. Copyright iAnalysis LLC All rights reserved 関係者外秘 35 サ ー ビ ス の ア ナ リ テ ィ ク ス 機 能 利用者のアナリティクス・ITレベル 中級者 上級者 初級 中級 プロ 初心者 上級 現場でアナリティクスを活用 少数のプロがテンプレートを作成
  • 37. Copyright iAnalysis LLC All rights reserved  事業会社系 ◦ Google:広告効果を分析 ◦ Amazon:レコメンドエンジンの効果を分析 ◦ DeNA:マーケティング分析 ◦ リクルート:多種サービスの分析  コンサルティング系 ◦ 富士通、NEC、日立:様々な企業のデータ分析 ◦ アクセンチュア、野村総研:様々な企業へコンサルティング ◦ iAnalysis:様々な企業へコンサルティング 37 統計学を駆使してデータ分析することで ビジネスインパクトのある結果を産み出す人 ① ② ③
  • 38. Copyright iAnalysis LLC All rights reserved 38 統計学 DBエンジニア プログラマー 数学者 統計家 経営者 コンサルタント マーケター データサイエンティスト 機械学習 リサーチ データ サイエンス ① ② ③
  • 39. Copyright iAnalysis LLC All rights reserved 39 エ ン ジ ニ ア デ ー タ エ ン ジ ニ ア デ ー タ サ イ エ ン テ ィ ス ト ビ ジ ネ ス ( マ ー ケ タ ー 等 ) ア ナ リ ス ト エ ン ジ ニ ア リ ン グ + 統 計 学 + 業 務 知 識 + + 情 報 系 の 部 署 ビ ジ ネ ス 系 の 部 署 統計家 分 析 系 ス キ ル 分 析 力 ( コ ン サ ル 力 )
  • 40. Copyright iAnalysis LLC All rights reserved 1. Analytics:理論の学習 2. Engineer:エンジニアスキルの取得 3. Business:実戦 4. 情報収集 40
  • 42. Copyright iAnalysis LLC All rights reserved  統計学:「経験的に得られたデータを分析し法則性を見出す学問」  政治・ギャンブルなどのニーズから生まれた 42 webアクセス・広告 サンプリング調査
  • 43. Copyright iAnalysis LLC All rights reserved 43
  • 44. Copyright iAnalysis LLC All rights reserved  例)ワイン品質の予測モデル ◦ ワインの質 =12.145+0.00117×前年の冬の降雨量 + 0.0614×夏の育成期平均気温 + 0.00386×収穫期降雨量  ブドウの育成期の気象条件が原因でワインの品質が変わる  夏が暑くて乾燥していると、ワインの出来がよい  春に雨が多いと、質を落とすことなく収穫量が増える ◦ 予想価格と実際の価格との相関係数は、0.90を上回った 44 説明変数:xを使って、結果変数:yを 予測する計算式やアルゴリズム
  • 45. Copyright iAnalysis LLC All rights reserved 45 説明変数:X 結果変数:y f(x) f(x):予測モデル y = ID1 ID2 ID3 … y x1 x2 x3 …
  • 46. Copyright iAnalysis LLC All rights reserved 46 MemberID Vendor Year Specialty PayDelay DSFS 210 122401 Y1 Internal 162+ 3- 4 months 210 523791 Y1 Emergency 57 0- 1 month 210 122401 Y1 Internal 86 6- 7 months 210 142747 Y2 Other 38 3- 4 months 210 240043 Y2 Laboratory 31 0- 1 month 210 240043 Y3 Laboratory 23 2- 3 months 210 142747 Y3 Other 41 3- 4 months 3197 122401 Y1 Pediatrics 162+ 0- 1 month 3197 844976 Y1 Emergency 42 11-12 months 3197 122401 Y2 Internal 27 1- 2 months 3197 122401 Y3 Internal 27 0- 1 month 3197 122401 Y3 Internal 28 1- 2 months 3197 122401 Y3 Pediatrics 23 7- 8 months Claims (1:n) MemberID Year DSFS DrugCount 210 Y1 3- 4 months 2 210 Y1 0- 1 month 2 210 Y1 4- 5 months 1 210 Y3 7- 8 months 1 210 Y3 6- 7 months 1 210 Y3 8- 9 months 1 210 Y3 5- 6 months 2 3197 Y1 5- 6 months 2 3197 Y1 1- 2 months 1 3197 Y1 11-12 months 1 3197 Y1 10-11 months 1 3197 Y2 0- 1 month 2 3197 Y2 1- 2 months 1 DrugCount (1:n) MemberID DaysInHospital 210 0 3197 0 DaysInHospital (1:1) MemberID MaxPayDelay MinPayDelay … 210 162 23 … 3197 42 23 … aggregate group by Claims2 (1:1) MemberID MaxDrugCount MinDrugCount … 210 2 1 … 3197 2 1 … DrugCount2 (1:1) merge join
  • 47. Copyright iAnalysis LLC All rights reserved 47 y = a+bx a: 切片 b: 傾き 誤差 説明変数:x 結果変数:y
  • 49. Copyright iAnalysis LLC All rights reserved 49 "強い"木 "弱い"木の集合
  • 51. Copyright iAnalysis LLC All rights reserved 51 C++ d3.js UNIX 基本は抑えておき、 必要となったらその場で 調べて利用するという スタンス データベース系 スクリプト、分析系 可視化、レポーティング系
  • 52. Copyright iAnalysis LLC All rights reserved  randomForest:超強力な汎用予測モデル  RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの 接続  plyr:データ集約  reshape2:データ加工  forecast:時系列予測  (stringr:文字列操作)  (lubridate:日付操作)  (sqldf:SQLライクなデータ操作)  (ggplot2:綺麗なプロットを描く)  qcc:品質管理  party:決定木が綺麗に描ける  gbm:randomForestより汎用性の高い超強力な予測モデル  survival:生存分析  caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算で きる  XLConnect:エクセルのデータを読み込める、Rオブジェクトをエクセルに保存 できる 52
  • 54. Copyright iAnalysis LLC All rights reserved  データサイエンスハッカソン@ロンドン ◦ 2012年7月21日  医療データによる入院日数予測 ◦ 1位には2.4億円(2013年4月3日締め切り)  信用スコアの改善  レコメンデーションシステム  サッカーワールドカップ優勝国の予測  高速道路の渋滞予測  …  現在48イベント ◦ http://www.kaggle.com/competitions 54
  • 55. Copyright iAnalysis LLC All rights reserved 55 1,625チーム中
  • 57. Copyright iAnalysis LLC All rights reserved 57 Analytics+Business (入門〜中級) Engineering (入門)
  • 58. Copyright iAnalysis LLC All rights reserved  統計学 ◦ 統計学入門 ◦ 自然科学の統計学 ◦ 多変量解析入門 ◦ Elemental of Statistical Learning(修士以上レベル) ◦ Data Mining for Decision Making  エンジニアリング ◦ Rによるやさしい統計学 ◦ 統計学:Rを用いた入門書 ◦ Rによるデータサイエンス ◦ データサイエンティスト養成読本  ビジネス、事例 ◦ 分析力を武器とする企業 ◦ 分析力を駆使する企業 58
  • 60. Copyright iAnalysis LLC All rights reserved  勘や経験や度胸 vs データ  製品やサービスの価格を決めるとき、過去に類似の商品 が類似の状況でいくらなら売れたのかというデータを無 視して勘で決めたら?  人材を採用するとき、そのポストではどんなスキルや適 性が高業績につながるか、過去のデータを分析せずに採 用担当者の直感で決めたら?  在庫水準をデータに基づく最適水準に維持せず、「この くらいがちょうどいい」という漠然とした経験で決めた ら? 60
  • 61. Copyright iAnalysis LLC All rights reserved 61 1 • 分析力に劣る企業 2 • 分析力の活用が限定的な企業 3 • 分析力の組織的な強化に取り組む企業 4 • 分析力はあるが決定打に至らない企業 5 • 分析力を武器とする企業
  • 62. Copyright iAnalysis LLC All rights reserved 62 ステージ 組織戦略 人 インフラ 目標 現状 スキル 経営陣のコミッ トメント 企業文化 1. 分析力に 劣る企業 顧客・市場・競 合について知る。 分析はほとん ど行われてい ない。 なし なし データアレル ギー。直感に頼 る。 データがない。 精度が低い。定 義が曖昧。シス テムがばらばら。 2. 分析力の 活用が限 定的な企 業 データ分析の経 験を自主的に蓄 積し、トップの 関心を引く。 ごく狭い範囲 でしかデータ 収集・分析が 行われていな い。 一部の部門にア ナリストがいる が孤立している。 特定事業や戦術 的な対応に限ら れている。 客観的なデータ が必要と感じて いる。一部の部 門では関心が高 まっている。 各事業ばらばら にデータを収集 している。重要 なデータが欠落 している。シス テムが統合され ていない。 3. 分析力の 組織的な 強化に取 り組む企 業 組織横断型で データ収集・分 析を行う。全社 共通の業績評価 指標を設定する。 データ分析で事 業機会を探す。 分析プロセス は各部門不統 一である。 多くの部門にア ナリストがいる が、ネットワー ク化されていな い。 分析力を競争優 位にすることに 一部の幹部が興 味をもち始めた。 経営陣は事実を 重んじる姿勢を 打ち出している が、抵抗に遭っ ている。 システムやソフ トウェアは整い、 データウェアハ ウスも拡張中。
  • 63. Copyright iAnalysis LLC All rights reserved 63 ステージ 組織戦略 人 インフラ 目標 現状 スキル 経営陣のコミッ トメント 企業文化 4. 分析力は あるが決 定打に至 らない企 業 組織横断型の分 析プラット フォームを構築 し、組織として 分析力を身につ ける。 データ分析が ある程度まで 業務プロセス に組み込まれ ている。 スキル開発は行 われているが、 まだ水準に達し ていない、また は適材適所では ない。 経営陣のサポー トが得られてい る。 事実に基づく意 思決定の浸透を 図っている。 データの精度は 高く、全社的な 分析戦略もある。 分析環境は整っ ている。 5. 分析力を 武器とす る企業 データ分析から 多くの隠されて いた事実を導き 出す。継続的に データやシステ ムの改善を図る。 データ分析が 定着し、高度 に統合化され ている。 高度なスキルを 備え、意欲のあ る専門家がそ ろっている。周 辺業務はアウト ソースされてい る。 CEOを筆頭に経 営陣が積極的に 取り組んでいる。 事実に基づいて 意思決定を下す。 実験し学習する 姿勢が浸透して いる。 組織横断型のシ ステムが整備・ 運用されている。
  • 64. Copyright iAnalysis LLC All rights reserved 64 経営チーム 分析 グループ 部門A 部門B 集中管理モデル 経営チーム 分析 グループ 部門A 部門B 機能モデル 分散配置モデル(非推奨) 経営チーム 分析 グループ 部門A 部門B 分析 グループ
  • 65. Copyright iAnalysis LLC All rights reserved  時間がないとき ◦ 瞬時に決定する必要がある  前例がないとき ◦ 小規模なA/Bテスト  過去の事例が当てにならないとき ◦ 株価 ◦ 地震  意思決定者がきわめて経験豊富なとき ◦ データ収集と分析プロセスを頭の中で行なってしまう  変数が計測できないとき 65
  • 66. Copyright iAnalysis LLC All rights reserved ブランド 営業力 既存顧 客 販売網 分析力 商品開 発 66
  • 68. Copyright iAnalysis LLC All rights reserved 68 目的 ・企業の健康保険組合からの依頼 「レセプトと健康診断データが 社内にあるが活用できていない。 データを活用して社員の健康管理 に役立てれないか」 メンバー ・医療系コンサルタント:仮説作り ・マネージャー:PJマネージメント ・分析者:分析設計、データ加工、分析 PJ期間:約3M レセプトデータ 特定健診データ 結果 ・高リスク者を把握し直接コンタクト をとることで健康管理につなげる 目的設定・データ受け取り データクレンジング 結果出し、コンサル
  • 69. Copyright iAnalysis LLC All rights reserved  保険証記号、番号、生年月日、性別、本人家族(、名前)を ID  特定健診とレセプトを突合  IDの問題 ◦ 同一人物が別のID  引っ越し  入力ミス ◦ 別人が同じID  保険証番号の使い回し(稀?)  入力ミス ◦ 問題が起こるのは1%程度?  統計学として集団で考えると誤差とみなせる?  健保、国保は両方のデータを持っている  国が全国のデータで「レセプト等データベース」を作った ◦ 研究者が随時利用可能  課題も多い  どのようにデータが加工されているのか? 69
  • 70. Copyright iAnalysis LLC All rights reserved  特定健診(メタボ健診、40〜75歳対象) ◦ http://www.ssk.or.jp/goannai/jigyonaiyo/tokuteikenshin/tok uteijoho/tokuteijoho_01.html  国への提出はXML  健保、国保にはcsvも ◦ もしくは加工するツールを持っている 70
  • 71. Copyright iAnalysis LLC All rights reserved 71 PECULIAR(旧) RECODE(新) MED 国保 PHA 社保 DPC DEN NUR 10日分 20日分 社会保険診療報酬支払基金 http://www.ssk.or.jp/rezept/index.html
  • 72. Copyright iAnalysis LLC All rights reserved  傷病名マスター  修飾語マスター  歯式マスター  医薬品マスター  特定器材マスター  コメントマスター  医科診療行為マスター  歯科診療行為マスター  調剤行為マスター  マスター仕様書 ◦ http://www.ssk.or.jp/tensuhyo/kihonmasta/files/master01. pdf 72
  • 73. Copyright iAnalysis LLC All rights reserved  http://www.ssk.or.jp/rezept/hokenja/download/ind ex.html ◦ 11_RECODEINFO_MED.CSV(↓1枚分の病院レセプト) 73 2 1 0MN 9.1E+08東京都港区新橋 1.31E+16 1 2 0IR 1 13 1 9999913 サンプル医科ク リニック1 1 3 0RE 23 1118 42204サンプル 79 1 3120628 1 4 0HO 6132013 1234567 79 1 1619 1 5 0SY 2500013 4140619 1 1 1 6 0SY 5739014 4140619 1 1 7 0SY 8833421 4150716 1 1 1 8 0SI 12 1 1.12E+08 69 1 1 9 0SI 12 1 1.12E+08 52 1 1 10 0SI 13 1 1.13E+08 225 1 1 11 0SI 21 1 1.2E+08 9 1 1 12 0IY 21 1 6.1E+08 1 1 13 0IY 1 6.2E+08 1 1 14 0IY 1 6.14E+08 0.5 19 35 1 15 0IY 21 1 6.2E+08 2 2 35 1 16 0SI 25 1 1.2E+08 42 1 1 17 0SI 25 1 1.2E+08 65 1 1 18 0SI 27 1 1.2E+08 8 1 1 19 0SI 60 1 1.6E+08 26 1 1 20 0SI 60 1 1.6E+08 50 1 1 21 0SI 60 1 1.6E+08 1 22 0SI 1 1.6E+08 1 23 0SI 1 1.6E+08 1 24 0SI 1 1.6E+08 56 1 1 25 0SI 60 1 1.6E+08 13 1 1 26 0SI 60 1 1.6E+08 144 1 1 27 0SI 60 1 1.6E+08 125 1 2 28 1EX 2 29 0RC Ver00001df061727252faec47486f785da58f351
  • 74. Copyright iAnalysis LLC All rights reserved  VC++がインストールされていれば動くものを開発 ◦ VC++で行っているのはGUIとスクリプト処理 ◦ 実際のデータハンドリングはRで行っている 74
  • 75. Copyright iAnalysis LLC All rights reserved 75 IDは保険証番号・生年月日等をMD5でハッシュ関数にかけている →MD5は復元可能?不可能? IdRece ID year month kubun ShinsaShiharaiKikan IryoukikanMeishou IryoukikanCode Iryoukikan.Juusho … 1 797ba085286916c4a36d43ac194d8c60 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 2 c44df39d17915c59b30e30a83fb8a4be 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 3 699dd0c050e0d6bfb58cc077138e05df 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 4 6801e7911beac8e0dc28c7a95f435070 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 5 aa37ac101383b5c31c9fd46c3fb4f743 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 6 40ef024c5fed758a3df572556a145b2a 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 7 39d298c387e056363514fa9484650aa5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 8 f45d04fcbb0de3925587225a5e345adc 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 9 57280412edea8fa57cd9bcdad7a5aaae 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 10 a5b72f8b877a3670be8326bbd532ed6b 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 11 0f14d95e461487b0aabbe633f70ef2a5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 12 30476e785e1753b277e4b4cd4219ed3e 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 13 78566939f387cdde8ec2d071f15311f6 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 14 b945dcf2047883a75e233f01201c34ea 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 15 742d8a01993425b3ca7a9053d6fd2a23 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 16 b87191dbad31251bf03db289ad6302ee 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 17 ea316881f4ef5c11d6e8f2e63b6113a9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 18 c85526499187c5c13bab939848d321d5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 19 94f9a22620b07d74825e3d110f2eb066 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 20 37246ab2a22e9466c6168b00ffc1e8de 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 21 0cca19256cebb24e8195524c2a7972d8 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 22 2063252a137972f915cc52d7db58cca9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 … 23 312f24201e123ea81b869bd6d4ced222 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
  • 76. Copyright iAnalysis LLC All rights reserved  ReceRjp(非公開) ◦ 現在はMED_RECODEのみ対応  他の部分もプログラムは作っている  日本語→英語に修正する必要がある ◦ マスタは適宜入れ替え必要  マスタの仕様が変わると実行不可、要プログラム修正 76
  • 77. Copyright iAnalysis LLC All rights reserved 2011/1/17 日本経済新聞 健保だより(2010/10)
  • 79. Copyright iAnalysis LLC All rights reserved  KAGGLEという「予測モデル」のコンテスト  入院日数の予測→賞金300万ドル(約2億5千万円)  3年分の過去データを使って4年目の将来入院日数を予測 する ◦ 保険加入者のリスク管理をして保険料の資金管理に繋げる目的  1,300超のチーム 配布データ  患者IDに様々な情報が紐付いている ◦ Claims (1:n) ⇒診療情報のデータ ◦ DaysInHospital_Y2 (1:1) ⇒入院日数のデータ ◦ DaysInHospital_Y3 (1:1) ◦ DrugCount (1:n) ⇒処方回数のデータ ◦ LabCount (1:n) ◦ Members (1:1) ◦ Target (1:1) ⇒予測ターゲット 79
  • 80. Copyright iAnalysis LLC All rights reserved 80
  • 81. Copyright iAnalysis LLC All rights reserved 81
  • 82. Copyright iAnalysis LLC All rights reserved  投稿方法:Target.csvに予測結果を記入してweb上で投稿 ◦ 4年目の正解値と比較する ◦ 予測精度の評価方法  順位:その場でLearderbordに表示される  rules, dos and don'ts, Forumでルール等を確認  外部データの利用可否についてはForumで議論されている  milestone1〜3で賞金を取ったチームはモデルをレポートで公 開 ◦ http://www.heritagehealthprize.com/c/hhp/Leaderboard/miles tone1 82
  • 83. Copyright iAnalysis LLC All rights reserved  データマート作成 ◦ 特徴ベクトルの作成⇒かなり時間がかかる  モデル学習(学習データ) ◦ 各種モデル  GLM  SVM  NN  RF (Bagging)  GBM (Boosting)  Deep Learning ※Hot!! ◦ モデルのアンサンブル  モデル評価(検証データ) ◦ クロスバリデーション  モデル適用  主にR、Python等で実行 83
  • 84. Copyright iAnalysis LLC All rights reserved 84 Year1 X Year2 Year3 2 y 3 4 Year1 X Year2 2 y 3 X y Year2 Year3 3 4 1-year modeling target 2-year modeling target

Notas do Editor

  1. 10:00-
  2. -11:00
  3. 11:10-
  4. 倉橋 性能 解釈 システム実装
  5. Zoho 売上高約100億円(2011年度) 従業員35名 100万企業ユーザー デスクネッツ 売上高15億5,200万円(2014年1月期) 従業員86名 サイボウズ 売上高約100億円 従業員184名 サイボウズOfficeは2万企業ユーザー
  6. library(mvpart) data(car.test.frame) z.auto <- rpart(Mileage ~ Weight, car.test.frame) zp <- prune(z.auto, cp=0.1) plot(zp, uniform=T, branch=0.6, margin=0.05) text(zp, use.n=T) plot(z.auto, uniform=T, branch=0.6, margin=0.05) text(z.auto, use.n=T)