Mais conteúdo relacionado Semelhante a ビジネスに役立つデータ分析 (20) ビジネスに役立つデータ分析2. 1983年 広島生まれ
2011年 東京大学医学系研究科で保健学博士取得
◦ 東大病院情報システム部助教(1年半勤務)
海外論文約40本
◦ iAnysis(アイアナリシス)合同会社設立
ホンダ、リクルート、ベネッセ、IHIなど23業種・44社(うち36%が東証一部上場企業)へコンサル
ティング
『データサイエンス養成読本』『超分析の教科書』『ビジネス統計の教科書』著
2014年 NTTドコモに重点的にコンサルティング
◦ LTV開発やカスタマージャーニー分析など
2018年 油絵を始め、個展や展覧会など
2020年 日本を良くしたい、データを大企業の経営に活かすことで貢献
◦ クレディセゾンデータ駆動
3. Copyright iAnalysis LLC All rights reserved
2011年サービス開始から2014年の3年の間、
株式会社NTTドコモ
株式会社ベネッセコーポレーション
株式会社リクルートキャリア
株式会社インターネットイニシアティブジャパン
日本経済団体連合会
エーザイ株式会社
大鵬薬品工業株式会社
旭化成ファーマ株式会社
株式会社gumi
株式会社日経BP
株式会社ミクシィ
東京大学医学部付属病院
など23業種、44社へサービス提供
(うち東証1部上場企業:36%)
3
ほかには
大手自動車会社
大手携帯キャリア
大手製造会社
大手航空宇宙製造会社
Web広告ベンチャー
情報セキュリティベンチャーなど
4. Copyright iAnalysis LLC All rights reserved
関係者外秘
4
データモニタリング
KPI厳選
マーケティング調査
顧客分析
テキストマイニング
仮説検証
広告効果測定
施策効果検証試験
反応スコアリング
ライフタイム分析
需要予測
故障予測
個別最適化(機械学習)
レコメンデーション
ホームページ:ianalysis.jp
問い合わせ先:contact@ianalysis.jp
お電話:03-6868-3490
8. Copyright iAnalysis LLC All rights reserved
ネットフリックス
◦ 1997〜、DVDのオンラインレンタルビジネス
全国展開していた「ブロックバスター」を破綻に追いや
るほど成長
8
9. Copyright iAnalysis LLC All rights reserved
顧客の好みを分析して映画をレコメンド(推奨)する
◦ アマゾンのレコメンドが有名
9
たまにしか借りない、利益率の高い顧客に優先してDVDを届けたいが、頻繁に
借りる会員が「不公平だ」と感じてしまう(→訴訟も)
「利益の最適化」と「公平な配送」のバランスを計算するアルゴリズムを開発
新しい映画の頒布権を購入するとき、過去に借りられた「似ているジャンルの映
画」と同じくらいレンタルされるだろう
新しいサービスを作るとき、それが本当に効果があるかどうか、A/Bテストによって
常にチェックする
12. Copyright iAnalysis LLC All rights reserved 12
経営企画部
商品開発部
営業部
人事部
財務部
法務部
経営状況のKPI分析
企業業績管理(CPM)
顧客分析(CRM)
会員離脱分析
広告効果分析
マーケット分析
ブランド分析
プライシング分析
人事配置の最適化
離職率の要因分析
M&A分析
投資分析
経費分析
特許分析
仮説検証
モデリング
仮説発見 予測モデル
最適化
異常検知
データ可視化
13. Copyright iAnalysis LLC All rights reserved 13
0
10
20
30
40
50
60
70
80
90
2005 2007 2009 2011 2013 2015 2017 2019 2021
データ量
単位(ゼタバイト)
※バイトの単位
キロバイト
メガバイト
ギガバイト
テラバイト
ペタバイト
エクサバイト
ゼタバイト
ヨタバイト
現在
10年間で44倍?
米国では2018年までに、高度なアナリティクス・スキル
を持つ人材(データサイエンティスト)が14〜19万人不
足し、大規模なデータセットのアナリティクスを活用し意
思決定のできるマネージャーやアナリストが150万人不足
する(by マッキンゼー)
14. Copyright iAnalysis LLC All rights reserved
「分析力のある企業」の成功事例
GOOGLE:リスティング広告
Amazon:商品のレコメンデーション
PayPal:不正検知
キャピタルワン:クレジットカードのパーソナライズ
ネットフリックス:ビデオのレコメンデーション
一般事例
ダイレクトマーケティングの効果アップ
ユーザーの離反防止
株式投資自動化
iAnalysis事例
経営企画の仮説検証、論文研究のための仮説検証
Web訪問者の属性予測、広告効果の高いユーザーセグメントの発見
婚活サイトのユーザー分析
化粧品会社の顧客分析
新しいレコメンデーションシステム企画立案のための調査データ分析
情報の不正流出検知アルゴリズムの開発
14
15. Copyright iAnalysis LLC All rights reserved 15
課題
鋼管製造の再開を検討。
しかし意思決定のためのコスト分析の信頼性が低いと感じていた。
2005年に価格競争のためシームレス鋼管製造を打ち切ったが、原油価
格が高騰したために原油採掘会社からの需要が高まった。
背景
分析
プロフィット・インサイトという分析ソフトを導入し、工場を再稼働
させるべきかどうか分析結果をみながら毎月検討。
12月に損益分岐点を超え、さらに予測モデルによってその後も価格上
昇が見込まれる状況になって初めて、製造の再開を行った。
成果
早期に生産再開した場合の損失4300万ドルを回避
16. Copyright iAnalysis LLC All rights reserved 16
1990年代、「情報ベース戦略」を打ち立てる。
「まだ顔を見たことない2億の人達について情報を集め、集めた情報を基にし
て、長期的な作戦を練る」
背景
分析
データベースの整備、分析などを精緻に行うことで、 「高額の商品を
あっさりクレジットで買い、長期にわたってゆっくり返済する客」が
最も優良顧客であることが判明。
成果
業界で初めて「リボルビング機能」をカードに搭載し、新商品開発に
つながった。
現在では1日に300回のマーケティング調査。
譲渡性預金の利息、ロールオーバーのための優遇措置、最低必要残高などと、
顧客定着率との間にはっきりとした関係があることが判明。
→定着率の87%アップ、新規顧客開拓コストの83%ダウン
17. Copyright iAnalysis LLC All rights reserved 17
Web訪問履歴
性別を推定
検索履歴
データ分析 データ加工
重回帰
ロジスティクス回帰
重み最適化
ランダムフォレスト
クラスタリング
距離計算
コサイン類似度
相関係数
n-グラム
AUC比較
GBM
ナイーブベイズ
SVM
決定木
統計解析
エラー値除去
データ集約
変数作成
割合化
標準化
ヒストグラム
散布図
箱ひげ図
集計表
データサイエンス
インプット アウトプット
正解率
約60%
正解率
約95%
アーキテクチャ
ターゲティング
広告へ
活用
プロジェクトメンバー:データサイエンティスト、エンジニア(弊社)
マネージャー、DBエンジニア
プロジェクト期間:3ヶ月(他の分析も並行)
プロジェクト予算
約1,500万円
18. Copyright iAnalysis LLC All rights reserved 18
データ分析 データ加工
指標の開発
相関分析
重回帰
統計解析
変数削除
指標の計算
外れ値除去
データ集約
ヒストグラム
散布図
箱ひげ図
集計表
シューハート
管理図
インフォグラフ
アナリティクス
インプット アウトプット
アーキテクチャ
全国へ周知し
売上増加へ
活用
プロジェクトメンバー:データサイエンティスト×2(弊社)
企画部課長、技術者
プロジェクト期間:3ヶ月
日本全国の
ディーラー
売上データ
売上と関連
のある経営指標
1ポイント上がると
年間120億円
の売上増加
プロジェクト予算
約2,500万円
19. Copyright iAnalysis LLC All rights reserved
データ活用の目的が明確ですか?
目的に合った分析ツールやシステム
を適切に選べていますか?
これまでデータ分析を活用してきた
社員が何人いますか?
これまでの勘や経験だけで
経営判断しませんか?
19
①目的
③人材
②環境
④文化
21. Copyright iAnalysis LLC All rights reserved 21
業務経験
ビジネス感 企画
目的設定
仮説作り
可視化等による
データ理解
優先度決定
高優先度のも
のから分析
ソリューション化
分析設計
データ設計
データ用意
手法適用
モデル開発
解釈
スタート ゴール
売上アップ
コスト削減
意思決定
新商品開発
効果検証設計 A/Bテスト
主に分析力が必要とされるパート
23. Copyright iAnalysis LLC All rights reserved 23
DBの加工
ERP
CRM
ETLツール
バッチ処理
・抽出
・変換
・ロード
DWH
データマート
・集約
・絞り込み
販売
生産
在庫
24. Copyright iAnalysis LLC All rights reserved
※分析の中でデータクレンジングに費やす時間の割合は70〜90%※
全国の健診データを分析するプロジェクト
概要
◦ 目的:特定健診データを収集しクレアチニン測定の意義を分析する
◦ 全国数十の市町村からデータ収集
◦ 約60万人
◦ 5年間は追跡目標
データクレンジングが最大のネック
◦ 国保によってcsvファイルの仕様が微妙に違う
尿蛋白などが1~6になっていたり-, +-, …, +++になっていたり
◦ 入力ミス、エラー値がある
課題
巨大データをどうやってクレンジングするか?
◦ データを全て可視化することができない
◦ ロジックを組んだからといってコンピュータに任せっきりは危険
◦ 「データが分かる人」が逐次モニターする必要がある
24
30. Copyright iAnalysis LLC All rights reserved 30
インフラ・DB ソリューション
ソフトウェア
ETL・DWH
PENTAHO
Neteeza
Greenplum
SAS
Lavastorm
ORACLE
Hadoop
MySQL
PostogreSQL
Amazon RedShift
SPSS
JMP
Mathmatica
Statistica
Stata
エクセル
R Salesforce
GoogleAnalytics
GoogleAdwords
CRMサービス
ERPサービス
31. Copyright iAnalysis LLC All rights reserved
様々なところに記録されているデータを統合する
◦ 社内の部署連携
◦ データベースエンジニア、インフラエンジニア
大規模データを扱う必要
◦ 数100GB〜数10TB
◦ Facebookは1日に約100TBのデータが発生
◦ Googleは約200億(?)のサイトから検索を行っている(約
400TB?)
◦ Amazonは数千万アイテムの中からリコメンド(推奨)している
「分散処理」によって高速に処理を行う
◦ Hadoop(ハドゥープ)
Googleの基盤技術であるMapReduceをJavaでオープンソース実装し
た分散処理のフレームワーク
31
35. Copyright iAnalysis LLC All rights reserved
関係者外秘
35
サ
ー
ビ
ス
の
ア
ナ
リ
テ
ィ
ク
ス
機
能
利用者のアナリティクス・ITレベル
中級者
上級者
初級
中級
プロ
初心者
上級
現場でアナリティクスを活用
少数のプロがテンプレートを作成
37. Copyright iAnalysis LLC All rights reserved
事業会社系
◦ Google:広告効果を分析
◦ Amazon:レコメンドエンジンの効果を分析
◦ DeNA:マーケティング分析
◦ リクルート:多種サービスの分析
コンサルティング系
◦ 富士通、NEC、日立:様々な企業のデータ分析
◦ アクセンチュア、野村総研:様々な企業へコンサルティング
◦ iAnalysis:様々な企業へコンサルティング
37
統計学を駆使してデータ分析することで
ビジネスインパクトのある結果を産み出す人
① ②
③
38. Copyright iAnalysis LLC All rights reserved 38
統計学
DBエンジニア
プログラマー
数学者
統計家
経営者
コンサルタント
マーケター
データサイエンティスト
機械学習 リサーチ
データ
サイエンス
①
②
③
39. Copyright iAnalysis LLC All rights reserved 39
エ
ン
ジ
ニ
ア
デ
ー
タ
エ
ン
ジ
ニ
ア
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
ビ
ジ
ネ
ス
(
マ
ー
ケ
タ
ー
等
)
ア
ナ
リ
ス
ト
エ
ン
ジ
ニ
ア
リ
ン
グ
+
統
計
学
+
業
務
知
識
+
+
情
報
系
の
部
署
ビ
ジ
ネ
ス
系
の
部
署
統計家
分
析
系
ス
キ
ル
分
析
力
(
コ
ン
サ
ル
力
)
40. Copyright iAnalysis LLC All rights reserved
1. Analytics:理論の学習
2. Engineer:エンジニアスキルの取得
3. Business:実戦
4. 情報収集
40
42. Copyright iAnalysis LLC All rights reserved
統計学:「経験的に得られたデータを分析し法則性を見出す学問」
政治・ギャンブルなどのニーズから生まれた
42
webアクセス・広告
サンプリング調査
44. Copyright iAnalysis LLC All rights reserved
例)ワイン品質の予測モデル
◦ ワインの質 =12.145+0.00117×前年の冬の降雨量
+ 0.0614×夏の育成期平均気温
+ 0.00386×収穫期降雨量
ブドウの育成期の気象条件が原因でワインの品質が変わる
夏が暑くて乾燥していると、ワインの出来がよい
春に雨が多いと、質を落とすことなく収穫量が増える
◦ 予想価格と実際の価格との相関係数は、0.90を上回った
44
説明変数:xを使って、結果変数:yを
予測する計算式やアルゴリズム
46. Copyright iAnalysis LLC All rights reserved 46
MemberID Vendor Year Specialty PayDelay DSFS
210 122401 Y1 Internal 162+ 3- 4 months
210 523791 Y1 Emergency 57 0- 1 month
210 122401 Y1 Internal 86 6- 7 months
210 142747 Y2 Other 38 3- 4 months
210 240043 Y2 Laboratory 31 0- 1 month
210 240043 Y3 Laboratory 23 2- 3 months
210 142747 Y3 Other 41 3- 4 months
3197 122401 Y1 Pediatrics 162+ 0- 1 month
3197 844976 Y1 Emergency 42 11-12 months
3197 122401 Y2 Internal 27 1- 2 months
3197 122401 Y3 Internal 27 0- 1 month
3197 122401 Y3 Internal 28 1- 2 months
3197 122401 Y3 Pediatrics 23 7- 8 months
Claims (1:n)
MemberID Year DSFS DrugCount
210 Y1 3- 4 months 2
210 Y1 0- 1 month 2
210 Y1 4- 5 months 1
210 Y3 7- 8 months 1
210 Y3 6- 7 months 1
210 Y3 8- 9 months 1
210 Y3 5- 6 months 2
3197 Y1 5- 6 months 2
3197 Y1 1- 2 months 1
3197 Y1 11-12 months 1
3197 Y1 10-11 months 1
3197 Y2 0- 1 month 2
3197 Y2 1- 2 months 1
DrugCount (1:n) MemberID DaysInHospital
210 0
3197 0
DaysInHospital (1:1)
MemberID MaxPayDelay MinPayDelay …
210 162 23 …
3197 42 23 …
aggregate
group by
Claims2 (1:1)
MemberID MaxDrugCount MinDrugCount …
210 2 1 …
3197 2 1 …
DrugCount2 (1:1)
merge
join
51. Copyright iAnalysis LLC All rights reserved 51
C++ d3.js
UNIX 基本は抑えておき、
必要となったらその場で
調べて利用するという
スタンス
データベース系 スクリプト、分析系
可視化、レポーティング系
52. Copyright iAnalysis LLC All rights reserved
randomForest:超強力な汎用予測モデル
RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの
接続
plyr:データ集約
reshape2:データ加工
forecast:時系列予測
(stringr:文字列操作)
(lubridate:日付操作)
(sqldf:SQLライクなデータ操作)
(ggplot2:綺麗なプロットを描く)
qcc:品質管理
party:決定木が綺麗に描ける
gbm:randomForestより汎用性の高い超強力な予測モデル
survival:生存分析
caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算で
きる
XLConnect:エクセルのデータを読み込める、Rオブジェクトをエクセルに保存
できる
52
54. Copyright iAnalysis LLC All rights reserved
データサイエンスハッカソン@ロンドン
◦ 2012年7月21日
医療データによる入院日数予測
◦ 1位には2.4億円(2013年4月3日締め切り)
信用スコアの改善
レコメンデーションシステム
サッカーワールドカップ優勝国の予測
高速道路の渋滞予測
…
現在48イベント
◦ http://www.kaggle.com/competitions
54
58. Copyright iAnalysis LLC All rights reserved
統計学
◦ 統計学入門
◦ 自然科学の統計学
◦ 多変量解析入門
◦ Elemental of Statistical Learning(修士以上レベル)
◦ Data Mining for Decision Making
エンジニアリング
◦ Rによるやさしい統計学
◦ 統計学:Rを用いた入門書
◦ Rによるデータサイエンス
◦ データサイエンティスト養成読本
ビジネス、事例
◦ 分析力を武器とする企業
◦ 分析力を駆使する企業
58
60. Copyright iAnalysis LLC All rights reserved
勘や経験や度胸 vs データ
製品やサービスの価格を決めるとき、過去に類似の商品
が類似の状況でいくらなら売れたのかというデータを無
視して勘で決めたら?
人材を採用するとき、そのポストではどんなスキルや適
性が高業績につながるか、過去のデータを分析せずに採
用担当者の直感で決めたら?
在庫水準をデータに基づく最適水準に維持せず、「この
くらいがちょうどいい」という漠然とした経験で決めた
ら?
60
61. Copyright iAnalysis LLC All rights reserved 61
1
• 分析力に劣る企業
2
• 分析力の活用が限定的な企業
3
• 分析力の組織的な強化に取り組む企業
4
• 分析力はあるが決定打に至らない企業
5
• 分析力を武器とする企業
62. Copyright iAnalysis LLC All rights reserved 62
ステージ 組織戦略 人 インフラ
目標 現状 スキル
経営陣のコミッ
トメント
企業文化
1. 分析力に
劣る企業
顧客・市場・競
合について知る。
分析はほとん
ど行われてい
ない。
なし なし
データアレル
ギー。直感に頼
る。
データがない。
精度が低い。定
義が曖昧。シス
テムがばらばら。
2. 分析力の
活用が限
定的な企
業
データ分析の経
験を自主的に蓄
積し、トップの
関心を引く。
ごく狭い範囲
でしかデータ
収集・分析が
行われていな
い。
一部の部門にア
ナリストがいる
が孤立している。
特定事業や戦術
的な対応に限ら
れている。
客観的なデータ
が必要と感じて
いる。一部の部
門では関心が高
まっている。
各事業ばらばら
にデータを収集
している。重要
なデータが欠落
している。シス
テムが統合され
ていない。
3. 分析力の
組織的な
強化に取
り組む企
業
組織横断型で
データ収集・分
析を行う。全社
共通の業績評価
指標を設定する。
データ分析で事
業機会を探す。
分析プロセス
は各部門不統
一である。
多くの部門にア
ナリストがいる
が、ネットワー
ク化されていな
い。
分析力を競争優
位にすることに
一部の幹部が興
味をもち始めた。
経営陣は事実を
重んじる姿勢を
打ち出している
が、抵抗に遭っ
ている。
システムやソフ
トウェアは整い、
データウェアハ
ウスも拡張中。
63. Copyright iAnalysis LLC All rights reserved 63
ステージ 組織戦略 人 インフラ
目標 現状 スキル
経営陣のコミッ
トメント
企業文化
4. 分析力は
あるが決
定打に至
らない企
業
組織横断型の分
析プラット
フォームを構築
し、組織として
分析力を身につ
ける。
データ分析が
ある程度まで
業務プロセス
に組み込まれ
ている。
スキル開発は行
われているが、
まだ水準に達し
ていない、また
は適材適所では
ない。
経営陣のサポー
トが得られてい
る。
事実に基づく意
思決定の浸透を
図っている。
データの精度は
高く、全社的な
分析戦略もある。
分析環境は整っ
ている。
5. 分析力を
武器とす
る企業
データ分析から
多くの隠されて
いた事実を導き
出す。継続的に
データやシステ
ムの改善を図る。
データ分析が
定着し、高度
に統合化され
ている。
高度なスキルを
備え、意欲のあ
る専門家がそ
ろっている。周
辺業務はアウト
ソースされてい
る。
CEOを筆頭に経
営陣が積極的に
取り組んでいる。
事実に基づいて
意思決定を下す。
実験し学習する
姿勢が浸透して
いる。
組織横断型のシ
ステムが整備・
運用されている。
64. Copyright iAnalysis LLC All rights reserved 64
経営チーム
分析
グループ
部門A 部門B
集中管理モデル
経営チーム
分析
グループ
部門A 部門B
機能モデル
分散配置モデル(非推奨)
経営チーム
分析
グループ
部門A 部門B
分析
グループ
65. Copyright iAnalysis LLC All rights reserved
時間がないとき
◦ 瞬時に決定する必要がある
前例がないとき
◦ 小規模なA/Bテスト
過去の事例が当てにならないとき
◦ 株価
◦ 地震
意思決定者がきわめて経験豊富なとき
◦ データ収集と分析プロセスを頭の中で行なってしまう
変数が計測できないとき
65
68. Copyright iAnalysis LLC All rights reserved 68
目的
・企業の健康保険組合からの依頼
「レセプトと健康診断データが
社内にあるが活用できていない。
データを活用して社員の健康管理
に役立てれないか」
メンバー
・医療系コンサルタント:仮説作り
・マネージャー:PJマネージメント
・分析者:分析設計、データ加工、分析
PJ期間:約3M
レセプトデータ 特定健診データ
結果
・高リスク者を把握し直接コンタクト
をとることで健康管理につなげる
目的設定・データ受け取り
データクレンジング
結果出し、コンサル
69. Copyright iAnalysis LLC All rights reserved
保険証記号、番号、生年月日、性別、本人家族(、名前)を
ID
特定健診とレセプトを突合
IDの問題
◦ 同一人物が別のID
引っ越し
入力ミス
◦ 別人が同じID
保険証番号の使い回し(稀?)
入力ミス
◦ 問題が起こるのは1%程度?
統計学として集団で考えると誤差とみなせる?
健保、国保は両方のデータを持っている
国が全国のデータで「レセプト等データベース」を作った
◦ 研究者が随時利用可能
課題も多い
どのようにデータが加工されているのか?
69
70. Copyright iAnalysis LLC All rights reserved
特定健診(メタボ健診、40〜75歳対象)
◦ http://www.ssk.or.jp/goannai/jigyonaiyo/tokuteikenshin/tok
uteijoho/tokuteijoho_01.html
国への提出はXML
健保、国保にはcsvも
◦ もしくは加工するツールを持っている
70
71. Copyright iAnalysis LLC All rights reserved 71
PECULIAR(旧)
RECODE(新)
MED 国保
PHA 社保
DPC
DEN
NUR
10日分
20日分
社会保険診療報酬支払基金
http://www.ssk.or.jp/rezept/index.html
72. Copyright iAnalysis LLC All rights reserved
傷病名マスター
修飾語マスター
歯式マスター
医薬品マスター
特定器材マスター
コメントマスター
医科診療行為マスター
歯科診療行為マスター
調剤行為マスター
マスター仕様書
◦ http://www.ssk.or.jp/tensuhyo/kihonmasta/files/master01.
pdf
72
73. Copyright iAnalysis LLC All rights reserved
http://www.ssk.or.jp/rezept/hokenja/download/ind
ex.html
◦ 11_RECODEINFO_MED.CSV(↓1枚分の病院レセプト)
73
2 1 0MN 9.1E+08東京都港区新橋 1.31E+16
1 2 0IR 1 13 1 9999913
サンプル医科ク
リニック1
1 3 0RE 23 1118 42204サンプル 79 1 3120628
1 4 0HO 6132013 1234567 79 1 1619
1 5 0SY 2500013 4140619 1 1
1 6 0SY 5739014 4140619 1
1 7 0SY 8833421 4150716 1 1
1 8 0SI 12 1 1.12E+08 69 1
1 9 0SI 12 1 1.12E+08 52 1
1 10 0SI 13 1 1.13E+08 225 1
1 11 0SI 21 1 1.2E+08 9 1
1 12 0IY 21 1 6.1E+08 1
1 13 0IY 1 6.2E+08 1
1 14 0IY 1 6.14E+08 0.5 19 35
1 15 0IY 21 1 6.2E+08 2 2 35
1 16 0SI 25 1 1.2E+08 42 1
1 17 0SI 25 1 1.2E+08 65 1
1 18 0SI 27 1 1.2E+08 8 1
1 19 0SI 60 1 1.6E+08 26 1
1 20 0SI 60 1 1.6E+08 50 1
1 21 0SI 60 1 1.6E+08
1 22 0SI 1 1.6E+08
1 23 0SI 1 1.6E+08
1 24 0SI 1 1.6E+08 56 1
1 25 0SI 60 1 1.6E+08 13 1
1 26 0SI 60 1 1.6E+08 144 1
1 27 0SI 60 1 1.6E+08 125 1
2 28 1EX
2 29 0RC Ver00001df061727252faec47486f785da58f351
74. Copyright iAnalysis LLC All rights reserved
VC++がインストールされていれば動くものを開発
◦ VC++で行っているのはGUIとスクリプト処理
◦ 実際のデータハンドリングはRで行っている
74
75. Copyright iAnalysis LLC All rights reserved 75
IDは保険証番号・生年月日等をMD5でハッシュ関数にかけている
→MD5は復元可能?不可能?
IdRece ID year month kubun
ShinsaShiharaiKikan
IryoukikanMeishou IryoukikanCode
Iryoukikan.Juusho …
1 797ba085286916c4a36d43ac194d8c60 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
2 c44df39d17915c59b30e30a83fb8a4be 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
3 699dd0c050e0d6bfb58cc077138e05df 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
4 6801e7911beac8e0dc28c7a95f435070 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
5 aa37ac101383b5c31c9fd46c3fb4f743 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
6 40ef024c5fed758a3df572556a145b2a 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
7 39d298c387e056363514fa9484650aa5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
8 f45d04fcbb0de3925587225a5e345adc 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
9 57280412edea8fa57cd9bcdad7a5aaae 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
10 a5b72f8b877a3670be8326bbd532ed6b 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
11 0f14d95e461487b0aabbe633f70ef2a5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
12 30476e785e1753b277e4b4cd4219ed3e 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
13 78566939f387cdde8ec2d071f15311f6 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
14 b945dcf2047883a75e233f01201c34ea 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
15 742d8a01993425b3ca7a9053d6fd2a23 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
16 b87191dbad31251bf03db289ad6302ee 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
17 ea316881f4ef5c11d6e8f2e63b6113a9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
18 c85526499187c5c13bab939848d321d5 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
19 94f9a22620b07d74825e3d110f2eb066 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
20 37246ab2a22e9466c6168b00ffc1e8de 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
21 0cca19256cebb24e8195524c2a7972d8 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
22 2063252a137972f915cc52d7db58cca9 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
23 312f24201e123ea81b869bd6d4ced222 2010 4 MedRecodeinfo 1 サンプル医科クリニック1 1E+07 東京都港区新橋 …
76. Copyright iAnalysis LLC All rights reserved
ReceRjp(非公開)
◦ 現在はMED_RECODEのみ対応
他の部分もプログラムは作っている
日本語→英語に修正する必要がある
◦ マスタは適宜入れ替え必要
マスタの仕様が変わると実行不可、要プログラム修正
76
79. Copyright iAnalysis LLC All rights reserved
KAGGLEという「予測モデル」のコンテスト
入院日数の予測→賞金300万ドル(約2億5千万円)
3年分の過去データを使って4年目の将来入院日数を予測
する
◦ 保険加入者のリスク管理をして保険料の資金管理に繋げる目的
1,300超のチーム
配布データ
患者IDに様々な情報が紐付いている
◦ Claims (1:n) ⇒診療情報のデータ
◦ DaysInHospital_Y2 (1:1) ⇒入院日数のデータ
◦ DaysInHospital_Y3 (1:1)
◦ DrugCount (1:n) ⇒処方回数のデータ
◦ LabCount (1:n)
◦ Members (1:1)
◦ Target (1:1) ⇒予測ターゲット
79
82. Copyright iAnalysis LLC All rights reserved
投稿方法:Target.csvに予測結果を記入してweb上で投稿
◦ 4年目の正解値と比較する
◦ 予測精度の評価方法
順位:その場でLearderbordに表示される
rules, dos and don'ts, Forumでルール等を確認
外部データの利用可否についてはForumで議論されている
milestone1〜3で賞金を取ったチームはモデルをレポートで公
開
◦ http://www.heritagehealthprize.com/c/hhp/Leaderboard/miles
tone1
82
83. Copyright iAnalysis LLC All rights reserved
データマート作成
◦ 特徴ベクトルの作成⇒かなり時間がかかる
モデル学習(学習データ)
◦ 各種モデル
GLM
SVM
NN
RF (Bagging)
GBM (Boosting)
Deep Learning ※Hot!!
◦ モデルのアンサンブル
モデル評価(検証データ)
◦ クロスバリデーション
モデル適用
主にR、Python等で実行
83
84. Copyright iAnalysis LLC All rights reserved 84
Year1
X
Year2
Year3
2
y
3
4
Year1
X
Year2
2
y
3
X y
Year2 Year3
3 4
1-year
modeling
target
2-year
modeling
target
Notas do Editor 10:00- -11:00 11:10- 倉橋
性能
解釈
システム実装
Zoho
売上高約100億円(2011年度)
従業員35名
100万企業ユーザー
デスクネッツ
売上高15億5,200万円(2014年1月期)
従業員86名
サイボウズ
売上高約100億円
従業員184名
サイボウズOfficeは2万企業ユーザー
library(mvpart)
data(car.test.frame)
z.auto <- rpart(Mileage ~ Weight, car.test.frame)
zp <- prune(z.auto, cp=0.1)
plot(zp, uniform=T, branch=0.6, margin=0.05)
text(zp, use.n=T)
plot(z.auto, uniform=T, branch=0.6, margin=0.05)
text(z.auto, use.n=T)