Mais conteúdo relacionado
Semelhante a Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014) (20)
Mais de Hadoop / Spark Conference Japan (16)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
- 2. Data Science & Infrastructure Technologies, Systems R&D Center
自己紹介
髙田 正彬(たかだ まさあき)
所属:新日鉄住金ソリューションズ(株)
システム研究開発センター データ分析・基盤研究部
専門分野:機械学習、統計、分散システム
業務内容:社内データの分析、Hadoopの検証など
2
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 3. Data Science & Infrastructure Technologies, Systems R&D Center
本日の内容
1. 弊社におけるビッグデータへの取り組み
2. アルツハイマー病診断支援へ向けて
i. 取り組みの背景
ii. 医療画像データの解析手法
iii. 解析結果
3
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 5. Data Science & Infrastructure Technologies, Systems R&D Center
新日鉄住金ソリューションズ
経営とシステムの全体最適をめざす
システムライフサイクル・トータルソリューション
業務系ソリューション
産業
流通・サービス
金融
社会・公共
鉄鋼
テレコミュニケーション
基盤系ソリューション
パブリッククラウド・サービス
プライベートクラウド構築
統合基盤エンジニアリング
プロダクトソリューション
ビジネスサービス
システム運用
データセンター・サービス
アプリケーション・サービス
アウトソーシング・サービス
プロダクトサポート
研究開発・
新ソリューション推進
システム研究開発
ソフトウェア開発
クラウドサービスビジネス
エンベデッド・ユビキタスシステム
環境・エネルギーソリューション
IFRSソリューション
システム・インフラ
インフラ統合基盤
アプリケーション統合基盤 共通システム・
ユーティリティ基盤
業務アプリケーション
サービス
構築
運用・保守
ITコンサル
5
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 6. Data Science & Infrastructure Technologies, Systems R&D Center
弊社におけるデータ利活用の取り組み
6
データマイニング データ分析、モデル構築、マーケティング戦略など
情報活用のコンサルティングノウハウ
DWH / BI
大規模DWHシステム、BIツール・統計解析ツール技術
先端アプリケーション(ナレッジ・最適化など)に関する技術
最適化
統計解析
•顧客行動データ
に基づく、セグ
メンテーション
やプロモーショ
ン(顧客戦略の
高度化)
•通信やログデー
タに基づく、解
約防止の顧客戦
略や障害事前検
知のサービス品
質向上
•販売動向や品質
情報のデータ解
析・因子特定に
基づく、生産プ
ロセス最適化へ
の応用
•大量データの統
計処理とデー
タ・テキストマ
イニング
通販 通信 製造 社会・公共
•医療画像データ
によるアルツハ
イマー診断支援
医療
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 7. Data Science & Infrastructure Technologies, Systems R&D Center
弊社におけるHadoopの取り組み
'09 '11’06
MapReduce
論文を発表
Hadoop誕生
MapR Technologies設立
'13'12 '14
Hadoop実運用
認定販売代理店として
Cloudera社と提携Hadoopを研究対象に採用
Hadoop
アプリケーションの製作
Cloudera設立
Hortonworks設立
国内販売パートナーとし
てMapR社と提携
他社との共同検証による
実業務適用検討を複数実施 HCJ 2013 Winter
にて講演
7
弊社の取り組み
Hadoop界隈の動向
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 9. Data Science & Infrastructure Technologies, Systems R&D Center
取り組みの背景
本研究は、NEDO(独立行政法人 新エネルギー・産業技術総合開発機構)の
「脳画像・臨床・ITによるアルツハイマー病(AD)超早期診断
と先制医療の実現」プロジェクトの一環で実施。
9
IT融合による新社会システムの開発・実証プロジェクト
脳画像・臨床・ITによる
アルツハイマー病超早期診断と先制医療の実現
J-ADNI2
臨床研究
画像技術
開発研究
臨床研究クラウ
ドサービスの
構築と評価
多様なデータの管理・整理、データ分
析・解析、研究者間のコミュニケー
ションをITにより加速・支援するため
に以下を行う。
【役割1】
臨床研究クラウドサービス構築
⇒別チームで実施
【役割2】
超早期診断支援のための検証
⇒今回の内容
新日鉄住金ソリューションズ㈱の担当
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 10. Data Science & Infrastructure Technologies, Systems R&D Center
役割1:臨床研究クラウドサービスの構築
10
コミュニティサービス
データセンターや研究コア
CombinedDataBase
(
CDB
)
DICOM
サ
ー
バ
大学病院など
全国40施設
被験者登録
検査予約登録
用紙検査結果登録
PET検査 PET検査結果登録
MRI検査
MRI検査結果登録
生化学検査 生化学検査結果登録
問題
申請登録
用紙検査
参加希望者
RDBMS(PostgreSQL)RDBMS(PostgreSQL)
ファイル保存ディレクトリ
Webアプリケーション
(RedmineのカスタマイズやPlug-in開発)
Webアプリケーション
(Javaスクラッチ開発)
DICOM連携API
RDBMS(PostgreSQL)RDBMS(PostgreSQL)
ファイル保存ディレクトリ
用紙QC PET QC MRI QC 申請確認 資材受注登録
マスタ登録
文書登録用紙検査
結果情報
QC承認 QC承認
申請
情報
QC
承認 承認
用紙検査
情報
PET撮像
データ
MRI撮像
データ
生化学検査
情報
申請情報
疑義事項
問合せ
参加します
用紙検査
結果情報
PET検査
結果情報
MRI検査
結果情報
生化学検査
結果情報
申請結果情報
用紙検査結果情報 PET検査結果情報
MRI検査結果情報 生化学検査
結果情報
申請結果情報
被験者情報
検査予実情報
資材受発注情報
被験者情報
検査実績情報
用紙検査結果データ
PET・MRI撮像データ
PET検査結果データ
MRI検査結果データ
生化学検査結果データ
申請結果データ
各種
検査結果
データ
各種
検査結果
データ
研究進捗
データ
検査結果が
承認されると
Excelのデータを
パースして
RDBMSに格納
撮像データは
被験者情報を
匿名化して
DICOMサーバに
登録される
資材発注登録
資材発注
情報
PET画像
MRI画像
臨床検査
DNA情報
CRF
心理テスト
研究者品質管理者
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
データ保管
管理システムデータ品質
管理システム
データの共有により
臨床研究を促進
- 11. Data Science & Infrastructure Technologies, Systems R&D Center
役割2:超早期診断支援のための検証
AD超早期診断支援のコアとなる機械学習アルゴリズムを検証
大量データ・多変量データに対応できる手法を利用
複数モダリティのデータを合成して判別精度を向上できるか検証
11
医師
MRIデータ
PETデータ
判別結果
統計情報
機械学習
AD超早期診断
の支援
モダリティ
⇒今回ご紹介します
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 12. Data Science & Infrastructure Technologies, Systems R&D Center
アルツハイマー病(AD: Alzheimer’s Disease)
症状
神経細胞が脱落し、脳が萎縮する。
記憶力の低下や人格の変化などを
引き起こす。
規模
日本の認知症患者は約300万人。
認知症患者の大半がADであると
言われている。
社会的費用は10兆円を超える。
特徴
進行により不可逆的に神経細胞が変性。
そのため、超早期診断が必要である。
12
引用)アルツハイマー病についての情報と
リソース alz.org
http://www.alz.org/asian/about/inside_
the_brain.asp?nL=JA&dL=JA
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 13. Data Science & Infrastructure Technologies, Systems R&D Center
本研究のゴール
13
引用)超早期アルツハイマー病の指標
づくりを目指す臨床研究 J-ADNI2
http://www.j-adni2.org/guide.html
予防・治療しやすい
診断しやすい診断の
特徴
今回のターゲット将来的なターゲット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 15. Data Science & Infrastructure Technologies, Systems R&D Center
本研究の概要
15
MRIデータとPETデータに対して、Mahoutを用いて
機械学習を行い、ADかどうかを判別する。
検証対象
MRIデータ
判別結果
健常 or AD
機械
学習
前処理
PETデータ
加工済
MRIデータ
加工済
PETデータ
環境:ローカル
分析ツール:Matlab
環境:Hadoop
分析ツール:Mahout
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 16. Data Science & Infrastructure Technologies, Systems R&D Center
Mahoutとは
機械学習のHadoopエコシステム
機械学習:人間が学習するような機構をコンピュータ上で実現させる技術
OSSでJavaライブラリのみを提供
スケーラブルなライブラリ
多くのアルゴリズムがHadoop上で動作するためスケーラブル
データサイズが巨大な場合や、独立な計算処理量が膨大な場合に有効
16
Hadoop
Hive
SQL的操作
Pig
手続き的操作
Impala
低レイテンシSQL
HBase
リアルタイムDB
Hue
操作GUI
Mahout
機械学習
Sqoop
RDBとの連携
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 17. Data Science & Infrastructure Technologies, Systems R&D Center
分類 実装アルゴリズム
※掲載アルゴリズムは一部
活用例
※マーケティングの例
判別分析 Random Forest
Naïve Bayes
Logistic Regression *
Hidden Markov Models *
Multilayer Perceptron *
顧客の行動履歴を基に、退
会するか否かを予測し、施
策を打つ
クラスタリング Canopy Clustering
K-Means
Spectral Clustering
顧客を予めグループ分類し、
施策対象を重要顧客に絞り
込む
レコメンド User-Based Collaborative Filtering
Item-Based Collaborative Filtering
別の顧客行動を基に、顧客
が興味を持ちやすい商品を
提示する
その他 SVD
Lanczos Algorithm
LDA
顧客を特徴づける要因を集
約する、など
Mahoutで実装されているアルゴリズム
17
* MapReduce非対応アルゴリズム
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 18. Data Science & Infrastructure Technologies, Systems R&D Center
データ種別
MRI
核磁気共鳴現象を利用した検査法。
脳の構造・形態を見ることができる。
PET
陽電子検出を利用した検査法。
脳の代謝量や血流量などの生体の機能を見ることができる。
18
本ページの画像は以下より引用)
Chris Hinrichs et al., “Predictive Markers for AD in
a Multi-Modality Framework: An Analysis of MCI
Progression in the ADNI Population,” 2010.
MRIとPETでは異なる
特性が検出できる
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 19. Data Science & Infrastructure Technologies, Systems R&D Center
データ対象者
健常者、AD患者それぞれ30人分のデータを利用
19
健常者MRI 健常者PET
AD患者MRI AD患者PET
利用データ
×健常者30人
×AD患者30人
本ページの画像は以下より引用)
Chris Hinrichs et al., “Predictive Markers for AD in
a Multi-Modality Framework: An Analysis of MCI
Progression in the ADNI Population,” 2010.
利用データは近畿大学・石井一成教授より受領
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 20. Data Science & Infrastructure Technologies, Systems R&D Center
前処理の流れ
20
Matlabで実行
正規化
標準脳にフィッティングさせ、
脳の個体差をなくす
平滑化
半値幅8mmのガウシアン
フィルタでスムージング
MRIデータ
PETデータ
加工済
MRIデータ
加工済
PETデータ
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 21. Data Science & Infrastructure Technologies, Systems R&D Center
機械学習の流れ
21
Mahout
で実行
モデル化
評価
加工済
MRIデータ
加工済
PETデータ
判別結果
モデル
複数モダリティの機械学習
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 22. Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティを用いたAD判別手法
22
複数モダリティを利用した様々なAD判別手法が提案され
ている。
論文 モダリティ 手法 精度
Hinrichs et al.,
2010
MRI, PET, CSF, APOE,
cognitive scores
Multi-Kernel SVM 92.4
Zhang et al.,
2011
MRI, PET, CSF Multi-Kernel SVM 93.2
Gray et al., 2012 MRI, PET, CSF, APOE 次元縮約
+ Random Forest
89.0
本研究ではRandom Forest(RF)を利用する。
次元縮約によって
情報量が落ちている
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 23. Data Science & Infrastructure Technologies, Systems R&D Center
なぜRandom Forestを使うか
23
理由1:一般に、RFは精度が高い。
横断的なアルゴリズムの性能比較により、平均的にRFが
最もよいことが分かっている。(Caruana et al., 2008)
理由2:RFは分散処理可能で、処理時間を短縮できる。
医療データは今後データ量が増大していくことが予想される。
MahoutにRFが実装されており、分散処理される。
比較アルゴリズム ANN, Logistic Regression, Naïve Bayes, KNN,
SVM, Boosting, Random Forest, Bagged
Decision Trees, Perceptron
使用データセット Sturn, Calam, Digits, Tis, Cryst, KDD98, R-S,
Cite, Dse, Spam, Imdb
精度指標 精度, AUC, 二乗誤差
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 24. Data Science & Infrastructure Technologies, Systems R&D Center
多数の決定木を構築する手法
個々の決定木にランダム性を組込み、高い汎化性能を実現
Random Forestとは
特徴量D>1
特徴量K>10
特徴量T<5
○ × ○ ×
決定木Random Forest
○:AD患者
×:健常者
24
ノード
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 25. Data Science & Infrastructure Technologies, Systems R&D Center
MahoutのRandom Forest
25
Map
…
モ
デ
ル
(
RandomForest
)
…
ト
レ
ー
ニ
ン
グ
デ
ー
タ
データを
分割配布
Map
復元抽出
決定木作成
パラメータ1
データ分割数
パラメータ2
決定木の本数
※Partialモードでの動作
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 26. Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティのRF(Grayらの手法)
MRI
subject1
subject2
…
feature1
feature2 PETMRI+PET
+結合
Reduced
MRI
Reduced
PET
+
Reduced
MRI+PET
精度=86.2
結合
精度=89.0
次元縮約
[Gray et al., 2012]
[Gray et al., 2012]
RF
RF
26
※ここで精度はAccuracyを指す。
データ結合
モデル
縮約データ
結合モデル
精度=81.6 精度=86.0
[Gray et al., 2012] [Gray et al., 2012]
RF RF
MRIモデル PETモデル
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 27. Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティのRF(今回検証する手法)
MRI
subject1
subject2
…
feature1
feature2 PETMRI+PET
+結合
RF
RF RF
27
MRIモデル PETモデル
データ結合
モデル
+ 合成
モデル合成
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
検証① 検証②
検証③
検証④
- 29. Data Science & Infrastructure Technologies, Systems R&D Center
当社の検証環境(NSCCC)を利用。
Hadoop上でMahoutを利用。
環境
Hardware 構成
Server IBM BladeCenter HS21
Slave 13nodes
OS RHEL 6.5 (64bit)
CPU Intel Xeon CPU 5130 2.0GHz x4cores x2
Mem 8GB
HDD 36GB x13
Master Slave
Sofware バージョン
Hadoop cdh-4.5.0
Mahout mahout-0.7
R R-3.0.2
29
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 30. Data Science & Infrastructure Technologies, Systems R&D Center
本研究では、(AD患者,健常者)×(陽性,陰性)の人数をa,b,c,dとして、
以下のような既存研究同様の精度指標を用いる。
精度指標
30
陽性 陰性
AD患者 a b
健常者 c d
指標 定義 意味
Accuracy
正確度
Acc = (a+d)/(a+b+c+d) 正解率
Basic Accuracy
基本正確度
Bacc = (Sens+Spec)/2 感度と特異度の平均
Sensitivity
感度
Sens = a/(a+b) 実際の患者のうち、どの
程度陽性と判定できたか
Specificity
特異度
Spec = d/(c+d) 健常者のうち、どの程度
陰性と判定できたか
※指標はCross Validationで計算する。
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 31. Data Science & Infrastructure Technologies, Systems R&D Center
再掲:検証の全体像
31
MRI
subject1
subject2
…
feature1
feature2 PET
検証① 検証②
MRI+PET
+結合
検証③
RF
RF RF
MRIモデル PETモデル
データ結合
モデル
+ 合成
検証④
モデル合成
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 32. Data Science & Infrastructure Technologies, Systems R&D Center
検証①:MRIモデルのAD判別
70.0
75.0
80.0
85.0
90.0
95.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.0
75.0
80.0
85.0
90.0
95.0
100.0
1 2 3 4 5
精度(%)
データ分割数
Acc
Bacc
Sens
Spec
※データ分割数は3で固定
※決定木の本数は2000で固定
32
Acc=80.8%
データ分割数
はあまり影響
しない
決定木200本以
上で精度が安定
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 33. Data Science & Infrastructure Technologies, Systems R&D Center
検証②:PETモデルのAD判別
70.0
75.0
80.0
85.0
90.0
95.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.0
75.0
80.0
85.0
90.0
95.0
100.0
1 2 3 4 5
精度(%)
データ分割数
Acc
Bacc
Sens
Spec
33
※データ分割数は3で固定
※決定木の本数は2000で固定
Acc=86.7%
決定木200本以
上で精度が安定
データ分割数
は少ないほう
が若干よい
MRIよりも精度が高い
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 34. Data Science & Infrastructure Technologies, Systems R&D Center
検証③:MRI,PETデータ結合モデルのAD判別
34
70.0
75.0
80.0
85.0
90.0
95.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.0
75.0
80.0
85.0
90.0
95.0
100.0
1 2 3 4 5
精度(%)
データ分割数
Acc
Bacc
Sens
Spec
決定木200本以
上で精度が安定
Acc=90.8%
※データ分割数は3で固定
※決定木の本数は2000で固定
データ分割数
はあまり影響
しない
MRI,PET単体よりも精度が高い
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 35. Data Science & Infrastructure Technologies, Systems R&D Center
検証④:MRI,PETモデル合成のAD判別
70.0
75.0
80.0
85.0
90.0
95.0
100.0
0.0:1.0
0.1:0.9
0.2:0.8
0.3:0.7
0.4:0.6
0.5:0.5
0.6:0.4
0.7:0.3
0.8:0.2
0.9:0.1
1.0:0.0
精度(%)
決定木の本数のPET:MRI比率
Acc
Bacc
Sens
Spec
※MRI, PETともに以下の
パラメータでモデル化
・決定木の本数:2000
・データ分割数:1
35
Acc=91.7%
MRIとPETのモデル合成により
精度が向上する
MRI
PET
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 36. Data Science & Infrastructure Technologies, Systems R&D Center
81.6
86 86.2
89
81.8
86 87.1
89
79.8
86.8 85.1
87.9
83.8 85.1 86.1
90
75
80
85
90
95
100
Acc
Bacc
Sens
Spec
複数のモダリティを利用することで精度が向上した。
モデル合成は複数モダリティの機械学習に有効である。
検証結果
[参考]Gray et al., 2012の結果
本検証
36
80.8
86.7
90.8 91.7
82.1
87.5
91.5 92.2
85
90
93.3 95
79.2
85.1
89.7 89.3
75
80
85
90
95
100
Acc
Bacc
Sens
Spec
①MRI ②PET
③MRI+PET
(データ結合)
④MRI+PET
(モデル合成)
MRI PET
MRI+PET
(データ結合)
MRI+PET
(縮約+データ結合)
精度精度
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 37. Data Science & Infrastructure Technologies, Systems R&D Center
分析ツールとしてのMahoutの可能性
37
• 大量データ・多変量データのモデリングができる
• モデルを組み合わせることで高精度化を実現できる
メリット
• JavaやHadoopの知識が必要
• アドホックな分析は不得意
デメリット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
• 現時点ではRやRDBを併用することでカバー
• 今後のSpark Bindingに期待
- 38. Data Science & Infrastructure Technologies, Systems R&D Center
RFによる特徴部位の抽出
RFモデルにおいて、上位ノードに頻出する特徴量は、
判別におけるAD特徴部位と解釈できる。
38
→ が重要な特徴量であると解釈できる。
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 39. Data Science & Infrastructure Technologies, Systems R&D Center
MRIデータにおけるAD特徴部位
上から見た図
海馬
39
左から見た図
ADによる構造的変化が海馬周辺に現れている。
決定木に多く
現れる部位
決定木にほとんど
現れない部位
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 40. Data Science & Infrastructure Technologies, Systems R&D Center
PETデータにおけるAD特徴部位
内包
後部帯状回
40
ADによる代謝量変化が後部帯状回に現れている。
上から見た図左から見た図
決定木に多く
現れる部位
決定木にほとんど
現れない部位
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 41. Data Science & Infrastructure Technologies, Systems R&D Center
まとめ
Mahoutを用いてAD判別を実施した。
複数のモダリティを合成することで精度が向上した。
モデルから得られた特徴部位は医学的知見と合致した。
今後の展望
軽度認知障害、プレクリニカルAD
の判別に本手法を適用する。
他のモダリティを追加し、
精度向上を図る。
脳脊髄液(CSF)成分の追加
遺伝子情報の追加
超早期診断支援のシステム化
まとめと今後の展望
41
引用)超早期アルツハイマー病の指標
づくりを目指す臨床研究 J-ADNI2
http://www.j-adni2.org/guide.html
今後のターゲット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
- 42. Data Science & Infrastructure Technologies, Systems R&D Center 42
NS(ロゴ), NSSOL, NS Solutions, その他弊社サービスは、
新日鉄住金ソリューションズ株式会社の登録商標です。
その他本文記載の会社名及び製品名は、
それぞれ各社の商標または登録商標です。
ご清聴、ありがとうございました。
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.