Lecture univ.tokyo 2017_okanohara

実世界の人工知能
自動運転、ロボット
ライフサイエンス、アートクリエーション
Preferred Networks
岡野原大輔
hillbig@preferred.jp
2017/06/21 東京大学先端技術特別講義

会社紹介：Preferred Networks, Inc. (PFN)
 設立：2014年3月
 所在地：東京都千代田区大手町（日本）、カリフォルニア州サンマテオ（米国）
 取締役：西川徹、岡野原大輔、長谷川順一
 出資者：NTT（2014年）、Fanuc（2015年）、Toyota（2015年）
 従業員：約90人殆どが研究者、エンジニア
 ミッション：
IoT時代に向けた分散知能を備える新しいコンピュータを創造する
 事業内容: IoT（Internet of Things） + 分散機械学習
⁃ 交通システム
⁃ 産業用ロボット
⁃ バイオヘルスケア
2
We are hiring!!

Preferred Networks’ positioning in AI: Industrial IoT
Humanoid Robot
Consumer Industrial
Cloud
Device
PhotoGameText
Speech
Infrastructure
Factory Robot
Automotive
Healthcare
Smart City
Industry4.0
Industrial IoT

Our Strategic Partners and Collaborators

5
人工知能の話しの前に
人工知能と飛行機（1/3）
 飛行機は鳥や虫とは違う仕組みで実現されているが、
「空を飛ぶ」という目的は達成している
⁃ 鳥の羽、胸筋のような高機能なハードウェアはまだ作れない
⁃ しかし、別の機構（プロペラ、ジェットエンジン）
を使って鳥よりも速く遠くへ飛ぶことが可能
⁃ 実現可能な機能、またその難易度は違う。例えば、
ハチドリのように自由自在に飛び回ることはできない
 人工知能も人の知能とは違う仕組みで実現されているが
「知能」的なタスクを実現する目的は達成しつつある
⁃ 必ずしも人の知能レベルを全て実現しなくても役に立つ
⁃ 難易度が違うことを理解しなければいけない

6
人工知能と飛行機（2/3）
 今の人工知能は大雑把に言えば大人の知能と乳児の知能
で構成される
⁃ 機械は元々、記憶、数値計算、大量のシミュレーションといった能力は優
れている（大人の知能）
⁃ 一方、深層学習により人間が無意識で解き、（演繹的なアプローチで実現
が難しかった）タスクも2〜3歳児程度は実現されるようになった（乳児の
知能）
⁃ 大人の知能と乳児の知能が混載している
 実現している仕組みが違うため、人にとって難しい問題を容易に
解き、易しい問題を逆に解くことができない
⁃ これを理解した上で実用化をしないといけない

7
人工知能と飛行機（3/3)
 飛行機は現在の飛行機の登場（ライト兄弟 1903年）から
約10年で定期旅客機が登場し、航空機業界が誕生した
⁃ 現在年間のべ25億人が搭乗し、鳥と同様に空を飛び回っている
⁃ 鳥のように飛ぶロボットもようやく登場しつつある
 人工知能も同様に、今後数年で新しい分野を生み出し、
人間の可能性を大きく伸ばしていくことが期待される
⁃ 実用化（＝一般の人が当たり前のように利用する）までの時間は短くなっ
ている
⁃ 人の知能の解明にはもう少し時間はかかりそう

9
代表的な学習手法
 教師あり学習
⁃ 入力xから出力yへの写像 y=f(x)を獲得する
⁃ 学習データは正解のペア{(x, y)}
 教師なし学習
⁃ データの隠れた構造を獲得する
⁃ 学習データはデータの集合{(xi)}
 強化学習
⁃ 環境において将来期待報酬を最大化する行動を獲得する
⁃ 学習データは自分がとった状態とその時の報酬{(x, ri)} [Doya 99]

ディープラーニング（深層学習）とは
 層が深く、幅も広いニューラルネットワーク
を利用した機械学習手法
 2012年の大ブレーク以来、研究コミュニティ
のみならず産業界に多く使われてきた
 画像認識、音声認識、強化学習、自然言語処理
などで劇的な精度向上を果たし、その多くが既に実用化
されている
10
2014年の一般画像認識コンテストで優勝した
22層からなるのGoogLeNetの例 [Google 2014]
*http://memkite.com/deep-learning-bibliography/

ディープラーニングの基本計算
11
 下層の入力xを重み付きで足しあわせた後に活性化関数hをかけ
て出力
– Wiがモデルパラメータであり、重みと呼ばれる
x1
x2
x3
+1
w1
w2
w3
w4
h = a(x1w1+x2w2+x3w3+w4)
h
aの例 ReLU: h(x) = max(0, x)
a : 活性化関数
バイアス項活性化関数には、ReLUなど勾配消失問題を
回避できる区分線形関数が多く使われる

ディープラーニングの基本計算
12
 先ほどの基本計算を何層にも繰り返して出力yを求める
x1
x2
x3
+1
+
1
+
1
y
深いレイヤーはパーツを組み合わせた
総合的かつ抽象的な情報

例: 入力でみると、各層毎に入力が変形されていく
13
https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/

ディープラーニングの学習 (1/4)
 正解ラベルとの違いからエラーlを求める
⁃ 例：回帰：l(y, y*)= (y – y*)2
 目標：Iが小さくなるように各パラメータ{wi}を調整する
 問題：各重みをどのように調整すればよいか？ → 誤差逆伝播法
x1
x2
x3
+1
+1 +1 正解の出力
ly
y*

15
歯車の例（誤差逆伝播法を理解するため）
 問: Aを1回転させるとDは何回転するか？
 Cを1回転させるとDは16/12回転
⁃ これを dD / dC = 16/12 と書く(Cをd動かすとDは16/12d動く）
 Bを1回転させると，dC / dB = 8/16のため，dD/dB =(16/12)(8/16)=8/12
 dD/dA = (dD/dC)*(dC/dB)*(dB/dA) =10/12 答え: 10/12回転
A
B C
歯の数が10
8
16
D
12

ディープラーニングの学習 (3/4) 誤差逆伝播法
 出力からエラーの勾配をデータの流れとは逆に流す
– 出力を変えたら、最終目標lがどのように変わるか
– 各パラメータについての勾配を正確に求められる
x1
x2
x3
+1
r s
ly
y*
yを動かしたら
lがどのように
変わるのか
sを動かしたら
lがどのように変
わるのか
wを動かしたら
lがどのように変
わるのか
w
=r

17
確率的勾配降下法
 目的関数L(θ)のθについての勾配 v = ∂L(θ)/∂θ
は誤差逆伝播法で効率的に求められる
⁃ Lはタスクを間違えた時に正の値、正しい時0をとる関数
⁃ -vはL(θ)を最も急激に小さくできる方向
 データ毎に θt+1 := θt – αvt と更新
⁃ α>0 は学習率
⁃ 曲率などを考慮したAdamやRMSPropなどが使われる
パラメータ空間
目的関数の等高線
-αv1
θ
1
θ
2

18
誤差逆伝播法は強力
 誤差逆伝播法は最終的な目的関数の各パラメータや入力についての
勾配を正確に求められる
⁃ ある目的関数の値を変えるために各パラメータをどれだけ動かせばよいの
かが正確にわかる
 誤差逆伝播法は前向き計算と同じ計算量
⁃ パラメータ数に対して計算量は線形
 どれだけ複雑な計算グラフであっても計算できる
⁃ 1000層を超えても，ループがあっても、分岐があっても大丈夫
 確率層，つまり確率変数のサンプリングを含んでも誤差逆伝播法を
使って勾配を求められる⇒次章以降

なぜディープラーニングがうまくいくのか？
 解明されていない謎が徐々に解けつつある
 NNの最適化問題は非凸であり極小解にはまる
→大きなNNでは殆ど全ての極小解は最適解 [Nguyen+ 17]
 なぜDNNの汎化性能が高いか？パラメータ数が学習事例に対し多い
のに過学習しないのか
→SGDによる最適化はベイズ最適化に対応し良い汎化性能を持つ
[Hoffman+ 17]
SGDにより見つかる解はMDLに対応 [Hinton+ 93], [Hochreiter+ 97]
GDにより見つかる解は核型ノルムが最少 [Gunasekar+ 17]
 自然界にみられるデータが備える特徴とDNNのモデルが一致する
[Lin+ 16]
⁃ 低次性、局所相互作用性、対称性、マルコフ性
19/50

深層学習 = 表現学習、一貫学習（end-to-end学習）
 データをどのように表現するか（表現学習）
 全モジュールを誤差逆伝播法で一貫して学習
⁃ モジュール毎の局所最適化の問題がない
⁃ 信用割り当て問題（誰に間違った責任があるか）を自然に解く
20/50
特徴設計
ルール
・
プログラム
タスクの学習
ルールベース
浅い機械学習
（決定木、RF、SVM、
ロジスティク回帰など）
深層学習
タスクの学習
表現学習
（特徴設計）
人手データから自動獲得
一貫学習

深層学習の特徴
マルチモーダル、マルチタスク学習が容易に
 マルチモーダル*
˗ 異なる種類の入力を統合
˗ 統合の仕方はNNが学習する
 マルチタスク
˗ 異なるタスクを一緒に扱う
˗ 共通する特徴を学習できる
画像テキストゲノム入力データ
タスクA B C
*注：データで全モーダルが揃っている必要はない c.f. DropOut

急激に複雑化するニューラルネットワーク
2012年〜2014年
22
AlexNet, Kryzyevsky+, 2012 ImageNet winner（8層）
GoogLeNet, Szegedy+, 2014

形は可変、多様な計算手法、つながり方
2015年〜現在
x_1 h y_1
x_2 h y_2
x_3 h y_3
t=1
t=2
t=3
x_4 h y_4t=4
BPTT length = 3
Input word OutputRecurrent state
Stochastic Residual Net, Huang+, 2016
Recurrent NN
FractalNet, Larsson+, 2016
RoR, Zhang+, 2016 23
Dense CNN, Huang+, 2016

26
認識の問題は解けつつある
 Occlusionがある場合や、対象が
小さくても検出できるように
 APCでも画像認識が重要だった

28
異常検知の難しさ：単一手法で様々な種類の正常状態と
異なるタイプの異常パターンに対応するのが困難
 基本：特定の異常を見つけるために手法の選択や設定が必要
⁃ 注目する特徴量
⁃ センサー値の大小、周波数成分の大小、分布
 人でもセンサの意味を理解したり異常を定義するのは難しい
 疑問：もっと汎用的に使える異常検知手法はないか？
⁃ 例：下記異常を全て検出し、右の正常ケースでは無反応
正常ケース(2)
異常を含むケース(3)
numenta/NABの人工ベンチマーク時系列データセット
スパイク
異常振動
立ち上がり
失敗

提案異常検知手法の特徴
 正常なデータのみから異常検知モデルを作れる
⁃ 故障データは必要ない，教師なし学習
⁃ 異常を検知後、実際の故障が発生するタイミングを予測するには
故障データが必要
 生の高次元データをそのまま利用可能
⁃ 人間による特徴設計は必要ない．
特に周波数解析後のスペクトルや画像などが利用可能
 正規化された異常度スコア（尤度）を出力する
⁃ システムが正常だった場合に、そのセンサデータがどのぐらいの
確率で観測されるかを出力する
 複数センサを組み合わせた異常検知が可能
29

実例：FANUC減速器のセンサー異常検知
30
異常な部分を抽出する
ディープラーニング技術
異常は発見されない
異常を検出
正常時の波形異常時の波形
実際の減速機から得られた
センサデータ

31
既存手法で検出が遅かった異常を事前に検出
提案手法
経過時間
異常スコア
故障の約40日前に
故障予兆を捉える
判定閾値
既存手法
経過時間
ロボット
故障
ロボット
故障 15日前
故障直前まで
スコアがほぼ
反応しない

乳がん検査の精度
90%
99%
80%マンモグラフィー
リキッドバイオプシー
（血液中のmicroRNA）
[Shimomura+ Cancer Science 2016]
リキッドバイオプシー
+
Deep Learning
33

ディープラーニングmiRNA診断のさらなる可能性
 さらなるデータにより、１３種のがんを一挙に正確に予測
 良性、悪性のがんを見分ける
 がんのステージ予測
 miRNAはガンのみならず、様々な疾患を診断することが可能
アルツハイマー、心筋梗塞、脳卒中などの診断・予測
 血中miRNA分析により、治療方針の決定や最適治療薬の選定など個
別化医療の強力な手法になりうる
 がん向けの創薬につながる
⁃ どのmiRNAやその組み合わせの変化が、がんに影響を与えるか

「人工知能（AI）を活用した統合的がん医療システム開発プロ
ジェクト開始」2016/11/29
with 国立がん研究センター, 産総研AIセンター
臨床情報、マルチオミックスデータ、医用画像,、疫学データ
を利用しPrecision Medicineの実現を目指す
35

ゲノム解析によるガンの診断、治療にフォーカス
 なぜゲノム解析なのか
⁃ 客観的な情報で、データに基づく医療を実現できる
⁃ 情報量が多く、これまで見えなかった情報に基づいた診断ができる
特に、RNA解析，miRNA解析
 なぜガンなのか
⁃ もっともゲノム解析がインパクトを与える領域、ゲノム変異がガンの本質
であり、それを解析することで診断、治療を大きく改善できる
⁃ 最も、個人化医療が進む、個人事にガン特異的変異は異なる
また、ガン免疫の場合、個人毎にMHCも変わってくる
36

ディープラーニングによるガン診断の高度化
 ゲノム情報に基づくガン診断，及び分子標的薬の効果予測の高度化
⁃ ガンマーカー検出とフェーズの判定
⁃ 治療効果の予測と治療方法の提案
⁃ 従来の統計分析、機械学習では実現不可能だった少数サンプルからの推定
c.f. パラメータ数に対してサンプル数が少ない問題（新NP問題）
 ディープラーニングの利用によって見込まれる効果
⁃ ディープラーニングは、半教師あり学習が可能である。
→教師無しデータを使ってゲノム情報の表現を獲得する
⁃ ディープラーニングは、高次元データを扱える。
→非常に高次元なゲノム情報であっても、機械学習のための特徴設計が可
能である。
37

PFNがん研究所 (PCRI)
 東京大学産業連携プラザ内に設立
 PCRIでは、次世代シークエンサー
を利用したウェットラボを立ち上げ、最新
最先端のAIとバイオテクノロジーの
研究・産業化を進めている
特に次の分野に注力
１）新規がん診断法の確立
２）ゲノム分析によるがん治療
方針の決定、最適治療薬の
選択や術後の予測、
３）それぞれの患者に適応した
個別化創薬
3
8
2016年10月3日設立

40
社内での対話システムの実験の様子
からの抜粋（bot-elikaが対話システム）
直前の言葉に反応できている
文の意味や文脈は理解できていない

41
偶然それらしい会話に
なることもある。

画像の自動生成
 Chainer-goph
https://github.com/mattya/chainer-gogh
 深層学習は
画像も生成できる
 左の画像からスタイル
だけを抽出し、ネコの
画像を生成
43

chainer-DCGAN 学習30分後
画像を0から生成するNN https://github.com/mattya/chainer-DCGAN
44

GANによる花の生成例
47

48
LSGANによる教会の生成例 [Mao+ 16]

49
GANによる生成例
http://mtyka.github.io/machine/learning/2017/06/06/highres-gan-faces.html

50
自然画像はまだ難しい
現在のVAEやGANは
1発で生成しているが
複数物体、前景/背景
が含まれる場合は困難か

51
PaintsChainer (#PaintsChainer)
 線画に着色する学習をしたNN
 U-Net+絵の拡大の学習
 1日あたり最初は20〜30万枚、現在でも2〜3万枚の線画
が着色されている http://free-illustrations.gatag.net/2014/01/10/220000.html

52
PaintsChainerの例（風景画像）
 @munashihciさんのtweetより引用

今後の展望
PFNの取り組みより

今後の競争は様々なところでおきる
0101011100011
学習データ計算リソース学習済みモデル
学習アルゴリズム
学習理論
実装（DNNフレームワーク）
55

0101011100011
学習理論
56

57
学習データをどのように集めるか
 重要で大量のデータをいかに集めるか
 ライフサイエンスの事例：Grail
⁃ Illumina発のスタートアップ、GoogleX, Illumina取締役の
Jeff HuberがCEO、アドバイザに各分野の重要人物
⁃ $900millionをシリーズBで調達し、がんの血液検査（Liquid Biopsy）によ
る早期発見を実現するために数十万人の患者のゲノムデータを集める
 技術を組み合せ工夫して、データの数を増やせるか？
⁃ 例えばiPS細胞+ゲノム編集+Single Cell+次世代シーケンサ
を使った疾病モデルの網羅解析
 時間解像度をどのようにあげられるか？
⁃ 現状多くのライフサイエンスデータはスナップショット

0101011100011
学習理論
58

59
今後の機械学習/深層学習が必要とする計算リソース
1E〜100E Flops
自動運転車１台あたり1日 1TB
10台〜1000台, 100日分の走行データの学習
バイオ・ヘルスケア
音声認識ロボット/ドローン
10P〜 Flops
1万人の5000時間分の音声データ
人工的に生成された10万時間の
音声データを基に学習 [Baidu 2015]
100P 〜 1E Flops
一人あたりゲノム解析で約10M個のSNPs
100万人で100PFlops、1億人で1EFlops
10P（画像) 〜 10E（映像） Flops
学習データ：1億枚の画像 10000クラス分類
数千ノードで6ヶ月 [Google 2015]
画像/
映像認識
1E〜100E Flops
1台あたり年間1TB
100万台〜1億台から得られた
データで学習する場合
自動運転
10PF 100EF100PF 1EF 10EF
P:Peta
E:Exa
F:Flops
機械学習、深層学習は学習データが大きいほど高精度になる
現在は人が生み出したデータが対象だが、今後は機械が生み出すデータが対象となる
各種推定値は1GBの学習データに対して1日で学習するためには
1TFlops必要だとして計算
学習を1日で終わらせるのに必要な計算リソース

PFNも独自の計算インフラを構築中
 現状の計算環境
⁃ 現在トータル2ペタflops程度（200GPU）
＠さくらインターネット高火力
⁃ 今年に10ペタflops（1000GPU）相当まで拡大する想定
⁃ 参考：京コンピュータ 10ペタ Flops（倍精度, 2012年）
Baidu Minwa 0.6ペタ Flops (2015年）
Googleは現在数万GPU（>100PF）を使っていると推定
 深層学習専用チップを開発中
⁃ 2019年頃にトータルで1エクサ DL opsを目指す
 クラウド環境か？自分で構築するか？
⁃ 現状GPU+分散計算はHPCに近くクラウド環境からは遠い
60

0101011100011
学習理論
61

Chainer as an open-source project
 https://github.com/pfnet/chainer
 101 contributors
 2,128 stars & 564 fork
 7,335 commits
 Active development & release
⁃ v1.0.0 (June 2015) to v1.20.1 (January 2017)
62
Original developer
Seiya Tokui

Define-by-Run
# 構築
x = Variable(‘x’)
y = Variable(‘y’)
z = x + 2 * y
# 評価
for xi, yi in data:
eval(z, (xi, yi))
# 構築と評価が同時
for xi, yi in data:
x = Variable(xi)
y = Variable(yi)
z = x + 2 * y
データを見ながら
違う処理をしてもよい
Define-and-Run Define-by-Run
64

Chainer v2.0.0
大幅なメモリ消費量削減、ユーザフィードバックを反映し
APIを整理
https://cupy.chainer.org
https://chainer.org
65

Chainerの追加パッケージ
分散深層学習・深層強化学習・コンピュータビジョン
ChainerMN: 分散深層学習用追加パッケージ
高いスケーラビリティ（128GPUで100倍の高速化）
ChainerRL: 深層強化学習ライブラリ
DQN, DDPG, A3C, ACER, NSQ, PCL, etc. OpenAI Gym サポート
ChainerCV: 画像認識アルゴリズム・データセットラッパーを提供
Faster R-CNN, Single Shot Multibox Detector (SSD), SegNet, etc.
MN
RL
CV
分散学習
強化学習
画像認識

67
ChainerMN マルチノード分散学習
Imagenetの学習が20日超から4.4時間に
ChainerMN
developer
Takuya Akiba

68
分散・高速化しても精度は変わらない

0101011100011
学習理論
69

半教師あり学習
VAT:仮想敵対事例学習[Miyato+ 16]
 現在の半教師あり学習の最高精度*
⁃ 大量の教師なしデータと少量の教師ありで学習
Takeru Miyato
* CIFAR-10, SVHNを含んだ実験結果は投稿準備中 70

教師なし学習 [Hu+ 17]
IMSAT:
VATにさらに情報量最大基準を組み合わせて
離散値への教師なし符号化を行う
現在の教師なしクラスタリング、Hash学習の
最高精度
2016夏 PFN Internでの成果
71

学習アルゴリズム、学習理論
 多くは論文としてコミュニティで共有されている
⁃ 1日10〜30本、年間数千本〜1万本、主にarXivで見つかる
⁃ インターンが様々な企業を渡り歩いて成果をあげてるのも特徴
 実用化は様々な分野で同時多発的に起きている
⁃ 実用化されている分野は技術、ノウハウの公開は限定的
⁃ 公開されている研究技術よりかなり先に進んでいる分野も多い
 論文にならないノウハウが急速に蓄積されている
⁃ 現状、深層学習では様々なノウハウが差別化になっている
例：GANの学習は非常に不安定
⁃ ハイパーパラメータ、モデル選択、学習手法、選択など
72

まとめ
 深層学習・強化学習の進化は著しい
⁃ 新しい理論、新しいアルゴリズム、新しいソフトウェア
⁃ 世界中で同時多発的に進化が起きている
 深層学習は様々な分野で利用されていく
⁃ 想像しなかったアプリケーションも増えている
⁃ 様々な分野で速く試行錯誤するのが大切
 研究と実用化とビジネス化が同時に起こっている
⁃ 実用レベルになってからビジネス化が速い（例 Amazon Alexa）
⁃ 研究の段階から実用化、ビジネス化のチームが付き添うのが重要
73

Lecture univ.tokyo 2017_okanohara

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Lecture univ.tokyo 2017_okanohara

Semelhante a Lecture univ.tokyo 2017_okanohara (20)

Mais de Preferred Networks

Mais de Preferred Networks (20)

Último

Último (11)

Lecture univ.tokyo 2017_okanohara