機械学習研究の現状とこれから

2018年5月17日
機械学習研究の
現状とこれから
機械学習研究の
現状とこれから
理化学研究所革新知能統合研究センター
東京大学大学院新領域創成科学研究科
杉山将
日本ソフトウェア科学会機械学習工学研究会

2
自己紹介
現職：
 理化学研究所・センター長：研究者とともに
 東京大学・教授：学生とともに
 企業・技術顧問：エンジニアとともに
専門分野：
 機械学習の理論・アルゴリズム開発
 機械学習の実世界応用
（音声，画像，言語，脳波，ロボット，
自動車，光学，広告，医療，生命など）

機械学習の国際会議の動向
 参加者数が激増：
 ICML: International Conference on Machine Learning
 NIPS: Neural Information Processing Systems
 企業のスポンサーも非常に活発：
 00年代前半：アメリカのIT企業(Google, IBM, Yahoo, Microsoft...)
 00年代後半：世界中のIT企業 (Amazon, Facebook, Linkedin,
Tencent, Baidu, Huawei, Yandex…)
 10年代：製造・金融など様々な業種のスタートアップ～大企業
3
2013 2014 2015 2016 2017
ICML 900 1200 1600 3000+ 2400 (Sydney)
NIPS 1200 2400 3800 6000+ 7500+ (California)

ICML2016の採択論文の分布 4
アメリカ
企業
.com
フランス
イギリス
イスラエル
スイス日本（１０件≒３％）
ドイツカナダ
• アメリカ一強
（多数の中・韓・印・欧を含む）
• 日本人は非常に少ない
• 中国が猛烈な勢いで追い上げ

機械学習研究の現状と課題
現状の機械学習によって，
 音声認識，画像理解，言語翻訳
などはヒトと同等以上の性能を達成
しかし，更なる飛躍には課題がある：
 機械学習技術の研究開発に多大なコスト：
世界中の企業が研究者・技術者を青田買い
 ビッグデータの収集に多大なコスト：
ネットからビッグデータが取れない問題は，
現状の機械学習技術では精度が悪い
 様々な規制がネック：
個人情報保護，倫理規定・・・
5

講演の流れ
1. 機械学習技術の研究開発に多大なコスト
2. ビッグデータの収集に多大なコスト
3. まとめと今後の展望
6

7
最も汎用的なアプローチ
機械学習には様々なタスクがある
データを生成する規則（確率分布）を推定すれば，
あらゆる機械学習タスクが解決できる！
 例：各クラスのデータの
生成分布がわかれば，
パターン認識ができる
生成的アプローチとよばれる
決定境界
クラス+1 クラス-1
データの生成
規則を知る
データの
全てを知る

各タスクに特化したアプローチ
しかし，確率分布の推定は困難であるため，
生成モデル推定に基づくアプローチによって，
必ずしも高い学習精度が得られるとは限らない
確率分布の推定を行わず，各タスクを直接解く
 例：サポートベクトルマシンでは，
各クラスのデータ生成分布
を推定せず，パターン認識に
必要な決定境界のみを学習
 パターン認識に対しては，
識別的アプローチとよばれる
8
クラス+1 クラス-1
決定境界

各タスクに特化したアプローチ
各タスクに特化したアルゴリズムを
開発した方が，原理的には
生成的アプローチよりも性能が良い
しかし，様々なタスクに対して個別に
研究開発を行うのは大変：
 アルゴリズム考案
 理論的性能評価
 高速かつメモリ効率の良い実装
 エンジニアの技術習得
9

中間的なアプローチ
あるクラスのタスク群に対して，研究開発を行う
 汎用性と有効性のトレードオフを取る
10
生成的アプローチ中間アプローチタスク特化アプローチ

11
確率密度比に基づく機械学習
多くの機械学習タスク群は
複数の確率分布を含む
しかし，これらのタスクを解くのに，それぞれ
の確率分布そのものは必要ない
確率密度関数の比が分かれば十分である
各確率分布は推定せず，
密度比を直接推定する
r(x) =
p(x)
q(x)
非定常環境下での適応学習，ドメイン適応，
マルチタスク学習，二標本検定，異常値検出，
変化点検知，クラスバランス推定，相互情報
量推定，独立性検定，特徴選択，十分次元削
減，独立成分分析，因果推論，クラスタリング，
オブジェクト適合，条件付き確率推定，確率的
パターン認識
Sugiyama, Suzuki & Kanamori,
Density Ratio Estimation
in Machine Learning,
Cambridge University Press, 2012

12
最小二乗密度比適合
データ：，
真の密度比との二乗誤差を最小にする
ように密度比モデルを学習：
Kanamori, Hido & Sugiyama (JMLR2009)
r(x)
min
®
J(®)
J(®) =
1
2
r®(x) ¡ r(x)
2
q(x)dx r(x) =
p(x)
q(x)
fxq
j g
nq
j=1
i:i:d:
» q(x)fxp
i g
np
i=1
i:i:d:
» p(x)

ここまでのまとめ
密度比は，単純な最小二乗法で最適推定できる
多くの学習タスクが実は最小二乗法で解ける：
 重点サンプリング：
 ダイバージェンス推定：
 相互情報量推定：
 条件付き確率推定：
各機械学習タスクを直接解くのではなく，抽象化
したタスクの集合に対する解法を開発する
13

講演の流れ
1. 機械学習技術の研究開発に多大なコスト：
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト：
限られた情報からの機械学習
14

ビッグデータを用いた機械学習
画像認識，音声認識，機械翻訳などで，
人間と同等かそれ以上の性能を達成
しかし，応用分野によっては，
教師付きビッグデータを簡単に取れない
 医療データ解析
 インフラの管理
 自然災害の防災・減災
 機能材料の開発
限られた情報からの学習が重要！
15

２クラスの教師付き分類
大量のラベル付きデータを用いれば，
精度良く分類境界が学習できる
ラベル付きデータ数に対して，分離境界
の推定誤差はの速さで減っていく
16
正
負
分離境界

教師なし分類 17
ラベル付きデータの収集にはコストがかかるため，
容易に入手できるラベルなしデータを用いる
教師なし分類はただのクラスタリングに過ぎない
データがクラス毎にクラスタに分かれていないと，
正しく分類できない

半教師付き分類
大量のラベルなしデータに加えて，
少量のラベル付きデータを利用
結局，教師なし分類と同じくクラスタリングする
データがクラス毎にクラスタに分かれていないと，
正しく分類できない
18
正
負
ラベルなし

分類問題の分類 19
高精度でラベル付コストの低い分類手法
が重要！
ラベルあり
（教師付き学習）
ラベルなし
（教師なし学習）
ラベルありとなし
（半教師付き学習）
ラ
ベ
ル
付
け
コ
ス
ト
高
低学習の精度
高
高低
高精度
＆
低ラベル付コスト

新手法１：正例とラベルなし
データからの分類
20
負例が全くなくても，正例とラベルなしデータ
だけから，最適な分類ができる
例：
 クリック vs. 非クリック
 友達 vs. 非友達
正
ラベルなし
（正と負の混合）
du Plessis, Niu & Sugiyama (NIPS2014, ICML2015)
Niu, du Plessis, Sakai, Ma & Sugiyama (NIPS2016)
Kiryo, du Plessis, Niu & Sugiyama (NIPS2017)

新手法２：半教師付き分類 21
「正例とラベルなしデータからの分類」は最適
それに「正例と負例からの分類」を組み合わせ
ても最適
正
負
ラベルなし
Sakai, du Plessis, Niu & Sugiyama (ICML2017)
Sakai, Niu & Sugiyama (MLJ2018)

新手法３：正信頼度からの分類
正クラスのデータしか取れない：
 他社のデータは取れず自社のデータしか取れない
 成功例は入手できても失敗例は入手できない
信頼度さえ分かれば，
最適な分類ができる
22
Ishida, Niu & Sugiyama (arXiv2017)
正信頼度
95%
70%
5%
20%

新手法４：類似データ対からの分類
類似データ対：
 同じクラスに属する標本対
 しかしクラスはわからない
財産，宗教，政治など，デリケートな質問に対して，
 明示的に趣向を回答するのははばかられる
 「あの人と同じ」であれば回答しやすい！
類似データ対と
ラベルなしデータだけから
最適な分類ができる
23
Bao, Niu & Sugiyama (ICML2018)

新手法５：教師なし分類 24
クラスタ構造がない場合でも，クラス比の異なる
ラベルなしデータが２セットあれば，教師付き
学習と同じ収束率を達成可能
クラス比
=3:7
クラス比
=7:3
du Plessis, Niu & Sugiyama (TAAI2013)

新手法６：補ラベルからの分類
多クラスの訓練データのラベル付けは高コスト
 多数の候補クラスから正しいものを選ぶ必要がある
補ラベル：
 パターンが属さないクラスの
ラベル（補ラベル）を与える
 補ラベルをつけるのは低コスト
「間違ったラベル」だけから，
最適な分類ができる！
25
Ishida, Niu & Sugiyama (NIPS2017)
クラス 1
クラス 2
決定
境界クラス 3

弱教師付き学習のまとめ
低ラベル付けコストで
高精度な機械学習
手法が有用！
26
UU, PU, PNU, SU,
Pconf, Comp…
あらゆるデータを
有効活用！
ラベルあり
（教師付き学習）
ラベルなし
（教師なし学習）
ラベルありとなし
（半教師付き学習）
高
低学習の精度
高
高低
Sugiyama, Sakai, Ishida & Niu
Machine Learning
from Weak Supervision,
MIT Press, in preparation.
ラ
ベ
ル
付
け
コ
ス
ト

流行りの深層学習との関係は？
深層学習＝深層モデルを使った機械学習
学習法の研究はモデルの研究と直交！
27
線形カーネル深層 …
モデル
加法
教師付き学習
教師なし学習
…
強化学習
学習法
新しい学習法を作れば，
最新の深層モデルと組合せ可！

講演の流れ
1. 機械学習技術の研究開発に多大なコスト：
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト：
限られた情報からの機械学習
28

今後の展望
 人工知能（過去）：
 １次ブーム（１９６０年頃）：
記号処理，論理推論
 ２次ブーム（１９８０年頃）：
エキスパートシステム
 ニューラルネット（過去）：
 １次ブーム（１９６０年頃）：
パーセプトロン（１層）
 ２次ブーム（１９９０年頃）：
誤差逆伝播法（多層）
29
 機械学習（現在）：
 １９９５年頃～：統計・凸最適化
 １９９５年頃～：ベイズ推論
 ２０１０年頃～：深層学習
知能の要素技術を高度化
 汎用人工知能（将来）：
知能の要素技術を統合

機械学習研究の現状とこれから

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 機械学習研究の現状とこれから

Semelhante a 機械学習研究の現状とこれから (20)

Mais de MLSE

Mais de MLSE (9)

機械学習研究の現状とこれから