Mais conteúdo relacionado Semelhante a Ocha 20191204 (20) Mais de Atsushi Hashimoto (17) Ocha 201912043. この講演を通じての目標
• 目指すもの
• 画像処理を題材として,最新の機械学習の話題に触れる
• 限りなく応用よりの基礎理論部分をオムニバス形式で紹介.
• それらを通して,現状の機械学習にもまだまだ課題があることを知る
• 目指さないもの
• 厳密な数学的理解(ふわっとした概念的な理解はして欲しい)
• 他の資料なしでコーディングに落とせるほどの理解
• 希望すること
• わからないことは講義中に質問してくれた方が嬉しいです
(自分がわからないことは他の人もわからないはずです).
• 誰がやってもTop Conferenceに通せる可能性がある分野だと感じてもらえれば.
6. 回帰問題: 連続値を推定する機械学習の問題
• 右に示す多数の点との誤差が最小の直線を求めよ (-11.27,-25.11)
(-8.59,-20.64)
(-7.11,-21.28)
(-6.97,-17.50)
(-5.91,-13.84)
(-5.00,-12.50)
(-5.00,-6.58)
(-0.90,-4.39)
(-1.54,-3.45)
(-0.94,0.65)
(1.43,2.83)
(1.47,7.14)
(2.06,9.10)
(1.04,12.35)
(5.03,17.45)
(4.85,18.05)
(6.19,23.26)
(7.95,25.82)
(8.97,26.99)
(10.07,32.00)...
7. 回帰問題: 機械学習で連続値を推定する問題
• 右に示す多数の点との誤差が最小となる直線を求めよ (-11.27,-25.11)
(-8.59,-20.64)
(-7.11,-21.28)
(-6.97,-17.50)
(-5.91,-13.84)
(-5.00,-12.50)
(-5.00,-6.58)
(-0.90,-4.39)
(-1.54,-3.45)
(-0.94,0.65)
(1.43,2.83)
(1.47,7.14)
(2.06,9.10)
(1.04,12.35)
(5.03,17.45)
(4.85,18.05)
(6.19,23.26)
(7.95,25.82)
(8.97,26.99)
(10.07,32.00)...
y = 3x + 4
8. 先程の例での仮定: きれいな関数+ノイズ
(-11.27,-25.11)
(-8.59,-20.64)
(-7.11,-21.28)
(-6.97,-17.50)
(-5.91,-13.84)
(-5.00,-12.50)
(-5.00,-6.58)
(-0.90,-4.39)
(-1.54,-3.45)
(-0.94,0.65)
(1.43,2.83)
(1.47,7.14)
(2.06,9.10)
(1.04,12.35)
(5.03,17.45)
(4.85,18.05)
(6.19,23.26)
(7.95,25.82)
(8.97,26.99)
(10.07,32.00)
=
(-10.00,-26.00)
(-9.00,-23.00)
(-8.00,-20.00)
(-7.00,-17.00)
(-6.00,-14.00)
(-5.00,-11.00)
(-4.00,-8.00)
(-3.00,-5.00)
(-2.00,-2.00)
(-1.00,1.00)
(0.00,4.00)
(1.00,7.00)
(2.00,10.00)
(3.00,13.00)
(4.00,16.00)
(5.00,19.00)
(6.00,22.00)
(7.00,25.00)
(8.00,28.00)
(9.00,31.00)
+ n (~N(0,1))
ノイズを正規分布と仮定
x*x
15. 学術・産業的な盛り上がり.
• 今は第3次AIブームと呼ばれている.(下記年代はWikipediaより)
• 第1次: 1956-1974, 探索と推論
• 第2次: 1980-1987, ニューラルネットワークなど複雑な識別モデルの登場
• 第3次ブームと今までとの違い: 産業活用に大きく展開できた
• スマートスピーカー,物体認識による仕分け,自動運転,etc.
• 結果として,Top Levelの国際会議が急速に肥大化している.
• NeurIPS / CVPR / ACL / IJCAI ...
• 開発競争が激しすぎて半年で陳腐化する技術もざらにある.
• 技術開発から実応用までの期間が大幅に短縮されている
• Git, Docker, AWS...
16. CVPR2019参加レポートより抜粋
(情報処理学会誌2019年11月号)
CVPRとは
International Conference on Computer Vision and Pattern Recognition(CVPR)は,IEEE
Computer Society と Computer Vision Foundation が主催しているコン ピュータヒ
゙ジョンとパターン認識に関する国際会議であ る.今年の開催場所はロサン
ゼルス近郊のロングビー チで,2019 年 6 月 16 日から 20 日にかけて行わ
れた. その熱狂的な状況をどのように表現したら読者諸氏に お伝えできるだ
ろうか.たとえば,2019 年の Google Scholar Metrics に よ れ ば,CVPR の H5-
index は 現 在 240 であり,これは情報処理に関する国際会議の中で 1 位,科学
雑誌を含む全分野のランキングでも 10 位に位置している.参加者は 1 万人弱,
スポンサーは 284 社, 団体展示は 104 あり,企業などからの寄付金総額は約
3 億 3 千万円に上る.論文の投稿数は 5,160 本に達し, 採択されたのは 1,294 本,
すなわち,4,000 本弱は不採択という巨大かつ競争の激しい状況になっている.
26. なぜ深層学習が上手く動くのか?
• AlexNetは8層,パラメタ数は62M個
• 学習データ(ImageNet)は約1.2M枚
• over-parameterization(パラメタ数の方が学習データより多い)
• 実はなぜ上手く動くのか,厳密には未だ理論的証明がされていない
• 様々な特殊条件下で大域最適解に収束することなどが証明されている.
• 万能近似定理: ニューラルネットワークはどんな関数でも近似できる
• 宝くじ仮説(2018年3月): パラメタの初期値により作られた一部のルートが最適解
に収束できる(大量のパラメタにより宝くじを買い漁ったような状況)
• 日本語の解説スライド
• 仮説を裏付ける実験結果は得られている.枝刈りをしても精度が下がりにくいことは知られ
ていた→枝刈り後の小さなモデルに元の初期値を振り直して再学習しても精度下がらず.
28. 物体検出 (Object Detection)
• Faster R-CNN, SSD, Yolo v2などが2年ほどの間に立て続けに出現
• その後もRetinaNet, Yolo v3など.
• 問題としては,下記の3つのタスクからなる.
1. ある局所領域内に検出対象物体が存在するかどうかの2クラス識別
2. その物体を囲む矩形の座標の回帰問題
3. その矩形内の物体の種類の分類
Faster R-CNN, NIPS2015
31. Yet another hot-topic: GAN
画像はSpectral Normalization for Generative Adversarial Networks, ICLR2018 より
あるデータ集合(例えば写真
群)を表すデータ分布 pdata があ
るとする.
G ∘ U (−1,1)=
Gによってpdataと同じ形状
のデータ分布 qを得たい
種となる分布pz
(例: 一様分布)
ニューラルネット
34. GANの実用例(画像修復,超解像,Semantic Manipulation)
Beyond Human-level License Plate Super-
resolution with Progressive Vehicle Search and
Domain Priori GAN, ACMMM2017
実際の入力は同じような解像度の複数枚の画像
Generative Image Inpainting with
Contextual Attention, CVPR2018 High-Resolution Image Synthesis and
Semantic Manipulation with
Conditional GANs, CVPR2018
38. 顔認識技術が全く動作しないトラブル
引用元: MIT Tech Review, Niall Firth, 2019/4/10
https://www.technologyreview.jp/nl/new-yorks-mass-face-recognition-trial-on-drivers-has-been-a-spectacular-failure/
41. 特徴量の制御: 公平性/ドメイン不変性
• ネットワークにより抽出する特徴量 z に対して,以下の2つを同
時に満たすように学習を行う
1. ある目的変数 y の予測性能を最大化する
2. バイアス説明変数 s に対する依存性を最小化する
→これはつまりmin-max 最適化問題に落ちる??
• バイアス説明変数 s の例
• 公平性: 性別,人種,収入, etc.
• ドメイン不変性: 観測環境,観測条件 etc.
42. Adversarial Discriminative Domain Adaptation
(CVPR2017) 識別器
Discriminator
特徴抽出器
学習データX1 (s=1)
学習データX2 (s=2)
x z
𝑦
𝑠
敵対的学習部分
予測性能を最大化
Dは 𝑠の予測性能最大化
Eは 𝑠の予測性能最小化
D
E
敵対学習を特徴量からの「情報の引き算」に使う手法
44. 動画からの密なキャプション生成
• Dense Captioning (CVPR2016)
• 静止画からの密なキャプション生成
(物体検出+キャプション生成)
• 膨大なデータセットの作成
(Visual Genom)
https://visualgenome.org/
• Dense Captioning Events in Videos (ICCV2017)
• 動画の部分時系列に対するキャプション
(次頁動画で紹介)
DenseCap: Fully Convolutional Localization
Networks for Dense Captioning, CVPR2016
47. 視聴覚融合: 「音」と「音源」の関係を学習
• 動画: 映像と音声が時間的に同期している
• 時間的な同期を教師情報とする,一種の自己教示学習
• 視覚・言語融合と違って,データセットの構築は比較的容易.
• 顔と声,楽器と音質など.
• Seeing voices and Hearing Faces: Cross-modal biometric matching , CVPR2018
https://www.robots.ox.ac.uk/~vgg/research/CMBiometrics/
• The sounds of pixel, ICASSP2019, http://sound-of-pixels.csail.mit.edu/
51. データ操作→操作内容推定に基づく自己教示学習
• 時空間的な組み換えによるもの
• Jigsaw, Jigsaw++,...: 組み換えを元に戻す操作を推定
• Shuffle and learn (右図), ...
• 与えられた系列が時系列順か否かを推定
• 他にも,色付けや回転角度推定など...
網羅的なサーベイ: https://github.com/jason718/awesome-self-supervised-learning
Unsupervised Learning of Visual Representations by Solving
Jigsaw Puzzles, ECCV2016
Shuffle and Learn: Unsupervised Learning using Temporal Order Verification, ECCV2016
53. 情報理論的なアプローチによる自己教示学習
• 入力画像 x と特徴量 z の相互情報量 I(x;z)(の下限)を最大化する
網羅的なサーベイ: https://github.com/jason718/awesome-self-supervised-learning
Learning Deep Representations by Mutual
Information Estimation and Maximization,
ICLR2017
• 従来の発見的手法と違い,理論的な議論
が可能なアプローチ
• xとz の正例ペアと負例ペアを識別する
だけで良い.
• zを知ること≒xを知ることとなるよう学習.
• 自己符号化器(Auto-Encoder)と違い,
復号部分の設計が不要
• 特にx,zに局所性を持たせることでより良い
特徴表現を得られる.
• とにかく,発見的手法ではない(より抽象
的・汎用的手法)という触れ込み.
55. 深層学習の未解決問題は山程ある.
1. 調整の難しさ(ハイパーパラメタ調整)
• 現状は探索ベース(try&error)
• 離散空間の探索は難しい(勾配が得られない→進むべき方向が不明)
• (特に強化学習や逆強化学習で顕著)
2. 最適性の保証がない.
• たどり着いたモデルパラメタは飽くまでも「とても良い局所解」
• 理論的な最適保証があり,かつ,深層学習並の精度を達成する方法はない?
3. 得られるものは飽くまでも「統計量」であって「知識」ではない.
• 深層学習単体をAIと呼ぶことは危険.
4. 説明性・可読性の不足
• 事故調査が困難 → Serious Tech.への利用における高いリスク
• なぜうまく動くかわからない→今の所,工学的ではあるが科学的ではない???
56. まとめ
• 機械学習の応用に関する最新動向を``いくつか’’紹介
• 深層学習・敵対的学習(min-max最適化)・クロスモーダル学習・自己教示学習
• より基礎的な内容は下記のような資料がわかりやすい.
• 産業総合研究所・神嶌先生の講義資料
• http://www.kamishima.net/jp/kaisetsu/
• (ちょっとむずかしいですが)PRML本(大学院生レベル)
• パターン認識と機械学習(上・下) C.M. ビショップ著
• 逆にとにかくプログラミングを学びたい実践派であれば
• Amazonで 深層学習+ライブラリ名(pytorch, chainer, tensorflow, keras, mxnet...)で
検索すると大量にヒットします.
• Papers with Codes https://paperswithcode.com/ には近年のTop Conferenceに採録
された手法でcodeが提供されているものが問題別に検索可能です.