57. 画像認識の学習器作成
• 実際にビジネスに AI を導入するには…
• 学習済みモデルを使用: 推論の処理のみなので大規模な計算資源は不要
• 学習モデルの作成:
⇒ 大量のデータだけではなく,
膨大な量のデータを処理するための時間や電力,
GPU のように大量のデータを処理出来る機器が必要
• DL の特徴として,正しい生データの量が多ければ多いほど精度上昇
⇒ 大量のデータさえあれば DL で従来の ML では扱えなかった
複雑なデータでも処理を行うことが可能になったが,
識別結果の調整が難しくテストデータが少ないと性能が出せない
学習用データ
セット作成
学習済み
モデル
未知の画像
?
学習済み
モデル
画像認識
ex: Dog or Cat
学習処理
推論処理
Dog Cat
モデル
学習
特徴量
抽出
58. 乳がん
• 乳がんの発症を高い精度で予測できる
AI モデルを MIT が開発
• 2009 年 1 月 1 日から 2012 年 12 月 31 日までの
39,571 人 88,994 件のマンモグラフィを使用
• 人の目では認識できない微細なパターンも
特定できるように訓練
• 人種に関わらず高精度
Above: MIT/MGH AI model identified woman at high risk 4 years (left) before her breast cancer (right):.Image Credit: MIT CSAIL
59. 肺がん
A promising step forward for predicting lung cancer https://www.blog.google/technology/health/lung-cancer-prediction/
End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography Nature Medicine (2019)
• 肺がんの発症を高い精度で予測できる
AI モデルを Google が開発
• 匿名化された 45,856 件の胸部 CT スクリーニング
検査でがんが発見された症例
• Google の AI モデルは医師チームよりも
がんのケースを 5 %多く検知でき,
誤診率は 11 %低かった
60. 世界最大のデータセット
• Google は 2016 年に機械学習のためのデーセット
「Open Images」を初めてリリース.
• 2019 年 5 月 8 日に Open Images Dataset V5 を公開.
• Open Images Dataset V5 は 350 カテゴリにわたる
280 万個のセグメンテーションマスクが用意されている.
Google AI Blog: Announcing Open Images V5 and the ICCV 2019 Open Images Challenge
https://ai.googleblog.com/2019/05/announcing-open-images-v5-and-iccv-2019.html
68. AI 搭載医療機器の
承認審査短縮へ法改正
• 動脈瘤の検出など,医療分野では AI を活用し
た様々な取り組みがなされている
• 新しく取得したデータを再学習させると性能が
向上するという AI の特性上,性能が変われば
頻繁に審査を受ける必要がある
• 法改正により,再学習で性能が向上した場合の
承認審査期間が短縮がされる見通し
69. 時流 - AI Winter is well on its way
• 米の AI 研究者の Filip Piekniewski 氏が,自身の
Blog で「AI 冬の時代がやってくる」と主張
https://blog.piekniewski.info/2018/05/28/ai-winter-is-well-on-its-way/
70. 時流 - AI Winter is well on its way
① Deep Learning の研究者たちの (ネット上での)
発言が少なくなった
② Deep Learning はスケールしていない
③ 自動走行技術は,まだまだ不完全
• 2012 年に AlexNet という DL のモデルが
世界中の AI 研究者に衝撃を与えた
• AlexNet のパラメータ数は 6000 万程度
• 最近のモデルのパラメータ数は AlexNet の 1000 倍以上
• 性能が 1000 倍以下
• 一部の研究者が主張するほど,DL が
指数関数的な進化を遂げていない
71. 時流 - Thomas Nield の主張
• AI の歴史
• 推論や検索に基づいた第 1 次 AI ブーム
• エキスパートシステムの開発が流行した第 2 次 AI ブーム
• これらのブームが終息した原因
• AI に対する過度な期待とその期待に便乗した AI の誇張
• AI で実現可能なことを実際より大きく見せることで期待を煽るが,
その期待に応えられない度にブームが終息
• 現在の AI ブームに煽動と誇張を見る同氏は,
この流行は2019年から2020年にかけて終息すると主張.
• ディープラーニングの流行がもたらした第 3 次 AI ブーム
• ディープラーニングの進化を加速するはずの学習データが
不足していること,さらにはディープラーニングをもってしても
計算複雑性理論から見て解決困難な問題は依然として解決が難しい
• AI を正しく活用するためにはディープラーニングの効用を妄信せず,
個々の問題にあった AI 技法を適用する
Thomas Nield
アメリカ大手航空会社サウスウエスト航空のビジネスコンサルタントを務めているとともに,
SQL や RxJava に関する入門書をオライリーから出版.
同氏が長文英文記事メディア Medium に投稿した記事の要約.
76. 実際には存在しない
ベッドルームを生成
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
Alec Radford, Luke Metz, Soumith Chintala
(Submitted on 19 Nov 2015 (v1), last revised 7 Jan 2016 (this version, v2))
77. 実際には存在しない顔写真
PHOTOGRAPHS BY CARL BERGSTROM AND JEVIN WEST/UNIVERSITY OF WASHINGTON;
PHILIP WANG/THISPERSONDOESNOTEXIST.COM
このアルゴリズムには,顔を入れ替えた偽の動画 (Deep Fake) と同等のコードを含む
80. 学習データを作成 (GAN)
• AI 技術を産業に応用する際の課題
• AI が学習するための教師データの不足
• CT や MRI から AI が病気を Detection しようにも
病気の画像が少なければ充分な学習ができず
システムの精度が上がりにくい
• 教師データの回転や移動によるデータ量の
水増しではなく GAN で学習データを生成
• 偏りやドメインシフトの影響が大きくなる
• GAN をドメイン適応用に開発することで
大規模データ間の違いを修正し,
さらに大きなデータベースを開発できる可能性がある
81. AI の診断を信じられますか?
• 胸部 X 線検査では様々な疾患を指摘することが
でき,その中でも肺がんの発見が重要である.
• 胸部 X 線検査で肺がんを見逃す可能性は高い.
• 胸部 X 線検査の画像はパターンが多く,診断が難しい.
• 肺がんは診断後に手術が行われ,病理所見が
得られることから,自動診断の対象となる
ことが多く,AI を用いた胸部 X 線検査の
自動診断に関する研究が多く行われてる.
• 今現在その精度は医師と同等以上と言われている.
82. AI の診断を信じられますか?
• AI の基本的な問題点
• AI のモデルを構築した学習データの違いによって性能に違い
が出るドメインシフト
• ドメインシフトとは?
• 同じ問題を解くために集めたはずのデータの分布領域 (ドメ
イン) にズレが生じていることで精度に影響が出る.
• 自分で集めたデータでは学習とテストが共にうまくが,同じ
問題用に集めた隣人のデータではうまくいかない現象.
• 本来同じ問題と解くために集めたので,汎化性能が高ければ
データセットを変更しても制度に影響が出ないはずだが,悪
くなる現象.
• 大規模データベース 3 種類を同じモデル・環境で
学習させ,それぞれを別のデータベースで評価し
データセットの影響を評価
Eduardo H. P. Pooch∗, Pedro L. Ballester, Rodrigo C. Barros
Can we trust deep learning models diagnosis? The impact of domain shift in chest radiograph classification
arXiv:1909.01940v1 [eess.IV] 3 Sep 2019
88. AI の勘違い (都市伝説)
• AI は人間の脳のように機能する
• 現在の AI は “弱い AI” ⇒ 決められた単一タスクのみ処理可能
• インテリジェントマシンは自ら学習する
• 学習には “問題の設定”と“適切なデータセットの提供” が必要
• AI は 100 % 客観的になれる
• AI は全てエンジニアによるデータとルールに基づいている
• データセットと結果を評価し,潜在的な偏見が生じず
次の学習サイクルに新しい知識と統合できるようする必要がある
• AI は定型業務を代替し得る
• AI の予測・分類・クラスタ化により的確な判断が可能
• 医療: 放射線科医よりも迅速に病気を発見
• 金融・保険業界: ロボアドバイザが資産管理や詐欺検出に利用
• FAX すらなくならない日本では,
定型業務の全てが AI に置き換わることはない
89. 近年の AI ブーム
• 誰もが AI を求めている?
• “AI” ではなく,“AI っぽい何か” を求めている
• “休憩するためにカフェに行く” のではなく,
“インスタ映えのためにカフェに行く”
• 前提が違うと話しが噛み合わない.
90. AI の相違
Start
1956 年
初めて AI と言う言葉が使われる
1960 年代 「推論と検索の時代」
第一次 AI ブーム
1980 年代 「エキスパートシステム」
第二次 AI ブーム
2011 年頃~ 「深層学習」
第三次 AI ブーム
2045 年頃?シンギュラリティ
汎用人工知能 (AGI)
• 人によって指している AI が違う
• AI の根本的な問題は AI に帯する認識の不一致
91. AI の課題
0 5 10 15 20 25 30 35 40 45
十分な量・質を備えたデータの取得
AI の精度が不十分
AI 活用リスクが大きい
メンテナンスコストが高い
AI 導入の目的が不明確
ベンダーとのコミュニケーションが困難
ベンダーの自社が属する業界への知識不足
従来の手法で ROI や評価基準が設定できず…
契約条件が不適当
AI 人材・知識不足
経営層の納得が得にくい
現場の納得が得にくい
適切なベンダー選定が困難
課題が不明瞭
その他
フェーズごとの課題
企画・立案段階 (n=381) 企画・立案終了~概念実証完了まで (n=381) 概念実証終了~実用化済み (n=381)
• 課題が不明瞭
• AI 導入の目的が不明瞭
• 十分な量・質を備えたデータが取得できていない
• AI の精度が不十分
• データの取得と課題の選出が問題.
• 特に医用データは医療関係者の介在が
なければ公開データ以外取得不可能.
引用:「平成30年度成果報告書 産業分野における人工知能及びその内の機械学習の活用状況及び人工知能技術の安全性に関する調査」
92. 機械学習エンジニアの不足
• 経済産業省は機械学習に関わる人材が
2020 年には 4.8 万人不足すると予測
• 2019 年 3 月に政府の AI 戦略が
年間 25 万人を目標に AI 人材を育成
• 教育再生会議が全ての大学生が
AI などの基礎的な素養を身につけられるように
標準カリキュラムを作成することを提言
• 高校教育
• AI などを理解するうえで必要な
「確率」「統計」「行列」などを確実に学ぶ
• 技術の発展に応じて教育内容を迅速に変えるため,
学習指導要領の一部改訂や教科書の一部訂正といった制度を活用
• 大学教育
• 産業界と協力しながら AI や数理,データサイエンスの分野で
求められる知識や技能を特定し,それを身につけられる
教育プログラムを国が認定する制度の創設
• 履修状況を採用活動やインターンシップなどに活用することを想定