More Related Content
Similar to 「人工知能」との正しい付き合い方 (20)
More from Takahiro Kubo (20)
「人工知能」との正しい付き合い方
- 1. Copyright © 2017 TIS Inc. All rights reserved.
「人工知能」との正しい付き合い方
戦略技術センター
久保隆宏
- 2. Copyright © 2017 TIS Inc. All rights reserved. 2
キーワードの整理
人工知能とは
機械学習とは
ディープラーニングとは
機械学習の仕組みを知る
機械学習の仕組み
機械学習のバリエーション
機械学習にできること、できないこと
機械学習を活用する
機械学習の活用事例
機械学習の活用に向けた、プロジェクトの推進方法
機械学習の活用に必要な人材
おわりに
目次
- 3. Copyright © 2017 TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 戦略技術センター
化学系メーカーの業務コンサルタント出身
既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ
ロトタイピングを行う
自己紹介
OpenAI Gymを利用した、
強化学習に関する講演
(@PyConJP 2016)
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
機械学習のビジネスへの適用/
音楽生成で同人誌ダブル出展
(@技術書典2 2017)
- 4. Copyright © 2017 TIS Inc. All rights reserved. 4
所属するチームのミッション
chakki
すべての人が、ティータイムに帰れるようにする
すべての人が、ティータイム(15:00)に帰れる(茶帰)
社会の実現を目指します。
この実現には、既存の仕事を効率化するのでなく、
根本的に「仕事の仕方」を変える必要があります。
しかし、慣れた仕事の仕方というのは簡単には変わ
りません。だからこそ、実際に「体験」をし、効果
を「実感」してもらうことが重要になります。
そのため、私たちは先進的技術を用い、仕事の仕方
が変わる体験を提供していきます。
- 5. Copyright © 2017 TIS Inc. All rights reserved. 5
chakki
まずは自分たち(システム開発者)が帰れるように
自然言語処理/機械学習を活用する
Elephant Sense
「質の高い」文章を検索するための試み。ビュー数やいい
ね数だけでなく、コンテンツの品質の評価も行う。
karura
業務で機械学習を簡単に利用可能にするための試み。
kintone/Slackのプラグインとなり、予測したい項目/予
測に使う項目の指定のみでモデルを自動作成する。
chazutsu
自然言語処理で扱うデータセットを簡単に手に入れるた
めの仕組み。
- 7. Copyright © 2017 TIS Inc. All rights reserved. 7
「人工知能」とは
ねこ
犬
うさぎ
動物大百科
(教師データ)
学習 推論
「学習した結果をもとに、推論を行うことができるシステム」を総じて言う
人工知能
※人の数だけ定義があるといっても過言ではないので、一説として
- 8. Copyright © 2017 TIS Inc. All rights reserved. 8
「機械学習」とは
機械学習もまた、データから学習し予測する技術。ただ、対象が限定される
数値に変換できるものしか学
習できない
(画像も言語も、数値に変換し
ている)
数値データ
基本的には数値を予測するか、
データのカテゴリを分類する
かしかできない。
予測・分類
機械学習モデル
学習 推論
- 9. Copyright © 2017 TIS Inc. All rights reserved. 9
「ディープラーニング」とは
ディープラーニングは機械学習の数ある手法の一種
機械学習モデル
ディープラーニング
- 10. Copyright © 2017 TIS Inc. All rights reserved. 10
キーワードの整理(1/2)
人工知能
機械学習
ニューラルネットワーク
ディープラーニング
- 11. Copyright © 2017 TIS Inc. All rights reserved. 11
キーワードの整理(2/2)
人の顔を認識する
人工知能
音声を認識する
人工知能
指示内容を理解する
人工知能
物体を認識する
人工知能
人の感情を推定する
人工知能
適切な行動を
検索するシステム
発話を生成する
人工知能
発話を音声にする
人工知能
(他多数)・・・・
外気温等の
情報取得システム
「人工知能」自体もまた要素技術であり、SFの世界には程遠い
歩行制御する
人工知能
囲碁に勝つ
人工知能
- 13. Copyright © 2017 TIS Inc. All rights reserved. 13
「機械学習」とは(復習)
学習
数値に変換できるものしか学
習できない
(画像も言語も、数値に変換し
ている)
数値データ
基本的には数値を予測するか、
データのカテゴリを分類する
かしかできない。
予測・分類
推論
機械学習モデル
「数値データ」を基に、「予測」か「分類」を行う
- 14. Copyright © 2017 TIS Inc. All rights reserved. 14
機械
モデルともいう
実体は、要するに「数式」
学習
機械(=数式)のパラメーターを、「データに合うよう調整する」
機械学習の仕組み(1/2)
機械学習は、「機械」を「学習」させる手法
y=ax + bなど
「機械」=数式 「学習」=パラメーター調整
数式のパラメーターを、
データに合うように調整
データ
- 15. Copyright © 2017 TIS Inc. All rights reserved. 15
機械学習の仕組み(2/2)
数値データ 予測・分類
「機械」の「学習」
- 16. Copyright © 2017 TIS Inc. All rights reserved. 16
機械学習の仕組み(デモ)
数値データ 「機械」 予測・分類
「学習」開始
- 17. Copyright © 2017 TIS Inc. All rights reserved. 17
様々なモデルがあり、用意できるデータの量や、
タスクに応じて適切なものを選択する。
ディープラーニング、そのベースとなっている
ニューラルネットワークも「モデル」の一形態
ディープラーニングを選択することが常に正しい
わけではない(通勤にF1マシンを使うのは不適切)
機械学習のバリエーション(1/2)
モデル
著名な機械学習のライブラリであるscikit-learn、
またAzure Machine Learningではタスクの内容
や用意できるデータ量に応じて、どういうモデ
ルを選べばいいかのガイドラインを公表してい
る。
- 18. Copyright © 2017 TIS Inc. All rights reserved. 18
機械学習のバリエーション(2/2)
学習方法
モデルの学習のさせ方にも、様々な種類がある。
最も一般的なのは、教師有り学習と呼ばれる、
「データ」と「答え」のペアを与えてその関係性
を学習させる手法。
データだけを与えてデータ内の関係性を学習させ
る教師無し学習、自由に行動させて行動と報酬の
関係性を学習させる強化学習という手法も存在す
る(囲碁で有名になったのはこの強化学習)。
高度な内容の学習には、それに応じたデータと学
習時間が必要になる。
特にディープラーニングを利用する場合は普通の
PCではほぼ無理で、演算に特化したGPUというデ
バイスが積まれたサーバーを使うことが多い(それ
でも数日~数週間かかることも珍しくない)。
- 19. Copyright © 2017 TIS Inc. All rights reserved. 19
「与えるデータの情報量」は、データの量とデータの質の2つで決まる
データの量
用意できるデータの件数(多いほど情報量は多くなる)
分類問題の場合、分類ごとのデータ量も重要になる。特に異常検
知などの場合、正常なデータに対し異常のデータは非常に少ない
ことが多いので、データがたくさんあるからといって性能が出る
とは限らない。
データの質
データの量よりも重要。
教師有り学習の場合、データに対してきちんと「答え」が整備さ
れているかが重要(「答え」が揺らいでいると、当然性能は落ちる)
「答え」がついていないデータは基本的に役に立たない (強化学習
は「答え」の代わりに「報酬」をきちんと設計する必要がある)。
教師なし学習で意図した結果が出ることは稀。
機械学習にできること、できないこと(1/4)
機械学習の性能≒与えるデータの情報量
- 20. Copyright © 2017 TIS Inc. All rights reserved. 20
機械学習にできること、できないこと(2/4)
報道されるような機械学習の成果は、データの整備に支えられている
ImageNet
画像に対して「答え」 を付けたデータセット(この画像は
猫、など)。1000万ほど画像があり、すべて人手で答えが
付けられている。データは公開されており、これにより
画像認識のモデルが発展していった。
OpenAI Gym
強化学習で学習を行わせるためのプラットフォーム。コ
ンピューターゲームからロボットシミュレーターなど幅
広い環境が用意されており、これにより強化学習の研究
がとても行いやすくなった。
The Ubuntu Dialogue Corpus
UbuntuというコンピューターのOSの、テクニカルサポー
トに寄せられた質問とその回答のデータセット。100万の
対話が収録されており、質問/回答を合わせた発話数は
700万にも及ぶ。
- 21. Copyright © 2017 TIS Inc. All rights reserved. 21
機械学習にできること、できないこと(3/4)
報道されるような機械学習の成果は、データの整備に支えられている
KITTI
自動運転車のためのデータセット。ドイツの中規模都市
であるカールスルーエ周辺~高速道路での運転から得ら
れた画像が提供されている。画像は、最大15台の車と30
人の歩行者が映っている。
データの収集に使用した車、そこに搭載したセンサーの
情報なども公開されている。
こうしたデータを作成し、またシェアすることで研究は進展し、それ
により「機械学習でできること」と「機械学習の性能」は向上して
いっている。
逆に言えば、データの整備されていない分野で十分な力を発揮するこ
とはない(優秀なスポーツ選手でも、パフォーマンスを出すには栄養バ
ランスがとれたしっかりした食事(=良質なデータ)が必要)。
- 22. Copyright © 2017 TIS Inc. All rights reserved. 22
機械学習にできること、できないこと(4/4)
数値データ 予測・分類
これ次第!
- 24. Copyright © 2017 TIS Inc. All rights reserved. 24
機械学習の活用事例
これらの活用が、蓄積されたデータ
に支えられているのは前述のとおり
- 25. Copyright © 2017 TIS Inc. All rights reserved. 25
上記はシンプルな問題解決のプロセスであり、機械学習だから加えている
プロセスというのは何もない。
業務課題の洗い出し
仮説の立案
この2つのプロセスは「解決すべき問題は何か」を定義するプロセスであ
り、これは機械学習という手段に関わらず検討されるべきであるし、また
「機械学習を使うから」という想定に影響されてはならない。
機械学習の活用に向けた、プロジェクトの推進方法
業務課題の
洗い出し
仮説の立案 仮説の検証 実装 運用・評価
実際に機械学習の活用を進めていくに当たっては、以下のように推進をし
ていく。
- 26. Copyright © 2017 TIS Inc. All rights reserved. 26
業務課題の洗い出し・仮説の立案
業務課題の
洗い出し
仮説の立案 仮説の検証 実装 運用・評価
企業/部門におけるミッションの確認
あるべき姿と現状から、課題を設定
課題の原因を特定し、必要な対策を立
案する(この原因があるとして、こうし
たら解決するのではないかという仮説)
仮説はあくまで仮説であるため、それが間
違っている場合もある。この仮説がそもそ
も正しいかという点、そして正しいとして
機械学習で実現できるかという点、この2
点を確認するのが次の「仮説の検証」にお
いて重要なポイントとなる。
- 27. Copyright © 2017 TIS Inc. All rights reserved. 27
仮説の検証(1/3)
業務課題の
洗い出し
仮説の立案 仮説の検証 実装 運用・評価
仮説の検証においては、以下2つの確認を行う
仮説の有効性の確認
機械学習による実現性の確認
仮説がそもそも間違っていれば、機械学習に限らずどんなシステムを導入
しても業務改善の効果が表れることはない(ERP、ワークフローツール、
BIツール・・・いろいろ覚えはあるかと思います)。
また、機械学習は魔法の杖ではないので、確かな精度を出すにはデータが
必要となる。このデータの必要十分性についても、事前によく検証をして
おく必要がある。
- 28. Copyright © 2017 TIS Inc. All rights reserved. 28
仮説の検証(2/3)
win-win
仮説を関係者内で共有し、シミュレーションによる検証を行う
業務への貢献
データの入力・評価
仮説の共有
効果の明確化(Plan)
Before/Afterの姿とそれを測るための明確な指標(KPI)を設定する
何をもって成功とするのか、計測可能な数値で表現する
役割の明確化(Do)
誰がどんな作業を行うのか、役割を明確にする
運用の明確化(See)
検証全体のスケジュール、その中での効果の計測のタイミングを明
確にする
- 29. Copyright © 2017 TIS Inc. All rights reserved. 29
仮説の検証(3/3)
A社 100 200
B社 150 110
X 増加傾向
Y これから来る
どんなデータの、どの項目
に注目しているのか
そこからどんな予測をし、
組み合わせているのか
シミュレーションによる検証
機械学習の適用可能性を検証するため、前提知識や経験
といった要素を極力排除し、データのみから判断結果が
追えるまで検証を繰り返す。
データは数値だけ
とは限らない
システムの中には
ないデータが必要
な可能性もある
必要な予測は一つ
とは限らない
仮説を関係者内で共有し、シミュレーションによる検証を行う
- 30. Copyright © 2017 TIS Inc. All rights reserved. 30
実装(1/5)
業務課題の
洗い出し
仮説の立案 仮説の検証 実装 運用・評価
仮説の検証が済んだら、実際に機械学習モデルの実装を行う。
実装はシンプルなモデルからはじめるのが鉄則
複雑なモデルほど、機械学習に関する深い知識が必要となる。そのような
人材は採用も育成も難しいため、パッケージ化されたツールやシンプルな
モデルでの実装を行うのが良い。
やっぱディープラーニン
グでしょ!!
いつまでも精度
がでない
- 31. Copyright © 2017 TIS Inc. All rights reserved. 31
実装(2/5)
Amazon
Machine Learning
導入のスピード
拡張性
ライブラリ型
パッケージ型
サービス型
scikit-learn(Python)
MLlib (Scala等)
mahout (Java)
Jubatus
Azure
Machine Learning
Cloud Machine Learning
Prediction I/O
サーバーを立て、API
で機能を利用
プログラムに組み込
む
カタログ化された機能
を、APIで利用
TensorFlow(C++/Python)
クラウド上でモデル
を構築する
プラットフォーム型
IBM Watson
Cognitive Service
※プラットフォーム型、サービス型がいわゆ
るクラウド経由で提供されるサービスになる
- 32. Copyright © 2017 TIS Inc. All rights reserved. 32
実装(3/5)
ビジネスで使う場合、パッケージ型を推奨
ライブラリ型
少なくとも、開発担当者に機械学習の知識がなければ、使用するべ
きではない。採用・育成も込みで考える必要がある。
「利用」は簡単だが、チュートリアルに沿って動かすのと、実際の
データに応用しシステムに組み込むのでは全く異なる。
プラットフォーム型
環境が手元のPCかクラウドか、というだけで、求められる知識はラ
イブラリ型とほぼ同等になる。
サービス型
手軽に始めるのには良いが、機能が固定的であり実際のビジネスに
はフィットさせにくい(ニーズに適合する場合は有用)
パッケージ型は、サーバーのためのインフラ構築が必要なものの、機械学
習の複雑な部分にあまり触れず、よく利用されている機能を使用できる。
- 33. Copyright © 2017 TIS Inc. All rights reserved. 33
実装(4/5)
推奨するパッケージ型:Jubatus
JubatusはPreferred NetworksとNTTソフトウェアイノベーション
センタが共同開発したオープンソースで、日本語情報が豊富。
活用事例も豊富にあり、Jubatus Casual Talksではユーザー同士で
の事例の紹介や情報交換も行われている。
ただClient側はプログラムで書く必要があり、それなりの技術力は
求められる。
・レコメンド
・異常検知 etc…
Server
Client
(C++/Python/Ruby/J
ava)
良く使われる機能がテン
プレート化されている
- 34. Copyright © 2017 TIS Inc. All rights reserved. 34
実装(5/5)
推奨するライブラリ型:scikit-learn
多彩なアルゴリズムが搭載されており、また実装も容易
ドキュメントも充実しており、scikit-learnを利用したチュートリア
ルも多い(チュートリアル例)
TensorFlowはニューラルネットワークの実装に特化しており、ま
た実装もかなり玄人向けであるためお勧めしない。
推奨するプラットフォーム型:Amazon Machine Learning
モデルを構築する手順がしっかり決まっており、途中で迷うことが
あまりない。手元にデータさえあれば、あとはほぼ一本道。
Azure Machine Learningは自由度が高いが、その分どのプロセス
を選択すればいいのか判断する知識が必要になる。
推奨するサービス型:Cognitive Services/Watson
どちらも様々な機能を提供しているため、用途に合ったものがある
ほうを選ぶ。文書分類を行うWatson NLCはよく事例に登場する
Watsonは価格自体はそれほど高くないがコンサルも含めた導入と
なるとケタ違いの金額になる(二千万~)ので注意が必要。
- 35. Copyright © 2017 TIS Inc. All rights reserved. 35
運用・評価
業務課題の
洗い出し
仮説の立案 仮説の検証 実装 運用・評価
機械学習モデルは「リリースした瞬間が最高精度」であるため(※)、その
精度、また効果をきちんと観測していく必要がある。
※運用後はどんどん機械学習モデルにとって未知のデータが増えるため
貢献指標(KPI)の観測
意図した効果が実運用後に出ているか計測し、仮説の有効性を実証
する
精度の観測
モデルの精度の低下を見逃さないようにし、必要があればモデルの
ブラッシュアップや再学習を行う
- 36. Copyright © 2017 TIS Inc. All rights reserved. 36
機械学習の活用に必要な人材(1/7)
人(プログラマー) 予測・分類処理
データ 機械学習 予測・分類処理
AKB=芸能、
国会=経済、
・・・
モデル(機械)を、
データに合うよ
う調整 (学習)
記事1->芸能
記事2->経済
・・・
機械学習を利用すれば、人が手動で予測や分類のためのプログラムを書く
のでなく、実際のデータを基にその法則性を学習させることができる。
例:ニュース記事の分類
- 37. Copyright © 2017 TIS Inc. All rights reserved. 37
機械学習の活用に必要な人材(2/7)
なるほどプログラマーはこれから
不要になるという理解でよい?
- 38. Copyright © 2017 TIS Inc. All rights reserved. 38
機械学習の活用に必要な人材(3/7)
データ 機械学習 予測・分類処理
データを入力・表示するシステムは必ず残る
機械学習ができるのは「予測・分類」のみで、そのためのデータの
取得や「予測・分類」後の処理まで面倒を見てくれるわけではない
そもそもシステムが稼働するためにサーバーやネットワークなどの
インフラが必要なことは言わずもがな。
機械学習モデルは、プログラムで作成する
機械学習モデルもまた、プログラムでできている。
サービス型はこの限りではないが、逆に「サービスで提供されてい
る」モデル以外は使えなくなる。
- 39. Copyright © 2017 TIS Inc. All rights reserved. 39
機械学習の活用に必要な人材(4/7)
実際に機械学習を利用して開発して作成したシステムの構成図。
(Elephant Senseより)
入力画面の開発
(Web)
入力キーワードを受け取る
サーバーの実装・構築
キーワードから文章を検索
する処理
取得した文章の評価
機械学習モデル
(ここだけ)
- 40. Copyright © 2017 TIS Inc. All rights reserved. 40
機械学習の活用に必要な人材(5/7)
機械学習の登場により、むしろ開発者
の担う役割は増え、さらに高度化する
- 41. Copyright © 2017 TIS Inc. All rights reserved. 41
機械学習の活用に必要な人材(6/7)
通常のシステム開発スキル
機械学習
スキル
(実は機械学習に欠かせ
ない)インフラ構築のス
キル
機械学習を活用したシステム開発に
必要なスキルは左図のような形にな
り、このようなスキルセットを持っ
た人材は非常に希少
機械学習のスキルはかなり特異であ
り、人数がいれば何とかなる類のも
のではない。
機械学習を用いたシステムの開発におい
ては、既存の人月ベースの費用見積もり
は通用しない(必要なスキルセットを
持った人間がいなければ何人いても実現
不可能)。
もちろん、今後サービス型/パッケージ型の拡充により必要な「機械学習
スキル」が低減していくことはありうる。
- 42. Copyright © 2017 TIS Inc. All rights reserved. 42
機械学習の活用に必要な人材(7/7)
人材の給与の相場
Udacityというオンラインで様々な講義が受講できるプラット
フォームでは、nanodegree(ナノディグリー)という学位に相当す
るものを取得することができる。
コースのnanodegreeを取得した場合に期待できる年収も提示され
ており、機械学習の場合以下のようになっている。
120,000$/year
=年収約1300万
年収一千万中盤程度が一つの目安
- 44. Copyright © 2017 TIS Inc. All rights reserved. 44
目覚ましい成果はあるが「人工知能」に全ての仕事を任せるのは困難
データの用意を含めた構築コストと人件費でトレードオフがある
精度を高めても人間に勝るようなレベルにするのは困難
逆に、人間がすべての仕事を行うのも現実的ではなくなる
仕事量は加速度的に増大している(1970年代に5000件→5万件)
半面、生産年齢人口は減少傾向
現状を放置すれば「現場が回らなくなる」のは当然の帰結
既存のビジネスモデルは、やがて「稼働させる」ことができなくな
る。
おわりに
どんなに良い車(ビジネスモデ
ル)でも、燃料(特に人的資源)
がなければ走れない
- 45. Copyright © 2017 TIS Inc. All rights reserved. 45
おわりに
人間と人工知能を組み合わせた、新しい業務設計が必要
「人間でなければならない仕事をしているか」を問い直す。
逆に、人間は人工知能でもできることからは卒業する必要がある
「必要以上の精度(=人間レベルの精度)」を強いてないか問い直す。
その職人芸はビジネスの中核にあるのか
働き方を変えない会社は、収益面よりも事業継続の面でのリスクを抱
えることになる(そのリスクは、既に顕在化している)
「人工知能」に、あなたが「本当は
しなくていい仕事」をぜひ奪っても
らってください