「人工知能」との正しい付き合い方

Copyright © 2017 TIS Inc. All rights reserved.
「人工知能」との正しい付き合い方
戦略技術センター
久保隆宏

Copyright © 2017 TIS Inc. All rights reserved. 2
 キーワードの整理
 人工知能とは
 機械学習とは
 ディープラーニングとは
 機械学習の仕組みを知る
 機械学習の仕組み
 機械学習のバリエーション
 機械学習にできること、できないこと
 機械学習を活用する
 機械学習の活用事例
 機械学習の活用に向けた、プロジェクトの推進方法
 機械学習の活用に必要な人材
 おわりに
目次

久保隆宏
TIS株式会社戦略技術センター
 化学系メーカーの業務コンサルタント出身
 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
 現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ
ロトタイピングを行う
自己紹介
OpenAI Gymを利用した、
強化学習に関する講演
(@PyConJP 2016)
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
機械学習のビジネスへの適用/
音楽生成で同人誌ダブル出展
(@技術書典2 2017)

所属するチームのミッション
chakki
すべての人が、ティータイムに帰れるようにする
すべての人が、ティータイム(15:00)に帰れる(茶帰)
社会の実現を目指します。
この実現には、既存の仕事を効率化するのでなく、
根本的に「仕事の仕方」を変える必要があります。
しかし、慣れた仕事の仕方というのは簡単には変わ
りません。だからこそ、実際に「体験」をし、効果
を「実感」してもらうことが重要になります。
そのため、私たちは先進的技術を用い、仕事の仕方
が変わる体験を提供していきます。

chakki
 まずは自分たち(システム開発者)が帰れるように
 自然言語処理/機械学習を活用する
Elephant Sense
「質の高い」文章を検索するための試み。ビュー数やいい
ね数だけでなく、コンテンツの品質の評価も行う。
karura
業務で機械学習を簡単に利用可能にするための試み。
kintone/Slackのプラグインとなり、予測したい項目/予
測に使う項目の指定のみでモデルを自動作成する。
chazutsu
自然言語処理で扱うデータセットを簡単に手に入れるた
めの仕組み。

「人工知能」とは
ねこ
犬
うさぎ
動物大百科
(教師データ)
学習推論
「学習した結果をもとに、推論を行うことができるシステム」を総じて言う
人工知能
※人の数だけ定義があるといっても過言ではないので、一説として

「機械学習」とは
機械学習もまた、データから学習し予測する技術。ただ、対象が限定される
数値に変換できるものしか学
習できない
(画像も言語も、数値に変換し
ている)
数値データ
基本的には数値を予測するか、
データのカテゴリを分類する
かしかできない。
予測・分類
機械学習モデル
学習推論

「ディープラーニング」とは
ディープラーニングは機械学習の数ある手法の一種
ディープラーニング

キーワードの整理(1/2)
人工知能
機械学習
ニューラルネットワーク
ディープラーニング

キーワードの整理(2/2)
人の顔を認識する
人工知能
音声を認識する
人工知能
指示内容を理解する
人工知能
物体を認識する
人工知能
人の感情を推定する
人工知能
適切な行動を
検索するシステム
発話を生成する
人工知能
発話を音声にする
人工知能
（他多数）・・・・
外気温等の
情報取得システム
「人工知能」自体もまた要素技術であり、SFの世界には程遠い
歩行制御する
人工知能
囲碁に勝つ
人工知能

機械学習の仕組みを知る

「機械学習」とは(復習)
学習
数値に変換できるものしか学
習できない
(画像も言語も、数値に変換し
ている)
数値データ
基本的には数値を予測するか、
データのカテゴリを分類する
かしかできない。
予測・分類
推論
「数値データ」を基に、「予測」か「分類」を行う

 機械
 モデルともいう
 実体は、要するに「数式」
 学習
 機械(=数式)のパラメーターを、「データに合うよう調整する」
機械学習の仕組み(1/2)
機械学習は、「機械」を「学習」させる手法
y=ax + bなど
「機械」=数式「学習」=パラメーター調整
数式のパラメーターを、
データに合うように調整
データ

機械学習の仕組み(2/2)
数値データ予測・分類
「機械」の「学習」

機械学習の仕組み(デモ)
数値データ「機械」予測・分類
「学習」開始

 様々なモデルがあり、用意できるデータの量や、
タスクに応じて適切なものを選択する。
 ディープラーニング、そのベースとなっている
ニューラルネットワークも「モデル」の一形態
 ディープラーニングを選択することが常に正しい
わけではない(通勤にF1マシンを使うのは不適切)
機械学習のバリエーション(1/2)
モデル
著名な機械学習のライブラリであるscikit-learn、
またAzure Machine Learningではタスクの内容
や用意できるデータ量に応じて、どういうモデ
ルを選べばいいかのガイドラインを公表してい
る。

機械学習のバリエーション(2/2)
学習方法
 モデルの学習のさせ方にも、様々な種類がある。
 最も一般的なのは、教師有り学習と呼ばれる、
「データ」と「答え」のペアを与えてその関係性
を学習させる手法。
 データだけを与えてデータ内の関係性を学習させ
る教師無し学習、自由に行動させて行動と報酬の
関係性を学習させる強化学習という手法も存在す
る(囲碁で有名になったのはこの強化学習)。
高度な内容の学習には、それに応じたデータと学
習時間が必要になる。
特にディープラーニングを利用する場合は普通の
PCではほぼ無理で、演算に特化したGPUというデ
バイスが積まれたサーバーを使うことが多い(それ
でも数日～数週間かかることも珍しくない)。

「与えるデータの情報量」は、データの量とデータの質の2つで決まる
 データの量
 用意できるデータの件数(多いほど情報量は多くなる)
 分類問題の場合、分類ごとのデータ量も重要になる。特に異常検
知などの場合、正常なデータに対し異常のデータは非常に少ない
ことが多いので、データがたくさんあるからといって性能が出る
とは限らない。
 データの質
 データの量よりも重要。
 教師有り学習の場合、データに対してきちんと「答え」が整備さ
れているかが重要(「答え」が揺らいでいると、当然性能は落ちる)
 「答え」がついていないデータは基本的に役に立たない (強化学習
は「答え」の代わりに「報酬」をきちんと設計する必要がある)。
教師なし学習で意図した結果が出ることは稀。
機械学習にできること、できないこと(1/4)
機械学習の性能≒与えるデータの情報量

報道されるような機械学習の成果は、データの整備に支えられている
ImageNet
画像に対して「答え」を付けたデータセット(この画像は
猫、など)。1000万ほど画像があり、すべて人手で答えが
付けられている。データは公開されており、これにより
画像認識のモデルが発展していった。
OpenAI Gym
強化学習で学習を行わせるためのプラットフォーム。コ
ンピューターゲームからロボットシミュレーターなど幅
広い環境が用意されており、これにより強化学習の研究
がとても行いやすくなった。
The Ubuntu Dialogue Corpus
UbuntuというコンピューターのOSの、テクニカルサポー
トに寄せられた質問とその回答のデータセット。100万の
対話が収録されており、質問/回答を合わせた発話数は
700万にも及ぶ。

報道されるような機械学習の成果は、データの整備に支えられている
KITTI
自動運転車のためのデータセット。ドイツの中規模都市
であるカールスルーエ周辺～高速道路での運転から得ら
れた画像が提供されている。画像は、最大15台の車と30
人の歩行者が映っている。
データの収集に使用した車、そこに搭載したセンサーの
情報なども公開されている。
こうしたデータを作成し、またシェアすることで研究は進展し、それ
により「機械学習でできること」と「機械学習の性能」は向上して
いっている。
逆に言えば、データの整備されていない分野で十分な力を発揮するこ
とはない(優秀なスポーツ選手でも、パフォーマンスを出すには栄養バ
ランスがとれたしっかりした食事(=良質なデータ)が必要)。

数値データ予測・分類
これ次第！

機械学習の活用事例
これらの活用が、蓄積されたデータ
に支えられているのは前述のとおり

上記はシンプルな問題解決のプロセスであり、機械学習だから加えている
プロセスというのは何もない。
 業務課題の洗い出し
 仮説の立案
この2つのプロセスは「解決すべき問題は何か」を定義するプロセスであ
り、これは機械学習という手段に関わらず検討されるべきであるし、また
「機械学習を使うから」という想定に影響されてはならない。
機械学習の活用に向けた、プロジェクトの推進方法
業務課題の
洗い出し
仮説の立案仮説の検証実装運用・評価
実際に機械学習の活用を進めていくに当たっては、以下のように推進をし
ていく。

業務課題の洗い出し・仮説の立案
業務課題の
洗い出し
 企業/部門におけるミッションの確認
 あるべき姿と現状から、課題を設定
 課題の原因を特定し、必要な対策を立
案する(この原因があるとして、こうし
たら解決するのではないかという仮説)
仮説はあくまで仮説であるため、それが間
違っている場合もある。この仮説がそもそ
も正しいかという点、そして正しいとして
機械学習で実現できるかという点、この2
点を確認するのが次の「仮説の検証」にお
いて重要なポイントとなる。

仮説の検証(1/3)
業務課題の
洗い出し
仮説の検証においては、以下2つの確認を行う
 仮説の有効性の確認
 機械学習による実現性の確認
仮説がそもそも間違っていれば、機械学習に限らずどんなシステムを導入
しても業務改善の効果が表れることはない(ERP、ワークフローツール、
BIツール・・・いろいろ覚えはあるかと思います)。
また、機械学習は魔法の杖ではないので、確かな精度を出すにはデータが
必要となる。このデータの必要十分性についても、事前によく検証をして
おく必要がある。

win-win
仮説を関係者内で共有し、シミュレーションによる検証を行う
業務への貢献
データの入力・評価
仮説の共有
 効果の明確化(Plan)
 Before/Afterの姿とそれを測るための明確な指標(KPI)を設定する
 何をもって成功とするのか、計測可能な数値で表現する
 役割の明確化(Do)
 誰がどんな作業を行うのか、役割を明確にする
 運用の明確化(See)
 検証全体のスケジュール、その中での効果の計測のタイミングを明
確にする

A社 100 200
B社 150 110
X 増加傾向
Y これから来る
どんなデータの、どの項目
に注目しているのか
そこからどんな予測をし、
組み合わせているのか
シミュレーションによる検証
機械学習の適用可能性を検証するため、前提知識や経験
といった要素を極力排除し、データのみから判断結果が
追えるまで検証を繰り返す。
データは数値だけ
とは限らない
システムの中には
ないデータが必要
な可能性もある
必要な予測は一つ
とは限らない
仮説を関係者内で共有し、シミュレーションによる検証を行う

実装(1/5)
業務課題の
洗い出し
仮説の検証が済んだら、実際に機械学習モデルの実装を行う。
 実装はシンプルなモデルからはじめるのが鉄則
複雑なモデルほど、機械学習に関する深い知識が必要となる。そのような
人材は採用も育成も難しいため、パッケージ化されたツールやシンプルな
モデルでの実装を行うのが良い。
やっぱディープラーニン
グでしょ！！
いつまでも精度
がでない

実装(2/5)
Amazon
Machine Learning
導入のスピード
拡張性
ライブラリ型
パッケージ型
サービス型
scikit-learn(Python)
MLlib (Scala等)
mahout (Java)
Jubatus
Azure
Machine Learning
Cloud Machine Learning
Prediction I/O
サーバーを立て、API
で機能を利用
プログラムに組み込
む
カタログ化された機能
を、APIで利用
TensorFlow(C++/Python)
クラウド上でモデル
を構築する
プラットフォーム型
IBM Watson
Cognitive Service
※プラットフォーム型、サービス型がいわゆ
るクラウド経由で提供されるサービスになる

実装(3/5)
ビジネスで使う場合、パッケージ型を推奨
 ライブラリ型
 少なくとも、開発担当者に機械学習の知識がなければ、使用するべ
きではない。採用・育成も込みで考える必要がある。
 「利用」は簡単だが、チュートリアルに沿って動かすのと、実際の
データに応用しシステムに組み込むのでは全く異なる。
 プラットフォーム型
 環境が手元のPCかクラウドか、というだけで、求められる知識はラ
イブラリ型とほぼ同等になる。
 サービス型
 手軽に始めるのには良いが、機能が固定的であり実際のビジネスに
はフィットさせにくい(ニーズに適合する場合は有用)
パッケージ型は、サーバーのためのインフラ構築が必要なものの、機械学
習の複雑な部分にあまり触れず、よく利用されている機能を使用できる。

実装(4/5)
 推奨するパッケージ型：Jubatus
 JubatusはPreferred NetworksとNTTソフトウェアイノベーション
センタが共同開発したオープンソースで、日本語情報が豊富。
 活用事例も豊富にあり、Jubatus Casual Talksではユーザー同士で
の事例の紹介や情報交換も行われている。
 ただClient側はプログラムで書く必要があり、それなりの技術力は
求められる。
・レコメンド
・異常検知 etc…
Server
Client
(C++/Python/Ruby/J
ava)
良く使われる機能がテン
プレート化されている

実装(5/5)
 推奨するライブラリ型：scikit-learn
 多彩なアルゴリズムが搭載されており、また実装も容易
 ドキュメントも充実しており、scikit-learnを利用したチュートリア
ルも多い(チュートリアル例)
 TensorFlowはニューラルネットワークの実装に特化しており、ま
た実装もかなり玄人向けであるためお勧めしない。
 推奨するプラットフォーム型：Amazon Machine Learning
 モデルを構築する手順がしっかり決まっており、途中で迷うことが
あまりない。手元にデータさえあれば、あとはほぼ一本道。
 Azure Machine Learningは自由度が高いが、その分どのプロセス
を選択すればいいのか判断する知識が必要になる。
 推奨するサービス型：Cognitive Services/Watson
 どちらも様々な機能を提供しているため、用途に合ったものがある
ほうを選ぶ。文書分類を行うWatson NLCはよく事例に登場する
 Watsonは価格自体はそれほど高くないがコンサルも含めた導入と
なるとケタ違いの金額になる(二千万～)ので注意が必要。

運用・評価
業務課題の
洗い出し
機械学習モデルは「リリースした瞬間が最高精度」であるため(※)、その
精度、また効果をきちんと観測していく必要がある。
※運用後はどんどん機械学習モデルにとって未知のデータが増えるため
 貢献指標(KPI)の観測
 意図した効果が実運用後に出ているか計測し、仮説の有効性を実証
する
 精度の観測
 モデルの精度の低下を見逃さないようにし、必要があればモデルの
ブラッシュアップや再学習を行う

機械学習の活用に必要な人材(1/7)
人(プログラマー) 予測・分類処理
データ機械学習予測・分類処理
AKB=芸能、
国会=経済、
・・・
モデル(機械)を、
データに合うよ
う調整 (学習)
記事1->芸能
記事2->経済
・・・
機械学習を利用すれば、人が手動で予測や分類のためのプログラムを書く
のでなく、実際のデータを基にその法則性を学習させることができる。
例：ニュース記事の分類

なるほどプログラマーはこれから
不要になるという理解でよい？

データ機械学習予測・分類処理
 データを入力・表示するシステムは必ず残る
 機械学習ができるのは「予測・分類」のみで、そのためのデータの
取得や「予測・分類」後の処理まで面倒を見てくれるわけではない
 そもそもシステムが稼働するためにサーバーやネットワークなどの
インフラが必要なことは言わずもがな。
 機械学習モデルは、プログラムで作成する
 機械学習モデルもまた、プログラムでできている。
 サービス型はこの限りではないが、逆に「サービスで提供されてい
る」モデル以外は使えなくなる。

実際に機械学習を利用して開発して作成したシステムの構成図。
(Elephant Senseより)
入力画面の開発
(Web)
入力キーワードを受け取る
サーバーの実装・構築
キーワードから文章を検索
する処理
取得した文章の評価
(ここだけ)

機械学習の登場により、むしろ開発者
の担う役割は増え、さらに高度化する

通常のシステム開発スキル
機械学習
スキル
(実は機械学習に欠かせ
ない)インフラ構築のス
キル
 機械学習を活用したシステム開発に
必要なスキルは左図のような形にな
り、このようなスキルセットを持っ
た人材は非常に希少
 機械学習のスキルはかなり特異であ
り、人数がいれば何とかなる類のも
のではない。
機械学習を用いたシステムの開発におい
ては、既存の人月ベースの費用見積もり
は通用しない(必要なスキルセットを
持った人間がいなければ何人いても実現
不可能)。
もちろん、今後サービス型/パッケージ型の拡充により必要な「機械学習
スキル」が低減していくことはありうる。

 人材の給与の相場
 Udacityというオンラインで様々な講義が受講できるプラット
フォームでは、nanodegree(ナノディグリー)という学位に相当す
るものを取得することができる。
 コースのnanodegreeを取得した場合に期待できる年収も提示され
ており、機械学習の場合以下のようになっている。
120,000$/year
=年収約1300万
 年収一千万中盤程度が一つの目安

 目覚ましい成果はあるが「人工知能」に全ての仕事を任せるのは困難
 データの用意を含めた構築コストと人件費でトレードオフがある
 精度を高めても人間に勝るようなレベルにするのは困難
 逆に、人間がすべての仕事を行うのも現実的ではなくなる
 仕事量は加速度的に増大している(1970年代に5000件→5万件)
 半面、生産年齢人口は減少傾向
 現状を放置すれば「現場が回らなくなる」のは当然の帰結
 既存のビジネスモデルは、やがて「稼働させる」ことができなくな
る。
おわりに
どんなに良い車(ビジネスモデ
ル)でも、燃料(特に人的資源)
がなければ走れない

おわりに
人間と人工知能を組み合わせた、新しい業務設計が必要
 「人間でなければならない仕事をしているか」を問い直す。
 逆に、人間は人工知能でもできることからは卒業する必要がある
 「必要以上の精度(=人間レベルの精度)」を強いてないか問い直す。
 その職人芸はビジネスの中核にあるのか
 働き方を変えない会社は、収益面よりも事業継続の面でのリスクを抱
えることになる(そのリスクは、既に顕在化している)
「人工知能」に、あなたが「本当は
しなくていい仕事」をぜひ奪っても
らってください

「人工知能」との正しい付き合い方

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 「人工知能」との正しい付き合い方

Similar to 「人工知能」との正しい付き合い方 (20)

More from Takahiro Kubo

More from Takahiro Kubo (20)

「人工知能」との正しい付き合い方