Deep Learningを用いたロボット制御

Deep Learningを用いたロボット制御
2016/7/23 第9回科学技術におけるロボット教育シンポジウム
チーフアーキテクト
奥田遼介
株式会社Preferred Networks

今日の内容
 私が関わった様々なロボット関連の技術を紹介します
 詳細な解説や動画は弊社のブログに掲載してあります
— 「プリファードリサーチ」で検索
 目次
— レゴ
 分散深層強化学習
 ぶつからない車
— 産業用ロボット
 バラ積み取り出し
 Amazon Picking Challenge

自己紹介
奥田遼介
 -2010一関工業高等専門学校
 -2014東北大学修士
— 文字列処理など
 2014 （株）プリファードインフラストラクチャー
 2014- （株）プリファードネットワークス
— チーフアーキテクト
— 映像解析系、製造業系にかかわる研究開発
— ChainerやCuPyの開発

私とレゴマインドストーム
 2003年中学生：RCX
 2012年大学院生：NXT 2.0
— ETロボコン2012に出場
— チャンピオンシップ大会 TOPPERS賞受賞，総合部門第4位
 2015年社会人： EV3

ETロボコンでは何をしたか？
 プログラムのリモート
書き換え機能を実装
— ETロボコン専用スクリプ
ト言語
— BT転送
 SATORI2
— 自動リトライによるパラ
メーター調整

会社紹介: Preferred Networks (PFN)
 2014年3月設立（Preferred Infrastructureからスピンオフ）
 本社：東京、アメリカ子会社：カリフォルニア州サンマテオ
 社員数：約40名（そのうち35名程度はエンジニア）
 投資元：NTT、FANUC、トヨタ自動車
ディープラーニング
(人工知能)
Industrial IoT
製造業
自動車
ヘルスケア

7
世界的な企業とのパートナーシップで機械学習を活用
 産業応用において実データを用いた共同R&Dプロジェクト
— 特殊なデータ・必要要件、アルゴリズムの改良、多くの試行錯誤、…
— 一般的なパターン認識システムとは異なる状況での経験とノウハウ
(C) WSJ
(C) WSJ

今回よく出てくる3つのキーワード
 機械学習
— 経験（データ）によって賢くなるアルゴリズム
 強化学習
— 試行錯誤を通じて環境に適応した制御を獲得する枠組み
 深層学習（ディープラーニング）
— 機械学習手法のひとつ、近年大きく研究が進んでいる

機械学習（マシンラーニング）
経験（データ）によって賢くなるアルゴリズムの研究
– データから知識・ルールを自動獲得する
– データの適切な表現方法も獲得する
– 人工知能の中で、人が知識やルールを
明示的に与える方法の限界から生まれてきた
学習データ
分類モデル

画像認識タスクでの性能向上（ILSVRC）
28.2
25.8
16.4
11.7
6.7 5.98 5.1 4.94 4.82
3.56
0
5
10
15
20
25
30
これが人
Deep Learning
の衝撃

強化学習のモチベーション
学習行動
webサービス
ゲームAI
ルーター
ロボット
自動車
...
ヒストグラム
線形モデル
SVM
Deep NN
...
データ
前処理
サービスに反映
データ収集
このループを
自動で回したい

状態 s の時に
どの行動 aを
取ればよいかを
報酬 r を
手掛かりに学習する
強化学習の問題設定（簡易版）
エージェント
行動 a
良い結果
・すいすい走る
悪い結果
・他車とぶつかる
評価
報酬 r を与える
（罰の場合もある）
状態 s：周りの情報
状態 sに対する行動 a
は直接教えない

レゴを活用したデモンストレーション

分散深層強化学習
 2015年6月のInteropで発表したデモ

全体システム
Ｗｅｂカメラ（ＵＳＢ）
ＢＴ制御シミュレーター
(Processing)
画像認識
(AR Toolkit)
深層学習
（Chainer）
座標データ
センサーデータ
操作指令
GPU搭載PC

複数ロボットカーの協調走行
 状態：273次元
— 視線：32方向の視線に対する情報など（障害物まで
の距離・角度）
 行動：5種類（前後加速, 左右回転, ブレーキ)
 報酬r：
— 良い：指定されたパスに沿って速く移動する
— 悪い：壁や障害物、他の車にぶつかる
 どのように走行すれば最適かを学習
— 状態sの時に各行動aの報酬を予測するNNを学習
273 600 400 200 100 50
入力：状態s
前加速
後加速
右回転
左回転
ブレーキ
出力：各行動aの報酬予測

CES 2016ロボットカーデモ
 トヨタ、NTTとの共同展示
 ディープラーニングと強化学習を用いる
ことで、自動で運転能力を習得するデモ
https://www.youtube.com/watch?v=a3AWpeOjkzw
https://www.youtube.com/watch?v=7A9UwxvgcV0

何がすごいか
 約300次元の入力情報から適切な行動を車自らが自動的
に獲得する
— 入力・出力が何に対応するかも教えていない
— 全方位を見て複雑な状況でも適切によける
— それぞれの車は独立に行動を決定
 CESのデモでは4日間で白い車はお互いに衝突無し
 複数台のセンサーデータを集めて学習を加速
— データ共有して学習する事でより速く、より賢くなる

なぜレゴでデモを作ったか？
 今の深層強化学習でどんな事が出来るか示したかった
— よくある「IoT・ビッグデータ」はデータを集めるだけの場合がほ
とんど
 分析すらできなくて、コストだけかかって価値にならない
— IoTの会社なので実物を動かしながら、技術の実用性を示す
 お客さんとのプロジェクトの内容は外に出せない
— 技術の詳細を公開できないので、ぼやかした説明になる

レゴを使った利点
 高速にデモを作れた
— 最初のデモは2か月で制作
— 他のラジコンカーも試したけど、EV3が一番安定して制御できた
— 制御・通信部分を自由にいじれる
 ほど良いバッテリー時間とパワー
— 2時間くらい動いてくれる
— パワーが結構ある（CESの時は通信機と別バッテリーも搭載）
 動くデモは圧倒的にインパクトがある
— 安定して動く
— 同じ型を大量に購入できる（最終的に20台くらい購入）
 他の製品は付属品が品切れになっていたりした

レゴの欠点・デモで苦労した点
 ちょっと本体が大きい
— もう一回り小さい型が欲しいところ
 ラジコンモードが標準であってほしい
 もう少し早いモーターが欲しい
— 大きいタイヤ使いたくなかった
 屋内の精密な位置・向き測定は難しい
— カメラの解像度、光の状態、設置が面倒くさい

産業用ロボットへの技術適用

 バラ積み取り出し
— 乱雑に置かれた物体
— 入力：上方からの深度付き画像
— 出力：吸着ハンドの目標座標
 自動車工場によくある設定
— 別工場から部品が箱にバラバラな状態で送られてくる
— 専用の機械（高価で煩い）か、人が取り出して並べていた
バラ積みロボットの学習

バラ積みロボットの学習
 従来手法
— パターンマッチ、ブロブ検出など
— パラメタチューニングが難しい
 提案手法
— Deep Learningで代替
— 学習データを自動で収集

バラ積み取出しの学習
https://www.youtube.com/watch?v=ATXJ5dzOcDw
国際ロボット展2015にて展示

Amazon Picking Challengeとは
 Amazonが主催
 6/29-7/3, ドイツ
 RoboCup2016 と併設
 今年2回目
 倉庫の自動化を目指す
 タスク：指示された12個のitemを15分以内に棚から取っ
てくる / 棚に入れればOK

アイテムと棚
39種類のアイテム
・光沢や透明
・重い、大きい、小さい、変形
棚内の配置例

結果
Pickタスクで2位(1位と同スコア)！ Stowタスクで4位(3位と僅差)！
http://amazonpickingchallenge.org/results.shtml
タスク後の記念撮影

ロボット外観
・2本のFANUC製ロボットアームで2種類のハンド（バキューム、グリッパ）を使用
・アームの先端に2種類の画像センサを搭載

他のチーム
バキュームとグリッパの
融合ハンド台座に前後軸
アームに前後軸
PFN
Stow :4位(161)
Pick ： 2位(105)
 全16チーム
— 日本から4チーム
 Delft（オランダ）
— Stow : 1位(214)
— Pick ：1位(105)
— アーム：Yasukawa
 Nimbro（ドイツ）
— Stow : 2位(186)
— Pick ：3位(97)
— アーム：Universal Robots

画像認識性能の戦い
Realsense
Lidar
Segmentation
(CNN)
アイテム解析
・吸着可能位置推定(CNN)
・面の法線推定（点群処理）
・向き姿勢推定（点群処理）
吸着可能位置推定
法線方向推定
向き姿勢推定
全チームが深層学習を利用。各チームそれぞれに改良を重ねていた。

機械学習のこれから
 多くの分野に急速に普及する
— 画像認識、音声認識、動画認識、テキスト認識
— 画像生成、テキスト生成
 画像認識
— 深層学習の登場により、大きく技術が向上
— 複雑な制御を行うためにはほぼ必須の技術に
 音声認識
— テキスト化、指示の伝達、コミュニケーション
 強化学習
— より現実に近い設定で動くように進歩中

ロボット
 活動範囲を広げるには学習の活用が必須
— 産業用ロボットは基本的に決まった動きの繰り返し
 プログラミングの難しさ、安全性
 これからのロボット
— 大量のセンサを搭載、カメラも使う
— 機械学習により自動的に動きを獲得
— 人に対して安全に振る舞う
 社会への進出
— ドローン、産業用・災害用・家庭用ロボットなどなど

レゴを通して学べる良いこと
 物・サービスづくり
— ソフト・ハードを通して、実現したいものを作っていく能力
— ハード
 工作技術、動きの仕組み、現実世界の複雑さ
— ソフト
 制御、プログラミング、アルゴリズム
— 解決力
 障害の原因を特定してひとつずつ解決していく
 誰かにとって役に立つ何かを作っていく

本日のデモの詳細情報
 「プリファードリサーチ」で検索
— https://research.preferred.jp/
— バラ積みロボットの学習
— 強化学習によるロボットカーの自動制御
— 画風変換
— 画像の自動生成
We are hiring!
インターン・アルバイトも募集中です

Deep Learningを用いたロボット制御

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (16)

Similar to Deep Learningを用いたロボット制御

Similar to Deep Learningを用いたロボット制御 (20)

More from Ryosuke Okuta

More from Ryosuke Okuta (6)

Deep Learningを用いたロボット制御