KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介

NTT DOCOMO Confidential
©2020 NTT DOCOMO, INC. All Rights
Reserved.
出⽔宰
株式会社NTTドコモ
2020年11⽉24⽇
KDD Cup 2020 RL Track:
Learning to Dispatch and Reposition Competition
3rd Place Solution
Data Science Cafe #4

サマリー
• KDDCup2020 強化学習部⾨(Task2)で世界3位を獲得した
• NTT DOCOMO LABSのアプローチと結果について紹介する
1

KDD Cupとは
• KDD Cupは年に1度開催されて，毎年1,000以上のチームと競う
• NTT DOCOMO LABSチームとして，R&D組織の有志メンバで参加
2
• KDD Cupは世界最⾼峰のAI競技会
• 毎年，異なるテーマで精度を競う
• 協賛企業提供データでのリアルな課題
1.機械学習に関連するスキルの向上
2.分析におけるチームワークの醸成
3.⾃社の技術⼒の対外向けアピール
ObjectiveCompetition

参加を通じての実績
• 現在までに，2019年世界1位，2020年3部⾨⼊賞(最⾼3位)を獲得
3
2019 2020
優勝 3部⾨で⼊賞
機械学習部⾨
Open Research/Application Challenge
強化学習部⾨（世界3位）
機械学習 2部⾨（4位, 7位）

KDD Cup 2020 RL Track
• オンデマンド交通プラットフォーム上の⾞両群を強化学習で制御する
• 配⾞マッチング(Task1)と⾞両再配置(Task2)の最適化AIを開発する
4
Task1: 配⾞マッチング Task2: ⾞両再配置
ドライバー報酬合計の最⼤化ドライバー報酬効率性の最⼤化
配⾞制御
エージェント
強化学習

強化学習とは
• システム⾃⾝が試⾏錯誤を通じ，最適な制御を実現させる機械学習の⼿法
• 深層学習と組み合わせた深層強化学習が，近年，⼤きな進歩を⾒せている
– 例︓Google DeepMindが構築したAlphaGo(アルファ碁)が囲碁世界チャンピオンに勝利
5
⾏動 𝑎!
状態 𝑠!
報酬 𝑟!
エージェント環境
𝜋 𝑎|𝑠
報酬を最⼤化するような⽅策を
環境を通じて学習する機構
概要実社会への適⽤事例
ゲーム分野だけでなく，交通・広告分野など
多くのドメインに適⽤され始めている
ゲーム分野システム制御
コンシューマ向け
ボードゲーム
TVゲーム
社内ｵﾍﾟﾚｰｼｮﾝｴﾈﾙｷﾞｰ制御ﾓﾋﾞﾘﾃｨ制御
広告配信対話・ﾁｬｯﾄﾌｧｲﾅﾝｽ

強化学習における利点
• 教師あり学習では，学習データが与えられた上での予測を⾏う
→強化学習はデータ（⾏動空間）の探索を通じて成⻑していく
• ⻑期先の報酬の多寡も考慮した上での，最適な⾏動選択が可能
→囲碁のように，今の⼀⼿ではなく将来を⾒据えた⼀⼿が可能
6
教師あり学習強化学習
•「予測」することが⽬的
•学習データが全てのため，過去に乗⾞がない
場所への予測は難しい
•「⾏動」を決定し報酬の最⼤化が⽬的
•不確実な部分は「探索」によりデータを取る
•⻑期的な報酬を考慮し先読みを⾏う
予測値の⾼い場所に集中探索先読み
⾞両配⾞制御での例

データ概要
• DiDi社が過去実績データ（配⾞実績や⾛⾏ログ等）を提供
7
提供データ(DiDi社提供)
• 期間︓2016年11⽉
• 地域︓中国成都市
ü 第⼆環状道路内の指定グリッド
ü 約65平⽅キロメートル
• 配⾞実績
• ⾛⾏履歴
• 空⾞ドライバの遷移確率
• 乗⾞のキャンセル確率
• エリアのグリッド情報
対象グリッドの時間帯別の報酬分布を可視化

今回コンペの難しさ
1. タスク同⼠の依存関係
– 乗⾞マッチングと再配置の各アクションは影響し合うはず
– 双⽅のアルゴリズムを実装し，1ファイルとしてサブミット
2. 公式なシミュレータは未提供
– 過去実績のデータが与えられるのみ
– サブミット時のログは残らない（スコアのみ開⽰）
3. ダイナミクスにおける情報量の少なさ
– ⾞両の細かな挙動条件が明かされていない部分がある
8

DOCOMO LABS アプローチ概要
• 強化学習と組合せ最適化⼿法の駆使や，シミュレータの構築
により⾼精度かつ安定的なエージェントの⽣成に成功
9
1 2 3
強化学習の適⽤最適化⼿法の活⽤シミュレータの構築
Max $ 𝐴 𝑖, 𝑗 𝑎!"𝑉 𝑠 ← 𝑉 𝑠 + 𝛼 1 − 𝑝 𝑅" + 𝛾𝑉 𝑠#
− 𝑉 𝑠 𝑉∗
𝑠
𝑠 𝑠#𝑅!
指定エリア内の時間的・空間的な
報酬傾向を強化学習TD(0)で習得
グラフマッチングの最適化や
最良グリッド探索の戦略を導⼊
オフラインシミュレーションで
価値関数の良い初期値を獲得

❶ 価値関数の学習
• 各⾞両をエージェントとして，時空間的な状態価値を学習
• 状態価値の更新にはTD学習を利⽤（Xu et al. KDD2018）
10
TD学習
時間ステップ
(decision epoch)
状態
(State)
⾏動
(Action)
報酬
(Reward)
𝑡: 離散時間 (2-second window)
𝑠 = 𝑔, ℎ : ドライバーの時空間状態,
グリッドID 𝑔 ∈ 𝐺, 時間index ℎ ∈ 𝐻
𝑎: 乗⾞ or アイドル
𝑅": ドライバー収⼊(乗⾞料⾦)
状態価値関数
(Value function)
𝑉# 𝑠 : 状態𝑠における収⼊期待値
マルコフ決定過程(MDP)の詳細
Zhe Xu, Zhixin Li, Qingwen Guan, Dingshui Zhang, Qiang Li, Junxiao Nan, Chunyang Liu, Wei Bian, and Jieping Ye.
2018. Large-scale order dispatch in on-demand ride-hailing platforms: A learning and planning approach.
In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 905–913.
𝑉+ 𝑠 ← 𝑉+ 𝑠 + 𝛼 1 − 𝑝 𝑅, + 𝛾𝑉+ 𝑠- − 𝑉+ 𝑠
現在の
価値関数
収⼊次ステップの
価値関数
学習率
TD誤差
𝑠
𝑠-𝑅%
キャンセル
確率

❷ プランニング（乗⾞割当）
• 将来の利得分も考慮した乗⾞割当てを2部グラフで表現
• 最適化ではハンガリアン法(Kuhn-Munkres algo.)を利⽤
11
James Munkres.1957. Algorithms for the assignment and transportation problems.
Journal of the society for industrial and applied mathematics 5, 1 (1957), 32–38.
𝐴# 𝑖, 𝑗
driver 𝑖order 𝑗
2部グラフのマッチング組合せ最適化問題へと定式化
アドバンテージ関数:
𝐴# 𝑖, 𝑗 = 𝛾𝑉# 𝑠$%
&
− 𝑉 𝑠$ + 𝑅" 𝑗
ハンガリアン法 (KM algorithm)で求解
3
$'(
)
3
%'(
*
𝐴# 𝑖, 𝑗 𝑎$%
3
$'(
)
𝑎$% = 1 , 𝑗 = 1,2, ⋯ , 𝑛,
3
%'(
*
𝑎$% = 1 , 𝑖 = 1,2, ⋯ , 𝑚.
Maximize
subject to
𝑎$% = H
1 if order 𝑗 is assigned to driver 𝑖
0 if order 𝑗 is not assigned to driver 𝑖
where
利得の期待値
（遅延報酬）
乗⾞料⾦
（即時報酬）

❷ プランニング（再配置）
• 時空間の状態価値関数を再配置のプランニングにおいても利⽤
• グリッド探索のために𝜀-Greedy algorithmでスコアを検証
12
探索と活⽤のトレードオフ再配置における𝜺-Greedy algorithの適⽤
𝑉 𝑠$ 𝛾∆,
𝑉 𝑠$
&
∆𝑡
活⽤
(Exploitation)
探索
(Exploration)
グリッド
𝑔
argmax
-
𝛾∆,
𝑉 𝑠$
&
− 𝑉 𝑠$
a random action
with probability 1 − 𝜀
活⽤
(Exploitation)
探索
(Exploration)
with probability 𝜀
グリッドの
ランダム選択
現状ベストを選択
パラメータ𝜀によってランダム性を制御．
サブミット・検証を通じて最終的にはperfect greedy (𝜀 = 0)で実⾏
移動時間に応じ
価値が減衰

❸ シミュレータ
• 本タスク向けの⾞両配⾞制御に関するシミュレータを実装
• 履歴データを⽤いた試⾏を通じて，価値関数の初期値を導出
13
履歴データオフライン・シミュレーション初期値に設定
• Trajectory Data
• Ride Request Data
• Idle Transition Probability
• Order Cancellation Probability
• Hexagon Grid Data
• Area: Chengdu, China
• Time: November 1-30, 2016
grid id time index 𝑉"
∗
𝑠
386c78bc3c226d88 0 0.8381491
80ce837ff676416e 0 0.0
8639109257d7a656 1 2.1697201
9454535ceb37eba4 2 0.2200934
⋮ ⋮ ⋮
Spatial & Temporal
Value Function 𝑉&
∗ 𝑠
データをサンプリング

コンペティション結果
• 再配置タスクで決勝進出し，3位を獲得（重付けスコアで算定）
• 最終フェーズの環境においてはトップのスコアを達成した
14
Agents
Task2 : Vehicle Repositioning
①開発フェーズ
スコア
②最終フェーズ
スコア
合計スコア
①40%, ②60%の重付けで算出
1st 13.2838* 8.90542 10.6568*
2nd 10.733 9.17102 9.7958
3rd (NTT DOCOMO LABS) 9.88515 9.62997* 9.73204
4th 11.6646 8.34264 9.67144
5th 10.4263 9.09716 9.62882

強化学習のビジネス活⽤
• 広告・コンテンツ配信で強化学習(Bandit algorithm)を活⽤中
• ⾃動化や最適化といった観点で，様々なドメインで適⽤可能
15
ビジネスシーン例︓広告選択 Bandit algorithm
(強化学習の⼀種)
Bandit
探索と活⽤をバランスし
累計クリック数を最⼤化させる
(A/Bテストをより⾼度化)
Web site Landing CTR
Landing A
0.1%
Landing B
0.5%
http://
Access user
・Sex
・Age
・Occupation
課題︓適切な広告をユーザに訴求したいが
表⽰してみないとクリック率は判らない
←A/B testing
効果的な広告を⾃動で
選択
CTR

最後に
• NTTドコモR&Dでは，データサイエンス領域のスキル向上・ビジネス応⽤を進めている
• KDD CUPにて技術⼒を確かめており，昨年の優勝に続いて今年は3部⾨⼊賞を果たした
• 若⼿社員を中⼼に，データサイエンス領域の技術⼒アピールの活動も⾏っている
– NTTドコモR&D Advent Calendar 2020 (Qiita)
– https://qiita.com/advent-calendar/2020/nttdocomo
16

KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介

Semelhante a KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介 (20)

KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介