Mais conteúdo relacionado
Semelhante a KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介 (20)
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
- 1. NTT DOCOMO Confidential
©2020 NTT DOCOMO, INC. All Rights
Reserved.
出⽔ 宰
株式会社NTTドコモ
2020年11⽉24⽇
KDD Cup 2020 RL Track:
Learning to Dispatch and Reposition Competition
3rd Place Solution
Data Science Cafe #4
- 3. KDD Cupとは
• KDD Cupは年に1度開催されて,毎年1,000以上のチームと競う
• NTT DOCOMO LABSチームとして,R&D組織の有志メンバで参加
2
• KDD Cupは世界最⾼峰のAI競技会
• 毎年,異なるテーマで精度を競う
• 協賛企業提供データでのリアルな課題
1.機械学習に関連するスキルの向上
2.分析におけるチームワークの醸成
3.⾃社の技術⼒の対外向けアピール
ObjectiveCompetition
- 5. KDD Cup 2020 RL Track
• オンデマンド交通プラットフォーム上の⾞両群を強化学習で制御する
• 配⾞マッチング(Task1)と⾞両再配置(Task2)の最適化AIを開発する
4
Task1: 配⾞マッチング Task2: ⾞両再配置
ドライバー報酬合計の最⼤化 ドライバー報酬効率性の最⼤化
配⾞制御
エージェント
強化学習
- 10. DOCOMO LABS アプローチ概要
• 強化学習と組合せ最適化⼿法の駆使や,シミュレータの構築
により⾼精度かつ安定的なエージェントの⽣成に成功
9
1 2 3
強化学習の適⽤ 最適化⼿法の活⽤ シミュレータの構築
Max $ 𝐴 𝑖, 𝑗 𝑎!"𝑉 𝑠 ← 𝑉 𝑠 + 𝛼 1 − 𝑝 𝑅" + 𝛾𝑉 𝑠#
− 𝑉 𝑠 𝑉∗
𝑠
𝑠 𝑠#𝑅!
指定エリア内の時間的・空間的な
報酬傾向を強化学習TD(0)で習得
グラフマッチングの最適化や
最良グリッド探索の戦略を導⼊
オフラインシミュレーションで
価値関数の良い初期値を獲得
- 11. ❶ 価値関数の学習
• 各⾞両をエージェントとして,時空間的な状態価値を学習
• 状態価値の更新にはTD学習を利⽤(Xu et al. KDD2018)
10
TD学習
時間ステップ
(decision epoch)
状態
(State)
⾏動
(Action)
報酬
(Reward)
𝑡: 離散時間 (2-second window)
𝑠 = 𝑔, ℎ : ドライバーの時空間状態,
グリッドID 𝑔 ∈ 𝐺, 時間index ℎ ∈ 𝐻
𝑎: 乗⾞ or アイドル
𝑅": ドライバー収⼊(乗⾞料⾦)
状態価値関数
(Value function)
𝑉# 𝑠 : 状態𝑠における収⼊期待値
マルコフ決定過程(MDP)の詳細
Zhe Xu, Zhixin Li, Qingwen Guan, Dingshui Zhang, Qiang Li, Junxiao Nan, Chunyang Liu, Wei Bian, and Jieping Ye.
2018. Large-scale order dispatch in on-demand ride-hailing platforms: A learning and planning approach.
In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 905–913.
𝑉+ 𝑠 ← 𝑉+ 𝑠 + 𝛼 1 − 𝑝 𝑅, + 𝛾𝑉+ 𝑠- − 𝑉+ 𝑠
現在の
価値関数
収⼊ 次ステップの
価値関数
学習率
TD誤差
𝑠
𝑠-𝑅%
キャンセル
確率
- 12. ❷ プランニング(乗⾞割当)
• 将来の利得分も考慮した乗⾞割当てを2部グラフで表現
• 最適化ではハンガリアン法(Kuhn-Munkres algo.)を利⽤
11
James Munkres.1957. Algorithms for the assignment and transportation problems.
Journal of the society for industrial and applied mathematics 5, 1 (1957), 32–38.
𝐴# 𝑖, 𝑗
driver 𝑖order 𝑗
2部グラフのマッチング 組合せ最適化問題へと定式化
アドバンテージ関数:
𝐴# 𝑖, 𝑗 = 𝛾𝑉# 𝑠$%
&
− 𝑉 𝑠$ + 𝑅" 𝑗
ハンガリアン法 (KM algorithm)で求解
3
$'(
)
3
%'(
*
𝐴# 𝑖, 𝑗 𝑎$%
3
$'(
)
𝑎$% = 1 , 𝑗 = 1,2, ⋯ , 𝑛,
3
%'(
*
𝑎$% = 1 , 𝑖 = 1,2, ⋯ , 𝑚.
Maximize
subject to
𝑎$% = H
1 if order 𝑗 is assigned to driver 𝑖
0 if order 𝑗 is not assigned to driver 𝑖
where
利得の期待値
(遅延報酬)
乗⾞料⾦
(即時報酬)
- 13. ❷ プランニング(再配置)
• 時空間の状態価値関数を再配置のプランニングにおいても利⽤
• グリッド探索のために𝜀-Greedy algorithmでスコアを検証
12
探索と活⽤のトレードオフ 再配置における𝜺-Greedy algorithの適⽤
𝑉 𝑠$ 𝛾∆,
𝑉 𝑠$
&
∆𝑡
活⽤
(Exploitation)
探索
(Exploration)
グリッド
𝑔
argmax
-
𝛾∆,
𝑉 𝑠$
&
− 𝑉 𝑠$
a random action
with probability 1 − 𝜀
活⽤
(Exploitation)
探索
(Exploration)
with probability 𝜀
グリッドの
ランダム選択
現状ベストを選択
パラメータ𝜀によってランダム性を制御.
サブミット・検証を通じて最終的にはperfect greedy (𝜀 = 0)で実⾏
移動時間に応じ
価値が減衰
- 14. ❸ シミュレータ
• 本タスク向けの⾞両配⾞制御に関するシミュレータを実装
• 履歴データを⽤いた試⾏を通じて,価値関数の初期値を導出
13
履歴データ オフライン・シミュレーション 初期値に設定
• Trajectory Data
• Ride Request Data
• Idle Transition Probability
• Order Cancellation Probability
• Hexagon Grid Data
• Area: Chengdu, China
• Time: November 1-30, 2016
grid id time index 𝑉"
∗
𝑠
386c78bc3c226d88 0 0.8381491
80ce837ff676416e 0 0.0
8639109257d7a656 1 2.1697201
9454535ceb37eba4 2 0.2200934
⋮ ⋮ ⋮
Spatial & Temporal
Value Function 𝑉&
∗ 𝑠
データをサンプリング
- 16. 強化学習のビジネス活⽤
• 広告・コンテンツ配信で強化学習(Bandit algorithm)を活⽤中
• ⾃動化や最適化といった観点で,様々なドメインで適⽤可能
15
ビジネスシーン例︓広告選択 Bandit algorithm
(強化学習の⼀種)
Bandit
探索と活⽤をバランスし
累計クリック数を最⼤化させる
(A/Bテストをより⾼度化)
Web site Landing CTR
Landing A
0.1%
Landing B
0.5%
http://
Access user
・Sex
・Age
・Occupation
課題︓適切な広告をユーザに訴求したいが
表⽰してみないとクリック率は判らない
←A/B testing
効果的な広告を⾃動で
選択
CTR