2. 2
• DQN 모델의 문제점
1. Action이 이산공간 값으로 나타남
2. Action의 차원 수가 클 수록 학습 성능이 떨어짐(차원의 저주)
• DDPG의 아이디어
• Actor-critic 알고리즘의 적용을 통해 Continuous한 Action의 policy를 학습 할 수 있음
- Actor-critic 알고리즘: Action을 선택하는 actor-network와 action의 가치를 평가하는 critic-network로
구성됨
• DQN 모델의 아이디어를 채용하여 학습 성능을 향상시킴
- Target network
- Replay memory
출처: https://medium.com/intro-to-artificial-intelligence/deep-deterministic-policy-gradient-ddpg-an-off-policy-reinforcement-learning-algorithm-38ca8698131b
3. 3
• DDPG 모델 프레임워크
출처: Kang, Chaohai & Rong, Chuiting & Ren, Weijian & Huo, Fengcai & Liu, Pengyun. (2021). Deep Deterministic Policy Gradient Based on Double Network Prioritized
Experience Replay. IEEE Access. PP. 1-1. 10.1109/ACCESS.2021.3074535.
4. 4
• DDPG 모델 pseudo code
출처: Lillicrap, Timothy P. and Hunt, Jonathan J. and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan. (2015),
Continuous control with deep reinforcement learning, arXiv
Network, Target network 초기화
Noise 초기화, 초기 state 생성
Action 실행 및 환경의 SARS 반환
Critic network 학습
Actor network 학습
Target Actor 및 Critic 업데이트
5. 5
• Critic network의 학습은 DQN의 Q-network 학습과 유사함
• Loss function:
• Target value:
• Critic network의 Loss를 최소화하도록 학습함
Target Actor가 전달한 Action 사용
Xt = st, ut = at
출처: https://pasus.tistory.com/137
6. 6
• Actor network의 파라미터는 Critic network의 평가(Q)를 최대화하도록 학습함
• Q를 최대화하는 파라미터 학습을 위해 경사상승법(gradient ascent) 사용함
Xt = st
출처: https://pasus.tistory.com/137