SlideShare uma empresa Scribd logo
1 de 6
산업경영공학과산업지능연구실
2022. 06. 15
발표자 : 이동진
2
• DQN 모델의 문제점
1. Action이 이산공간 값으로 나타남
2. Action의 차원 수가 클 수록 학습 성능이 떨어짐(차원의 저주)
• DDPG의 아이디어
• Actor-critic 알고리즘의 적용을 통해 Continuous한 Action의 policy를 학습 할 수 있음
- Actor-critic 알고리즘: Action을 선택하는 actor-network와 action의 가치를 평가하는 critic-network로
구성됨
• DQN 모델의 아이디어를 채용하여 학습 성능을 향상시킴
- Target network
- Replay memory
출처: https://medium.com/intro-to-artificial-intelligence/deep-deterministic-policy-gradient-ddpg-an-off-policy-reinforcement-learning-algorithm-38ca8698131b
3
• DDPG 모델 프레임워크
출처: Kang, Chaohai & Rong, Chuiting & Ren, Weijian & Huo, Fengcai & Liu, Pengyun. (2021). Deep Deterministic Policy Gradient Based on Double Network Prioritized
Experience Replay. IEEE Access. PP. 1-1. 10.1109/ACCESS.2021.3074535.
4
• DDPG 모델 pseudo code
출처: Lillicrap, Timothy P. and Hunt, Jonathan J. and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan. (2015),
Continuous control with deep reinforcement learning, arXiv
Network, Target network 초기화
Noise 초기화, 초기 state 생성
Action 실행 및 환경의 SARS 반환
Critic network 학습
Actor network 학습
Target Actor 및 Critic 업데이트
5
• Critic network의 학습은 DQN의 Q-network 학습과 유사함
• Loss function:
• Target value:
• Critic network의 Loss를 최소화하도록 학습함
Target Actor가 전달한 Action 사용
Xt = st, ut = at
출처: https://pasus.tistory.com/137
6
• Actor network의 파라미터는 Critic network의 평가(Q)를 최대화하도록 학습함
• Q를 최대화하는 파라미터 학습을 위해 경사상승법(gradient ascent) 사용함
Xt = st
출처: https://pasus.tistory.com/137

Mais conteúdo relacionado

Semelhante a Lab_Study_0615.pptx

기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
효근 윤
 

Semelhante a Lab_Study_0615.pptx (20)

Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
 
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark
 
DHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology RallyDHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology Rally
 
jjongwuner_cv_page
jjongwuner_cv_pagejjongwuner_cv_page
jjongwuner_cv_page
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQN
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
데이터에서 의미 추출하기
데이터에서 의미 추출하기데이터에서 의미 추출하기
데이터에서 의미 추출하기
 
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
권기훈_포트폴리오
권기훈_포트폴리오권기훈_포트폴리오
권기훈_포트폴리오
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
Review SRGAN
Review SRGANReview SRGAN
Review SRGAN
 

Lab_Study_0615.pptx

  • 2. 2 • DQN 모델의 문제점 1. Action이 이산공간 값으로 나타남 2. Action의 차원 수가 클 수록 학습 성능이 떨어짐(차원의 저주) • DDPG의 아이디어 • Actor-critic 알고리즘의 적용을 통해 Continuous한 Action의 policy를 학습 할 수 있음 - Actor-critic 알고리즘: Action을 선택하는 actor-network와 action의 가치를 평가하는 critic-network로 구성됨 • DQN 모델의 아이디어를 채용하여 학습 성능을 향상시킴 - Target network - Replay memory 출처: https://medium.com/intro-to-artificial-intelligence/deep-deterministic-policy-gradient-ddpg-an-off-policy-reinforcement-learning-algorithm-38ca8698131b
  • 3. 3 • DDPG 모델 프레임워크 출처: Kang, Chaohai & Rong, Chuiting & Ren, Weijian & Huo, Fengcai & Liu, Pengyun. (2021). Deep Deterministic Policy Gradient Based on Double Network Prioritized Experience Replay. IEEE Access. PP. 1-1. 10.1109/ACCESS.2021.3074535.
  • 4. 4 • DDPG 모델 pseudo code 출처: Lillicrap, Timothy P. and Hunt, Jonathan J. and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan. (2015), Continuous control with deep reinforcement learning, arXiv Network, Target network 초기화 Noise 초기화, 초기 state 생성 Action 실행 및 환경의 SARS 반환 Critic network 학습 Actor network 학습 Target Actor 및 Critic 업데이트
  • 5. 5 • Critic network의 학습은 DQN의 Q-network 학습과 유사함 • Loss function: • Target value: • Critic network의 Loss를 최소화하도록 학습함 Target Actor가 전달한 Action 사용 Xt = st, ut = at 출처: https://pasus.tistory.com/137
  • 6. 6 • Actor network의 파라미터는 Critic network의 평가(Q)를 최대화하도록 학습함 • Q를 최대화하는 파라미터 학습을 위해 경사상승법(gradient ascent) 사용함 Xt = st 출처: https://pasus.tistory.com/137