SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
강화학습 알고리즘의 흐름도 Part 1
- 수식 중점 -
이동민
Reference
이 자료는 위의 책을 바탕으로 만들었습니다.
출처 : 파이썬과 케라스로 배우는 강화학습
이미지 출저 : http://wikibook.co.kr/reinforcement-learning
Index
1. MDP
2. 정책
3. 가치함수
4. 다이나믹 프로그래밍
강화학습 알고리즘의 흐름도 Part 1
- 수식 중점 -
1. MDP(Markov Decision Process)
1. MDP(Markov Decision Process)
𝑆𝑡 = s상태(State)
행동(Action) 𝐴 𝑡 = a
보상함수(Reward Function) 𝑅 𝑠
𝑎
= E[𝑅𝑡+1|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
상태 변환 확률
(State Transition Probability) 𝑃𝑠𝑠`
𝑎
= P[𝑆𝑡+1 = 𝑠`|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
할인율(Discount Factor) 𝛾 (단, 𝛾 ∈ [0,1])
2. 정책(Policy)
2. 정책(Policy)
𝜋 𝑎 𝑠 = 𝑃[𝐴 𝑡 = 𝑎|𝑆𝑡 = 𝑠]
정책(Policy)의 정의
3. 가치함수(Value Function)
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
상태 가치함수(State Value Function)
𝑣 𝑠 = 𝐸[𝐺𝑡|𝑆𝑡 = 𝑠]
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2
𝑅𝑡+3 + ⋯ |𝑆𝑡 = 𝑠]
- 상태 가치함수의 정의
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + 𝛾𝑅𝑡+3 + ⋯ )|𝑆𝑡 = 𝑠]
- 앞으로 받을 보상으로 표현한 상태 가치함수
(𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2
𝑅𝑡+3 + ⋯)
- 앞으로 받을 보상에서 𝛾 로 묶어 표현한 상태 가치함수
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
상태 가치함수(State Value Function)
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑣(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 가치함수로 표현한 상태 가치함수
𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 정책을 고려한 상태 가치함수
(𝑣 𝑆𝑡+1 = 𝐸[𝐺𝑡+1|𝑆𝑡+1 = 𝑠])
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
행동 가치함수(Action Value Function)
행동 가치함수(Action Value Function)
= 큐함수(Q Function)
큐함수(Q Function)
𝑣 𝜋 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)𝑞 𝜋(𝑠, 𝑎)
𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 큐함수의 정의
- 상태 가치함수와 큐함수 사이의 관계식
4. 다이나믹 프로그래밍
(Dynamic Programming)
다이나믹 프로그래밍(Dynamic Programming, DP)이란?
다이나믹(Dynamic)
동적 메모리
(동적메모리란 메모리가
시간에 따라 변하는 메모리)
프로그래밍(Programming)
컴퓨터 프로그래밍이 아니라
계획을 하는 것으로서 여러 프로세스가
다단계로 이루어지는 것
+
한 마디로 큰 문제 안에 작은 문제들이 중첩된 경우에
전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.
4. 다이나믹 프로그래밍(Dynamic Programming)
왜 다이나믹 프로그래밍이 강화학습에서 나올까요??
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍은 이후에 강화학습의 근원이 되었기 때문입니다.
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
정책 평가(Policy Evaluation)
정책 평가 -> 벨만 기대 방정식
𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠]
𝑣 𝜋 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾 ෍
𝑠`∈𝑆
𝑃𝑠𝑠`
𝑎
𝑣 𝜋(𝑠`))
- 벨만 기대 방정식의 정의
- 계산 가능한 벨만 기대 방정식
𝑣 𝑘+1 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾𝑣 𝑘 𝑠` ) - k와 k+1로 표현한 벨만 기대 방정식
(상태 변환 확률 = 1)
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
탐욕 정책 발전(Greedy Policy Improvement)
탐욕 정책 발전 -> 큐함수(argmax)
큐함수의 정의
계산 가능한 형태로 고친 큐함수
(상태 변환 확률 = 1)
- 탐욕 정책 발전으로 얻은 새로운 정책
𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
𝑞 𝜋(𝑠, 𝑎) = 𝑅 𝑠
𝑎 + 𝛾𝑣 𝜋(𝑠`)
𝜋` 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎∈𝐴 𝑞 𝜋(𝑠, 𝑎)
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
가치 이터레이션(Value Iteration)
가치 이터레이션
= 벨만 최적 방정식을 이용
= 행동 가치함수(=큐함수, max)
𝑞∗(𝑠, 𝑎) = 𝐸[𝑅𝑡+1 + 𝛾 max
𝑎`
𝑞∗(𝑆𝑡+1, 𝑎`) |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
𝑣∗ 𝑠 = max
𝑎
𝐸[𝑅𝑡+1 + 𝛾𝑣∗(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 벨만 최적 방정식의 정의
- 큐함수로 표현한 벨만 최적 방정식
𝑣 𝑘+1(𝑠) = max
𝑎∈𝐴
(𝑅 𝑠
𝑎 + 𝛾𝑣 𝑘 𝑠` ) k와 k+1로 표현한 계산 가능한 벨만 최적 방정식
(상태 변환 확률 = 1)
강화학습은 사랑입니다♥
감사합니다.

Mais conteúdo relacionado

Mais procurados

강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introductionTaehoon Kim
 
가깝고도 먼 Trpo
가깝고도 먼 Trpo가깝고도 먼 Trpo
가깝고도 먼 TrpoWoong won Lee
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)Euijin Jeong
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습종현 최
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!Dongmin Lee
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNEuijin Jeong
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement LearningCloudxLab
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기NAVER D2
 
Natural Policy Gradient 직관적 접근
Natural Policy Gradient 직관적 접근Natural Policy Gradient 직관적 접근
Natural Policy Gradient 직관적 접근Sooyoung Moon
 
분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현정주 김
 
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"YeChan(Paul) Kim
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
 
Reinforcement Learning : A Beginners Tutorial
Reinforcement Learning : A Beginners TutorialReinforcement Learning : A Beginners Tutorial
Reinforcement Learning : A Beginners TutorialOmar Enayet
 
From REINFORCE to PPO
From REINFORCE to PPOFrom REINFORCE to PPO
From REINFORCE to PPOWoong won Lee
 
Reinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesReinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesSangwoo Mo
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해Hee Won Park
 
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex FridmanMIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex FridmanPeerasak C.
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 

Mais procurados (20)

강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction
 
가깝고도 먼 Trpo
가깝고도 먼 Trpo가깝고도 먼 Trpo
가깝고도 먼 Trpo
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQN
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
 
Natural Policy Gradient 직관적 접근
Natural Policy Gradient 직관적 접근Natural Policy Gradient 직관적 접근
Natural Policy Gradient 직관적 접근
 
분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현
 
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"
pycon2018 "RL Adventure : DQN 부터 Rainbow DQN까지"
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
Reinforcement Learning : A Beginners Tutorial
Reinforcement Learning : A Beginners TutorialReinforcement Learning : A Beginners Tutorial
Reinforcement Learning : A Beginners Tutorial
 
From REINFORCE to PPO
From REINFORCE to PPOFrom REINFORCE to PPO
From REINFORCE to PPO
 
Reinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesReinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based Policies
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex FridmanMIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 

Semelhante a 강화학습의 흐름도 Part 1

Control as Inference.pptx
Control as Inference.pptxControl as Inference.pptx
Control as Inference.pptxssuserbd1647
 
CS294-112 Lecture 06
CS294-112 Lecture 06CS294-112 Lecture 06
CS294-112 Lecture 06Gyubin Son
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term ReviewMario Cho
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learningTae Young Lee
 
20170410 황영재 moving_average
20170410 황영재 moving_average20170410 황영재 moving_average
20170410 황영재 moving_averagehwangyoungjae
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )Jeonghun Yoon
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]강민국 강민국
 
03. linear regression
03. linear regression03. linear regression
03. linear regressionJeonghun Yoon
 
Policy gradient
Policy gradientPolicy gradient
Policy gradient태영 정
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogoodS.Good Kim
 
Linear regression
Linear regressionLinear regression
Linear regression전 희천
 

Semelhante a 강화학습의 흐름도 Part 1 (12)

Control as Inference.pptx
Control as Inference.pptxControl as Inference.pptx
Control as Inference.pptx
 
CS294-112 Lecture 06
CS294-112 Lecture 06CS294-112 Lecture 06
CS294-112 Lecture 06
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term Review
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
20170410 황영재 moving_average
20170410 황영재 moving_average20170410 황영재 moving_average
20170410 황영재 moving_average
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
Rl
RlRl
Rl
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
 
Policy gradient
Policy gradientPolicy gradient
Policy gradient
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
 
Linear regression
Linear regressionLinear regression
Linear regression
 

Mais de Dongmin Lee

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEsDongmin Lee
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Dongmin Lee
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...Dongmin Lee
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningDongmin Lee
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
 
Let's do Inverse RL
Let's do Inverse RLLet's do Inverse RL
Let's do Inverse RLDongmin Lee
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드Dongmin Lee
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement LearningDongmin Lee
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsDongmin Lee
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed BanditsDongmin Lee
 

Mais de Dongmin Lee (12)

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEs
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement Learning
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)
 
Let's do Inverse RL
Let's do Inverse RLLet's do Inverse RL
Let's do Inverse RL
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement Learning
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular Methods
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed Bandits
 

Último

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 

Último (8)

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 

강화학습의 흐름도 Part 1

  • 1. 강화학습 알고리즘의 흐름도 Part 1 - 수식 중점 - 이동민
  • 2. Reference 이 자료는 위의 책을 바탕으로 만들었습니다. 출처 : 파이썬과 케라스로 배우는 강화학습 이미지 출저 : http://wikibook.co.kr/reinforcement-learning
  • 3. Index 1. MDP 2. 정책 3. 가치함수 4. 다이나믹 프로그래밍 강화학습 알고리즘의 흐름도 Part 1 - 수식 중점 -
  • 5. 1. MDP(Markov Decision Process) 𝑆𝑡 = s상태(State) 행동(Action) 𝐴 𝑡 = a 보상함수(Reward Function) 𝑅 𝑠 𝑎 = E[𝑅𝑡+1|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 상태 변환 확률 (State Transition Probability) 𝑃𝑠𝑠` 𝑎 = P[𝑆𝑡+1 = 𝑠`|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 할인율(Discount Factor) 𝛾 (단, 𝛾 ∈ [0,1])
  • 7. 2. 정책(Policy) 𝜋 𝑎 𝑠 = 𝑃[𝐴 𝑡 = 𝑎|𝑆𝑡 = 𝑠] 정책(Policy)의 정의
  • 9. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 10. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 11. 상태 가치함수(State Value Function) 𝑣 𝑠 = 𝐸[𝐺𝑡|𝑆𝑡 = 𝑠] 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ |𝑆𝑡 = 𝑠] - 상태 가치함수의 정의 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + 𝛾𝑅𝑡+3 + ⋯ )|𝑆𝑡 = 𝑠] - 앞으로 받을 보상으로 표현한 상태 가치함수 (𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯) - 앞으로 받을 보상에서 𝛾 로 묶어 표현한 상태 가치함수 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
  • 12. 상태 가치함수(State Value Function) 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑣(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 가치함수로 표현한 상태 가치함수 𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 정책을 고려한 상태 가치함수 (𝑣 𝑆𝑡+1 = 𝐸[𝐺𝑡+1|𝑆𝑡+1 = 𝑠])
  • 13. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 14. 행동 가치함수(Action Value Function) 행동 가치함수(Action Value Function) = 큐함수(Q Function)
  • 15. 큐함수(Q Function) 𝑣 𝜋 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)𝑞 𝜋(𝑠, 𝑎) 𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 큐함수의 정의 - 상태 가치함수와 큐함수 사이의 관계식
  • 17. 다이나믹 프로그래밍(Dynamic Programming, DP)이란? 다이나믹(Dynamic) 동적 메모리 (동적메모리란 메모리가 시간에 따라 변하는 메모리) 프로그래밍(Programming) 컴퓨터 프로그래밍이 아니라 계획을 하는 것으로서 여러 프로세스가 다단계로 이루어지는 것 + 한 마디로 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.
  • 18. 4. 다이나믹 프로그래밍(Dynamic Programming) 왜 다이나믹 프로그래밍이 강화학습에서 나올까요??
  • 19. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍은 이후에 강화학습의 근원이 되었기 때문입니다.
  • 20. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 21. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 22. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 23. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 24. 정책 평가(Policy Evaluation) 정책 평가 -> 벨만 기대 방정식 𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] 𝑣 𝜋 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾 ෍ 𝑠`∈𝑆 𝑃𝑠𝑠` 𝑎 𝑣 𝜋(𝑠`)) - 벨만 기대 방정식의 정의 - 계산 가능한 벨만 기대 방정식 𝑣 𝑘+1 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾𝑣 𝑘 𝑠` ) - k와 k+1로 표현한 벨만 기대 방정식 (상태 변환 확률 = 1)
  • 25. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 26. 탐욕 정책 발전(Greedy Policy Improvement) 탐욕 정책 발전 -> 큐함수(argmax) 큐함수의 정의 계산 가능한 형태로 고친 큐함수 (상태 변환 확률 = 1) - 탐욕 정책 발전으로 얻은 새로운 정책 𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 𝑞 𝜋(𝑠, 𝑎) = 𝑅 𝑠 𝑎 + 𝛾𝑣 𝜋(𝑠`) 𝜋` 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎∈𝐴 𝑞 𝜋(𝑠, 𝑎)
  • 27. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 28. 가치 이터레이션(Value Iteration) 가치 이터레이션 = 벨만 최적 방정식을 이용 = 행동 가치함수(=큐함수, max) 𝑞∗(𝑠, 𝑎) = 𝐸[𝑅𝑡+1 + 𝛾 max 𝑎` 𝑞∗(𝑆𝑡+1, 𝑎`) |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 𝑣∗ 𝑠 = max 𝑎 𝐸[𝑅𝑡+1 + 𝛾𝑣∗(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 벨만 최적 방정식의 정의 - 큐함수로 표현한 벨만 최적 방정식 𝑣 𝑘+1(𝑠) = max 𝑎∈𝐴 (𝑅 𝑠 𝑎 + 𝛾𝑣 𝑘 𝑠` ) k와 k+1로 표현한 계산 가능한 벨만 최적 방정식 (상태 변환 확률 = 1)