Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
1. Processos Markovianos de Decis˜o (MDPs)
a
Algoritmos
Conclus˜o
a
Planejamento Probabil´
ıstico
Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP
ca
Daniel Baptista Dias
Grupo de Planejamento, IME/USP
27 de julho de 2011
Daniel Baptista Dias Planejamento Probabil´
ıstico
2. Processos Markovianos de Decis˜o (MDPs)
a
Algoritmos
Conclus˜o
a
Agenda
1 Processos Markovianos de Decis˜o (MDPs)
a
Introdu¸˜o
ca
Modelo Formal
Modelo Conceitual
2 Algoritmos
Itera¸˜o de Valor
ca
RTDP
3 Conclus˜o
a
Bibliografia
D´vidas?
u
Daniel Baptista Dias Planejamento Probabil´
ıstico
3. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
Introdu¸˜o
ca
No planejamento cl´ssico, assumimos que as a¸˜es tˆm um
a co e
apenas um efeito, que pode ser predito;
Por´m em alguns momentos isto n˜o ´ verdade.
e a e
Exemplo: sistema de manuseio de caixotes em um armaz´m.
e
Daniel Baptista Dias Planejamento Probabil´
ıstico
4. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
Introdu¸˜o
ca
A incerteza destas a¸˜es pode ocorrer devido:
co
Falha nas a¸˜es: instigada por um agente com a finalidade de
co
mudar o estado do sistema, a mesma n˜o foi bem sucedida;
a
ex: a garra n˜o segura a caixa corretamente;
a
Evento ex´geno: que ocorre no sistema sem o controle o
o
agente; ex: a caixa quebra devido a sua fragilidade,
derrubando seu conte´do.
u
Daniel Baptista Dias Planejamento Probabil´
ıstico
5. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
Um exemplo: Navega¸˜o de robˆs
ca o
Daniel Baptista Dias Planejamento Probabil´
ıstico
6. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
Navega¸˜o de robˆs
ca o
Problema:
Um robˆ deve ir do:
o
ponto de origem (1, 1) at´
e
ponto de destino (6, 4)
Ele pode se mover em quatro dire¸˜es:
co
norte, sul, leste e oeste.
Devido a um defeito no mecanismo de locomo¸˜o:
ca
em 20% dos movimentos ele erra dire¸˜o em 90 graus,
ca
tornando-os incertos;
Desafio:
Como ir at´ o destino apesar das adversidades?
e
Daniel Baptista Dias Planejamento Probabil´
ıstico
7. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - O que ´?
e
Uma forma de resolver o desafio ´ modelar e resolver ele como
e
um Processo Markoviano de Decis˜o (Markov Decision
a
Process, MDP);
Um MDP ´ um sistema estoc´stico, que:
e a
Fica em um determinado estado em um ponto no tempo,
podendo transitar para outros estados a medida que o sistema
evolui;
´
E alterado em respostas a eventos (a¸˜es ou eventos
co
ex´genos);
o
Evolui em est´gios, transitando de um est´gio para outro ap´s
a a o
a ocorrˆncia de um evento.
e
Daniel Baptista Dias Planejamento Probabil´
ıstico
8. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Formal
Formalmente, ele pode ser definido como um tupla
M = S, A, p, r , c , onde:
S ´ um conjunto finito de estados poss´
e ıveis do ambiente;
A ´ um conjunto finito de a¸˜es execut´veis pelo agente;
e co a
p : S × A × S → [0, 1] ´ uma fun¸˜o de transi¸˜o
e ca ca
probabil´
ıstica;
r : S → + ´ uma fun¸˜o que associa uma recompensa a
e ca
cada estado;
c :A→ + ´ uma fun¸˜o que associa um custo a cada a¸˜o;
e ca ca
Daniel Baptista Dias Planejamento Probabil´
ıstico
9. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Estados
Um estado s representa uma configura¸˜o de como o
ca
sistema est´ em um per´
a ıodo de tempo;
No nosso exemplo...
O estado pode ser representado com a varia¸˜o da posi¸˜o do
ca ca
robˆ no campo;
o
Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18
estados, com s1 representando a posi¸˜o (1, 1), s2 a posi¸˜o
ca ca
(1, 2), etc.
Daniel Baptista Dias Planejamento Probabil´
ıstico
10. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Estados
Daniel Baptista Dias Planejamento Probabil´
ıstico
11. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - A¸oes e Transi¸˜o de Estado
c˜ ca
Uma a¸˜o a, escolhida pelo agente, altera o sistema, fazendo-o
ca
transitar de um estado s para um estado s desejado;
Essa transi¸˜o ´ incerta e est´ sujeita a uma probabilidade
ca e a
p(s, a, s );
Para cada a¸˜o, temos uma tabela de transi¸˜o entre estados,
ca ca
indicando as probabilidades de mudan¸a de um estado para
c
outro, respeitando que dado um estado s temos
s ∈S p(s, a, s ) = 1.
Daniel Baptista Dias Planejamento Probabil´
ıstico
12. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - A¸oes e Transi¸˜o de Estado
c˜ ca
Ex: na navega¸˜o de robˆs, o robˆ escolhe a a¸˜o leste para ir
ca o o ca
de s11 para s14 com p(s11 , leste, s14) = 0.8
Daniel Baptista Dias Planejamento Probabil´
ıstico
13. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Fun¸˜o Valor, Custo e Recompensa
ca
Para decidir qual tipo de a¸˜o o agente ir´ tomar e qual
ca a
estado ele ir´, ele precisa julgar a qualidade da decis˜o;
a a
Isto ´ feito definindo uma fun¸˜o valor V (·), que mapeia o
e ca
hist´rico do sistema (quais a¸˜es foram tomadas e quais
o co
estados foram visitados at´ o presente momento) em n´meros
e u
reais, i. e. V : Hs → ;
Compondo esta medida, temos:
a fun¸˜o custo, que associa um gasto a uma determinada
ca
a¸˜o, sendo subtraido de V (·);
ca
a fun¸˜o recompensa, que associa um incentivo ao se alcan¸ar
ca c
um determinado estado, sendo acrescentado a V (·);
Daniel Baptista Dias Planejamento Probabil´
ıstico
14. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Horizonte
Define quanto est´gios do sistema devem ser considerados
a
para avaliar o curso da a¸˜o.
ca
Horizonte finito: a performance do agente ´ avaliada em um
e
n´mero T finito de estados.
u
Neste caso a fun¸˜o valor ´ avaliada como:
ca e
T −1
V (h) = {R(s t ) − C (at )} + R(s T )
t=0
Daniel Baptista Dias Planejamento Probabil´
ıstico
15. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Horizonte
Horizonte infinito: a performance do agente ´ avaliada sob
e
uma evolu¸˜o infinita do sistema.
ca
Neste caso a fun¸˜o valor ´ avaliada considerando um fator de
ca e
desconto γ, que ´ fixado entre 0 e 1:
e
∞
V (h) = γ t (R(s t ) − C (at ))
t=0
Daniel Baptista Dias Planejamento Probabil´
ıstico
16. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Pol´
ıticas
Tamb´m conhecida como curso de a¸˜o ou plano, define qual
e ca
ser´ a a¸˜o a tomada pelo agente quando o mesmo se
a ca
encontrar em um determinado estado s;
Ela ´ representada pela fun¸˜o π : S → A, que associa cada
e ca
estado a uma a¸˜o.
ca
Exemplo:
π(s1 ) = norte
...
π(s5 ) = leste
...
π(s13 ) = sul
...
Daniel Baptista Dias Planejamento Probabil´
ıstico
17. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Solu¸˜o
ca
Para solucionarmos um MDP, podemos encar´-lo como um
a
problema de otimiza¸˜o, onde devemos encontrar a fun¸˜o
ca ca
valor ´tima para cada estado.
o
Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da
c e e
programa¸˜o dinˆmica, considerando o princ´ de
ca a ıpio
otimalidade de Bellman:
Vt∗ (s) = R(s) + maxa∈A {−C (a) + ∗
p(s, a, s )Vt−1 (s )}
s ∈S
Uma pol´ıtica ´tima
o ∗
πt (s) encontrada como solu¸˜o ser´
ca a
aquela que satisfaz:
Vt∗ (s) = R(s) + −C (πt (s)) +
∗ ∗ ∗
p(πt (s), a, s )Vt−1 (s )
s ∈S
Daniel Baptista Dias Planejamento Probabil´
ıstico
18. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
19. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
Quais a¸˜es s˜o poss´
co a ıveis? Que decis˜o tomar?
a
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
20. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
Decis˜o tomada !
a
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
21. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
Sucesso !
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
22. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
Falha !
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
23. Processos Markovianos de Decis˜o (MDPs)
a Introdu¸˜o
ca
Algoritmos Modelo Formal
Conclus˜o
a Modelo Conceitual
MDP - Modelo Conceitual
O efeito da recompensa
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabil´
ıstico
24. Processos Markovianos de Decis˜o (MDPs)
a
Itera¸˜o de Valor
ca
Algoritmos
RTDP
Conclus˜o
a
Algoritmos
Para obter uma pol´
ıtica ´tima, alguns algoritmos conhecidos
o
baseados em programa¸˜o dinˆmica, utilizando a equa¸˜o de
ca a ca
Bellman, s˜o:
a
Itera¸˜o de Valor (IV);
ca
Itera¸˜o de Pol´
ca ıtica (IP);
Programa¸˜o Dinˆmica em Tempo Real (Real Time Dynamic
ca a
Programming, RTDP).
Iremos abordar nesta apresenta¸˜o o IV e o RTDP.
ca
Daniel Baptista Dias Planejamento Probabil´
ıstico
25. Processos Markovianos de Decis˜o (MDPs)
a
Itera¸˜o de Valor
ca
Algoritmos
RTDP
Conclus˜o
a
IV
Utilizando a equa¸˜o de Bellman, para cada etapa t a fun¸˜o
ca ca
V ´ calculada para cada estado, considerando v0 (s) = R(s).
e
Daniel Baptista Dias Planejamento Probabil´
ıstico
26. Processos Markovianos de Decis˜o (MDPs)
a
Itera¸˜o de Valor
ca
Algoritmos
RTDP
Conclus˜o
a
IV - Considera¸oes
c˜
A complexidade do algoritmo ´: O(|A| |S|2 );
e
Consideramos que o algoritmo encontrou um π ∗ quando todos
os estados convergirem;
Esta convergˆncia ´ alcan¸ada quando o res´
e e c ıduo
(|vn (s) − vn−1 (s)|) para estes estado for menor que ;
Problema:
Por considerar todos os estados para executar o c´lculo,
a
inclusive aquele que n˜o s˜o alcan¸´veis pelo agente;
a a ca
Com o crescimento do conjunto S
Daniel Baptista Dias Planejamento Probabil´
ıstico
27. Processos Markovianos de Decis˜o (MDPs)
a
Itera¸˜o de Valor
ca
Algoritmos
RTDP
Conclus˜o
a
RTDP
Considerando um conjunto de estados iniciais e estados meta,
o algoritmo realiza uma busca heur´ıstica, considerando apenas
os estados relevantes para serem atualizados;
Baseado na id´ia de execu¸˜o e simula¸˜o, executa uma s´rie
e ca ca e
de trials, simulando uma pol´ıtica gulosa iniciando no estado
inicial e realizando um Bellman Backup nos estados visitados;
Desta forma, os estados mais provav´is de serem visitados
e
convergem primeiro;
A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo
a
valores ´timos para os estados relevantes.
o
Daniel Baptista Dias Planejamento Probabil´
ıstico
28. Processos Markovianos de Decis˜o (MDPs)
a
Bibliografia
Algoritmos
D´vidas?
u
Conclus˜o
a
Bibliografia
Boutilier, Craig; Dean, Thomas; Hanks, Steve.
Decision-Theoretic Planning: Structural Assumptions and
Computational Leverage.
Journal of Artificial Intelligence Research, 11:1-94, 1999.
Boutilier, Craig;
Logical Representations and Computational Methods for
Markov Decision Processes.
Apresenta¸˜o em curso, 2007.
ca
Ghallab, Malik; Nau, Dana; Traverso, Paolo;
Automated Planning: Theory and Practice.
San Francisco, California: Morgan Kaufmann Publishers, 2004.
Barros, Leliane Nunes de;
Planejamento em Inteligˆncia Artifical - Planejamento
e
Probabilistico
Slides de aula, 2011.
Daniel Baptista Dias Planejamento Probabil´
ıstico
29. Processos Markovianos de Decis˜o (MDPs)
a
Bibliografia
Algoritmos
D´vidas?
u
Conclus˜o
a
Bibliografia
Pereira, Silvio do Lago; Barros, Leliane Nunes de;
Planejamento baseado em Processos de Decis˜o Markovianos
a
Relat´rio T´cnico do IME/USP (RT-MAC-2007-04), 2007.
o e
Russell, Stuart J.; Norvig, Peter;
Artificial Intelligence: A Modern Approach.
Englewood Cliffs, New Jersey: Prentice Hall, 1995.
Daniel Baptista Dias Planejamento Probabil´
ıstico
30. Processos Markovianos de Decis˜o (MDPs)
a
Bibliografia
Algoritmos
D´vidas?
u
Conclus˜o
a
Planejamento Probabil´
ıstico
Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP
ca
Daniel Baptista Dias
Grupo de Planejamento, IME/USP
27 de julho de 2011
Daniel Baptista Dias Planejamento Probabil´
ıstico