SlideShare uma empresa Scribd logo
1 de 54
UNIVERSIDADE ESTADUAL DO MARANHÃO – UEMA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA
COMPUTAÇÃO E SISTEMAS – PECS
DISCIPLINA: Aprendizagem de Máquina
Q-learning: Aprendizagem por reforço – AR
Lanylldo Araujo
Profº. Ms. Josenildo Silva
São Luis – MA, 02/01/2014
ROTEIRO
1. Introdução : o problema
2. Contexto: Aprendizagem por reforço
3. Algoritmo: Q-learning
4. Aplicação do algoritmo
5. Considerações Finais
Introdução
Aprendizagem por Reforço
Introdução
Aprendizagem por Reforço
Processo de decisão de Markov
Introdução
Aprendizagem por Reforço
Processo de decisão de Markov
Algoritmo Q-learning
Introdução
Aprendizagem por Reforço
Processo de decisão de Markov
Algoritmo Q-learning
Introdução
Aprendizagem por Reforço
Processo de decisão de Markov
Algoritmo Q-learning
Introdução: o problema
Como desenvolver um agente que deve ter a capacidade de
aprender qual rota(a) um robô pode percorrer para sair do
ponto A e chegar a um ponto B de uma cidade ?
Aprendizagem por reforço
Contexto: Aprendizagem por Reforço
Segundo Mitchell (1997, p.367) é uma paradigma
computacional de aprendizagem onde um agente autônomo
percebe e age no seu ambiente para aprender a escolher
melhores ações com o intuito de atingir seus objetivos.
Contexto: Aprendizagem por Reforço
Um exemplo de aprendizagem por reforço, a formação de um
agente para jogar um jogo onde o agente pode oferecer uma
recompensa positiva quando o jogo é ganho, recompensa
negativa quando se está perdendo e zero recompensa em todos
os outros estados Mitchell (1999,p.367).
Contexto: Aprendizagem por Reforço
S0
r0
S1
a1a0
r1
S2
…
Agent
Environment
state reward action
Fonte: (MITCHELL,1997, p.365)
Contexto: Aprendizagem por Reforço
Agent
Contexto: Aprendizagem por Reforço
Agent
Environment
Contexto: Aprendizagem por Reforço
Agent
Environment
action
Contexto: Aprendizagem por Reforço
Agent
Environment
reward action
Contexto: Aprendizagem por Reforço
Agent
Environment
state reward action
Contexto: Aprendizagem por Reforço
S0
Agent
Environment
state reward action
Contexto: Aprendizagem por Reforço
S0
r0
a0
Agent
Environment
state reward action
Contexto: Aprendizagem por Reforço
S0
r0
S
a1a0
r1
Agent
Environment
state reward action
S1
Contexto: Aprendizagem por Reforço
S0
r0
S
a1a0
r1
S2
…
Agent
Environment
state reward action
S1
aX
rX
Contexto: Aprendizagem por Reforço
“... O aprendizado baseia-se no agente interagir com o
ambiente para realizar o aprendizado, este ambiente é
representado por um conjunto finito de estados S = { s¹,
s²...s³ } , cujos elementos s representam os estados do
ambiente...” Sutton (1998,p.234).
Contexto: Markov
“... O São ditos “de Markov” (ou “Markovianos”) porque
os processos modelados obedecem a propriedade de
Markov: o efeito de uma ação em um estado depende
apenas da ação e do estado atual do sistema ...”(P
ELLEGRINI, 2007, p.134).
Contexto: Processo de decisão de Markov (MDP)
• é uma tupla (S, A, T, R) onde:
✔
S é um conjunto de estados;
✔
A é um conjunto de ações;
✔
T é probabilidade de o sistema passar para outro estado
s ∈ S, dado uma ação a ∈ A (denotada T (S |S, A));
✔
R : S → A é uma função que dá recompensa por tomar
uma decisão.
Contexto: Processo de decisão de Markov (MDP)
PROBLEMA ESTADO AÇÕES RECOMPENSA
Agente Jogador
de damas
Configurações do
tabuleiro
Mover uma
determinada
peça
capturas +
perdas -
Agente em jogo
de luta
Posições/energia dos
lutadores, tempo, se
está sendo atacado ou
não, etc...
Mover em uma
determinada
direção, lançar
magia, dar
porrada, etc...
Sangue tirado +
Sangue perdido -
Robô Aspirador
de Pó
interagir com o
ambiente e a
reconhecer os
obstáculos
Ir para norte ou
sul, e ir para a
esquerda ou
direita
Aspirar pó sem
esbarrar em
objeto +
Esbarrar em
objeto -
Contexto: Processo de decisão de Markov (MDP)
PROBLEMA ESTADO AÇÕES RECOMPENSA
Agente Jogador
de damas
Configurações do
tabuleiro
Mover uma
determinada
peça
capturas +
perdas -
Agente em jogo
de luta
Posições/energia dos
lutadores, tempo, se
está sendo atacado ou
não, etc...
Mover em uma
determinada
direção, lançar
magia, dar
porrada, etc...
Sangue tirado +
Sangue perdido -
Robô Aspirador
de Pó
interagir com o
ambiente e a
reconhecer os
obstáculos
Ir para norte ou
sul, e ir para a
esquerda ou
direita
Aspirar pó sem
esbarrar em
objeto +
Esbarrar em
objeto -
Contexto: Processo de decisão de Markov (MDP)
PROBLEMA ESTADO AÇÕES RECOMPENSA
Agente Jogador
de damas
Configurações do
tabuleiro
Mover uma
determinada
peça
capturas +
perdas -
Agente em jogo
de luta
Posições/energia dos
lutadores, tempo, se
está sendo atacado ou
não, etc...
Mover em uma
determinada
direção, lançar
magia, dar
porrada, etc...
Sangue tirado +
Sangue perdido -
Robô Aspirador
de Pó
interagir com o
ambiente e a
reconhecer os
obstáculos
Ir para norte ou
sul, e ir para a
esquerda ou
direita
Aspirar pó sem
esbarrar em
objeto +
Esbarrar em
objeto -
O algoritmo: Q-learning
“... Q-learning, segundo Mitchell (1999,p.386) é
uma forma de reforço de aprendizagem em que o
agente aprende uma função de avaliação sobre os
estados e ações. Essa função de avaliação é
definida por Q ( s , a) ...”
//Algoritmo Q-learning
1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero.
2 Observe o estado atual s
3 Faça sempre:
4 Selecione uma ação a utilizado a política e executa
5 Receba recompensa imediata r
6 Observe o novo estado s'
7 Atualizar a entrada da tabela de Q (s, a), de acordo com:
8 Q ( s , a ) r + ymax(s',a')
a'
9 s ← s'
Algoritmo Q-learning
Aplicação do Algoritmo
.
Código de um algoritmo Q-learning, onde o agente tem a
capacidade de aprender um caminho entre a sua posição
inicial e a posição do outro robô.
Referências
.
Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997.
LIMA, F.C.J. Algoritmo Q-learning como estrategia de
exploração e/ou explotação para as mataheurísticas GRASP e
algoritmos genéticos. Disponível em:<ftp://ftp.ufrn.br/pub/LJ.pdf>.
Acessado em: 25 de abril de 2014.
PELLEGRINI, J; WAINER.J. Processo de decisão de Markov: um
tutorial. São Paulo, 2007.
Obrigado...
Contatos: lanylldo@gmail.com...
OBRIGADO!

Mais conteúdo relacionado

Mais de Lanylldo Araujo

Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...Lanylldo Araujo
 
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem:...
Avaliação de Sistemas Computacionais  Interativos para Ensino e Aprendizagem:...Avaliação de Sistemas Computacionais  Interativos para Ensino e Aprendizagem:...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem:...Lanylldo Araujo
 
Aprendizagem de Máquina: Classificadores J48, IBK e Naives Bayes
Aprendizagem de Máquina: Classificadores J48, IBK e Naives BayesAprendizagem de Máquina: Classificadores J48, IBK e Naives Bayes
Aprendizagem de Máquina: Classificadores J48, IBK e Naives BayesLanylldo Araujo
 
engenharia software educacional
engenharia software educacionalengenharia software educacional
engenharia software educacionalLanylldo Araujo
 
Engenharia de Software Educacional
Engenharia de Software EducacionalEngenharia de Software Educacional
Engenharia de Software EducacionalLanylldo Araujo
 
Atividade Prática Profissional - ETEC - UEMANET
Atividade Prática Profissional - ETEC - UEMANETAtividade Prática Profissional - ETEC - UEMANET
Atividade Prática Profissional - ETEC - UEMANETLanylldo Araujo
 
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...Lanylldo Araujo
 
Teoria de Resposta ao Item - TRI
Teoria de Resposta ao Item - TRITeoria de Resposta ao Item - TRI
Teoria de Resposta ao Item - TRILanylldo Araujo
 
Apresentação Lanylldo Araujo - Software Avalia
Apresentação Lanylldo Araujo - Software AvaliaApresentação Lanylldo Araujo - Software Avalia
Apresentação Lanylldo Araujo - Software AvaliaLanylldo Araujo
 

Mais de Lanylldo Araujo (20)

Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem: ...
 
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem:...
Avaliação de Sistemas Computacionais  Interativos para Ensino e Aprendizagem:...Avaliação de Sistemas Computacionais  Interativos para Ensino e Aprendizagem:...
Avaliação de Sistemas Computacionais Interativos para Ensino e Aprendizagem:...
 
Aprendizagem de Máquina: Classificadores J48, IBK e Naives Bayes
Aprendizagem de Máquina: Classificadores J48, IBK e Naives BayesAprendizagem de Máquina: Classificadores J48, IBK e Naives Bayes
Aprendizagem de Máquina: Classificadores J48, IBK e Naives Bayes
 
Hbase trabalho final
Hbase trabalho finalHbase trabalho final
Hbase trabalho final
 
engenharia software educacional
engenharia software educacionalengenharia software educacional
engenharia software educacional
 
Engenharia de Software Educacional
Engenharia de Software EducacionalEngenharia de Software Educacional
Engenharia de Software Educacional
 
Atividade Prática Profissional - ETEC - UEMANET
Atividade Prática Profissional - ETEC - UEMANETAtividade Prática Profissional - ETEC - UEMANET
Atividade Prática Profissional - ETEC - UEMANET
 
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...
Seminário Mestrado em Engenharia de Computação - Disciplina Sistemas computac...
 
Teoria de Resposta ao Item - TRI
Teoria de Resposta ao Item - TRITeoria de Resposta ao Item - TRI
Teoria de Resposta ao Item - TRI
 
Projeto Livros Falados
Projeto Livros FaladosProjeto Livros Falados
Projeto Livros Falados
 
Apresentação Lanylldo Araujo - Software Avalia
Apresentação Lanylldo Araujo - Software AvaliaApresentação Lanylldo Araujo - Software Avalia
Apresentação Lanylldo Araujo - Software Avalia
 
Palavra de Vida
Palavra de VidaPalavra de Vida
Palavra de Vida
 
Salmo 146:11
Salmo 146:11Salmo 146:11
Salmo 146:11
 
So novo tempoçç
So novo tempoççSo novo tempoçç
So novo tempoçç
 
Salmo de 114:11
Salmo de 114:11Salmo de 114:11
Salmo de 114:11
 
Palavra de Vida
Palavra de VidaPalavra de Vida
Palavra de Vida
 
Palavra de Vida
Palavra de VidaPalavra de Vida
Palavra de Vida
 
Msg 426
Msg 426Msg 426
Msg 426
 
João 5:6
João 5:6João 5:6
João 5:6
 
Romanos 8:37
Romanos 8:37Romanos 8:37
Romanos 8:37
 

Último

A Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralA Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralFranciscaArrudadaSil
 
Treinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção IndividualTreinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção Individualpablocastilho3
 
Eletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréEletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréGuilhermeLucio9
 
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfLivro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfSamuel Ramos
 
Tecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraTecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraGuilhermeLucio9
 
LEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaLEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaGuilhermeLucio9
 
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICA
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICADESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICA
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICAPabloVinicius40
 

Último (7)

A Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralA Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboral
 
Treinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção IndividualTreinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção Individual
 
Eletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréEletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante Tamandaré
 
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfLivro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
 
Tecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraTecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade Anhanguera
 
LEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaLEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurança
 
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICA
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICADESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICA
DESTRAVANDO O NOVO EDITAL DA CAIXA ECONOMICA
 

Apresentação por reforço

  • 1. UNIVERSIDADE ESTADUAL DO MARANHÃO – UEMA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO E SISTEMAS – PECS DISCIPLINA: Aprendizagem de Máquina Q-learning: Aprendizagem por reforço – AR Lanylldo Araujo Profº. Ms. Josenildo Silva São Luis – MA, 02/01/2014
  • 2. ROTEIRO 1. Introdução : o problema 2. Contexto: Aprendizagem por reforço 3. Algoritmo: Q-learning 4. Aplicação do algoritmo 5. Considerações Finais
  • 5. Introdução Aprendizagem por Reforço Processo de decisão de Markov Algoritmo Q-learning
  • 6. Introdução Aprendizagem por Reforço Processo de decisão de Markov Algoritmo Q-learning
  • 7. Introdução Aprendizagem por Reforço Processo de decisão de Markov Algoritmo Q-learning
  • 8. Introdução: o problema Como desenvolver um agente que deve ter a capacidade de aprender qual rota(a) um robô pode percorrer para sair do ponto A e chegar a um ponto B de uma cidade ?
  • 10. Contexto: Aprendizagem por Reforço Segundo Mitchell (1997, p.367) é uma paradigma computacional de aprendizagem onde um agente autônomo percebe e age no seu ambiente para aprender a escolher melhores ações com o intuito de atingir seus objetivos.
  • 11. Contexto: Aprendizagem por Reforço Um exemplo de aprendizagem por reforço, a formação de um agente para jogar um jogo onde o agente pode oferecer uma recompensa positiva quando o jogo é ganho, recompensa negativa quando se está perdendo e zero recompensa em todos os outros estados Mitchell (1999,p.367).
  • 12. Contexto: Aprendizagem por Reforço S0 r0 S1 a1a0 r1 S2 … Agent Environment state reward action Fonte: (MITCHELL,1997, p.365)
  • 13. Contexto: Aprendizagem por Reforço Agent
  • 14. Contexto: Aprendizagem por Reforço Agent Environment
  • 15. Contexto: Aprendizagem por Reforço Agent Environment action
  • 16. Contexto: Aprendizagem por Reforço Agent Environment reward action
  • 17. Contexto: Aprendizagem por Reforço Agent Environment state reward action
  • 18. Contexto: Aprendizagem por Reforço S0 Agent Environment state reward action
  • 19. Contexto: Aprendizagem por Reforço S0 r0 a0 Agent Environment state reward action
  • 20. Contexto: Aprendizagem por Reforço S0 r0 S a1a0 r1 Agent Environment state reward action S1
  • 21. Contexto: Aprendizagem por Reforço S0 r0 S a1a0 r1 S2 … Agent Environment state reward action S1 aX rX
  • 22. Contexto: Aprendizagem por Reforço “... O aprendizado baseia-se no agente interagir com o ambiente para realizar o aprendizado, este ambiente é representado por um conjunto finito de estados S = { s¹, s²...s³ } , cujos elementos s representam os estados do ambiente...” Sutton (1998,p.234).
  • 23. Contexto: Markov “... O São ditos “de Markov” (ou “Markovianos”) porque os processos modelados obedecem a propriedade de Markov: o efeito de uma ação em um estado depende apenas da ação e do estado atual do sistema ...”(P ELLEGRINI, 2007, p.134).
  • 24. Contexto: Processo de decisão de Markov (MDP) • é uma tupla (S, A, T, R) onde: ✔ S é um conjunto de estados; ✔ A é um conjunto de ações; ✔ T é probabilidade de o sistema passar para outro estado s ∈ S, dado uma ação a ∈ A (denotada T (S |S, A)); ✔ R : S → A é uma função que dá recompensa por tomar uma decisão.
  • 25. Contexto: Processo de decisão de Markov (MDP) PROBLEMA ESTADO AÇÕES RECOMPENSA Agente Jogador de damas Configurações do tabuleiro Mover uma determinada peça capturas + perdas - Agente em jogo de luta Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Mover em uma determinada direção, lançar magia, dar porrada, etc... Sangue tirado + Sangue perdido - Robô Aspirador de Pó interagir com o ambiente e a reconhecer os obstáculos Ir para norte ou sul, e ir para a esquerda ou direita Aspirar pó sem esbarrar em objeto + Esbarrar em objeto -
  • 26. Contexto: Processo de decisão de Markov (MDP) PROBLEMA ESTADO AÇÕES RECOMPENSA Agente Jogador de damas Configurações do tabuleiro Mover uma determinada peça capturas + perdas - Agente em jogo de luta Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Mover em uma determinada direção, lançar magia, dar porrada, etc... Sangue tirado + Sangue perdido - Robô Aspirador de Pó interagir com o ambiente e a reconhecer os obstáculos Ir para norte ou sul, e ir para a esquerda ou direita Aspirar pó sem esbarrar em objeto + Esbarrar em objeto -
  • 27. Contexto: Processo de decisão de Markov (MDP) PROBLEMA ESTADO AÇÕES RECOMPENSA Agente Jogador de damas Configurações do tabuleiro Mover uma determinada peça capturas + perdas - Agente em jogo de luta Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Mover em uma determinada direção, lançar magia, dar porrada, etc... Sangue tirado + Sangue perdido - Robô Aspirador de Pó interagir com o ambiente e a reconhecer os obstáculos Ir para norte ou sul, e ir para a esquerda ou direita Aspirar pó sem esbarrar em objeto + Esbarrar em objeto -
  • 28. O algoritmo: Q-learning “... Q-learning, segundo Mitchell (1999,p.386) é uma forma de reforço de aprendizagem em que o agente aprende uma função de avaliação sobre os estados e ações. Essa função de avaliação é definida por Q ( s , a) ...”
  • 29. //Algoritmo Q-learning 1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero. 2 Observe o estado atual s 3 Faça sempre: 4 Selecione uma ação a utilizado a política e executa 5 Receba recompensa imediata r 6 Observe o novo estado s' 7 Atualizar a entrada da tabela de Q (s, a), de acordo com: 8 Q ( s , a ) r + ymax(s',a') a' 9 s ← s' Algoritmo Q-learning
  • 30. Aplicação do Algoritmo . Código de um algoritmo Q-learning, onde o agente tem a capacidade de aprender um caminho entre a sua posição inicial e a posição do outro robô.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
  • 52. Referências . Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997. LIMA, F.C.J. Algoritmo Q-learning como estrategia de exploração e/ou explotação para as mataheurísticas GRASP e algoritmos genéticos. Disponível em:<ftp://ftp.ufrn.br/pub/LJ.pdf>. Acessado em: 25 de abril de 2014. PELLEGRINI, J; WAINER.J. Processo de decisão de Markov: um tutorial. São Paulo, 2007.