Q-Learning Robolution<br />Reinforcement Learning<br />Simulação de um Robô Autónomo em problemas de labirintos<br />David...
Motivação<br />Simular um robô móvel que:<br />Actue como um agente que possua aprendizagem.<br />Desloque-se num ambiente...
Dificuldades Encontradas<br />Simular o movimento de um robô real.<br />Desenhar os sensores com os ângulos pretendidos.<b...
Descrição do Cenário<br />As paredes são representadas por linhas amarelas.<br />Machine Learning - David Jardim  2008/200...
Descrição do Agente<br />Machine Learning - David Jardim  2008/2009<br />5<br />Acções possíveis:<br />Virar à esquerda.<b...
Simular o Movimento do Robô<br />Matriz de Transformação:<br />Translada o objecto.<br />Roda o objecto em torno do seu ce...
Definição do Estado<br />Sensores de Contacto:<br />Igual a 1 quando ocorre intersecção com uma parede.<br />Igual a 0 qua...
Recompensa<br />Atribuída consoante a acção efectuada:<br />Rodar à esquerda ou à direita.<br />Depende do valor do ângulo...
Becos sem saída<br />Como escolher entre 2 caminhos que:<br />Um conduz ao farol, mas com uma recompensa imediata inferior...
Distâncias Discretas<br />Machine Learning - David Jardim  2008/2009<br />10<br />
Funcionalidades da Aplicação<br />Machine Learning - David Jardim  2008/2009<br />11<br />
Funcionalidades da Aplicação<br />Machine Learning - David Jardim  2008/2009<br />12<br />O objectivo aqui era juntar 2 ap...
Resultados<br />Machine Learning - David Jardim  2008/2009<br />13<br />
Resultados<br />Machine Learning - David Jardim  2008/2009<br />14<br />
Limitações<br />A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).<br />O deslocamento ...
Questões<br />Machine Learning - David Jardim  2008/2009<br />16<br />
Próximos SlideShares
Carregando em…5
×

Q Learning Simulator

803 visualizações

Publicada em

Q Learning Simulator

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
803
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
4
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Q Learning Simulator

  1. 1. Q-Learning Robolution<br />Reinforcement Learning<br />Simulação de um Robô Autónomo em problemas de labirintos<br />David Jardim 8730<br />
  2. 2. Motivação<br />Simular um robô móvel que:<br />Actue como um agente que possua aprendizagem.<br />Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.<br />Obtenha informação sobre o ambiente, através de um sistema sensorial.<br />Defina estados consoante a informação obtida.<br />Machine Learning - David Jardim 2008/2009<br />2<br />
  3. 3. Dificuldades Encontradas<br />Simular o movimento de um robô real.<br />Desenhar os sensores com os ângulos pretendidos.<br />Actualizar as posições de forma correcta.<br />Definir os diferentes estados do robô.<br />Atribuir recompensas de forma correcta a cada estado.<br />Problemática dos becos sem saída.<br />Machine Learning - David Jardim 2008/2009<br />3<br />
  4. 4. Descrição do Cenário<br />As paredes são representadas por linhas amarelas.<br />Machine Learning - David Jardim 2008/2009<br />4<br />
  5. 5. Descrição do Agente<br />Machine Learning - David Jardim 2008/2009<br />5<br />Acções possíveis:<br />Virar à esquerda.<br />Virar à direita.<br />Mover-se para a frente.<br />Sistema Sensorial<br />3 Sensores para a detecção de obstáculos.<br />3 Sensores para obter o ângulo relativamente ao farol.<br />Distância discreta em relação ao farol.<br />Estados possíveis:<br />
  6. 6. Simular o Movimento do Robô<br />Matriz de Transformação:<br />Translada o objecto.<br />Roda o objecto em torno do seu centro.<br />Para actualizar as coordenadas dos Sensores:<br />Actualizar o ponto inicial (centro do robô).<br />Actualizar o ponto final (extremidade do sensor).<br />Machine Learning - David Jardim 2008/2009<br />6<br />
  7. 7. Definição do Estado<br />Sensores de Contacto:<br />Igual a 1 quando ocorre intersecção com uma parede.<br />Igual a 0 quando não ocorre intersecção.<br />Verifica intersecções apenas com as 4 paredes mais próximas.<br />Sensores de Orientação:<br />Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.<br />Distância:<br />Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis.<br />Machine Learning - David Jardim 2008/2009<br />7<br />
  8. 8. Recompensa<br />Atribuída consoante a acção efectuada:<br />Rodar à esquerda ou à direita.<br />Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.<br />Deslocar-se para a frente.<br />Depende do valor da distância discreta a que o robô se encontra do farol.<br />A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.<br />Machine Learning - David Jardim 2008/2009<br />8<br />
  9. 9. Becos sem saída<br />Como escolher entre 2 caminhos que:<br />Um conduz ao farol, mas com uma recompensa imediata inferior.<br />O outro não leva ao farol, mas possui uma recompensa imediata superior.<br />Solução:<br />Foi atribuída uma recompensa suficientemente grande aos estados finais.<br />Machine Learning - David Jardim 2008/2009<br />9<br />
  10. 10. Distâncias Discretas<br />Machine Learning - David Jardim 2008/2009<br />10<br />
  11. 11. Funcionalidades da Aplicação<br />Machine Learning - David Jardim 2008/2009<br />11<br />
  12. 12. Funcionalidades da Aplicação<br />Machine Learning - David Jardim 2008/2009<br />12<br />O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.<br />
  13. 13. Resultados<br />Machine Learning - David Jardim 2008/2009<br />13<br />
  14. 14. Resultados<br />Machine Learning - David Jardim 2008/2009<br />14<br />
  15. 15. Limitações<br />A distância entre o robô e a parede não é calculada através da tensão do sensor (IR).<br />O deslocamento não é efectuado tendo em conta as rodas do robô.<br />Se o cenário for demasiado complexo, a convergência da solução é muito lenta.<br />Machine Learning - David Jardim 2008/2009<br />15<br />
  16. 16. Questões<br />Machine Learning - David Jardim 2008/2009<br />16<br />

×