SlideShare uma empresa Scribd logo
1 de 24
Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero  de 2009 Aprendizaje Automático
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que  siente  y  reacciona  con su entorno, puede  aprender a elegir  acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir  política de control  o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0  + Ɣ r 1  + Ɣ²r 2  + ... donde 0  ≤  Ɣ < 1 ... Agente Entorno
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo ,[object Object]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],Aprendizaje por refuerzo ,[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL  - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1  S 2  . S n  n=3 8 (6561)   3 8 PATROL  FIRE_AROUND  BE_QUIET  GO_FOR_COOKIES FIRE_CRAZY  RAMBOW  STOP  ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR ....  Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8  x 7 45927 elementos NUMROBOTS  = 0, SEE_ROBOT  = 1, SEE_WALL  = 2, SEE_COOKIE = 3, SEE_MINE  = 4, SEE_BULLET = 5, MY_ENERGY  = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions  , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values();  calculate_state();  reward = energy + 400 / (robots_left *  robots_left); action = Qt.next_action(state, reward); execute_action(action);
Resultados Introducción   Entorno   Estrategia   Conclusiones   Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción   Entorno   Estrategia   Conclusiones   Futuro
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object]
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro
Conclusiones sobre los resultados  José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Acciones Futuras José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell -  1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila –  2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher –  2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction,  MIT Press, Cambridge, MA -  1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz -  2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ¿Preguntas? [email_address]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo

Mais conteúdo relacionado

Semelhante a Aprendizaje por Refuerzo: Luchas de Robots

Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)
luzenith_g
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulación
Alejandra Pérez
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Dave R Rdez
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermedia
sinchan607
 

Semelhante a Aprendizaje por Refuerzo: Luchas de Robots (20)

Curso java desde cero nivel i - modulo iii
Curso java desde cero   nivel i - modulo iiiCurso java desde cero   nivel i - modulo iii
Curso java desde cero nivel i - modulo iii
 
Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)
 
Colisiones (2) (1)
Colisiones (2) (1)Colisiones (2) (1)
Colisiones (2) (1)
 
EVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOSEVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOS
 
Introduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasIntroduccion a la Simulación de Sistemas
Introduccion a la Simulación de Sistemas
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulación
 
ISO 13053
ISO 13053ISO 13053
ISO 13053
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datos
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCO
 
Presentacion robotica
Presentacion roboticaPresentacion robotica
Presentacion robotica
 
Presentacion fermath
Presentacion fermathPresentacion fermath
Presentacion fermath
 
talleres de lpp
talleres de lpptalleres de lpp
talleres de lpp
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermedia
 
Sesion 04 NXT
Sesion 04 NXTSesion 04 NXT
Sesion 04 NXT
 
Complejidad Computacional
Complejidad ComputacionalComplejidad Computacional
Complejidad Computacional
 
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
 
Teoria optimizacion
Teoria optimizacionTeoria optimizacion
Teoria optimizacion
 
TOminer-1.2
TOminer-1.2TOminer-1.2
TOminer-1.2
 
trabajo final
trabajo finaltrabajo final
trabajo final
 
Final Degree Project SMIT
Final Degree Project SMITFinal Degree Project SMIT
Final Degree Project SMIT
 

Mais de Joselu Marina

Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp Ma
Joselu Marina
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de Genes
Joselu Marina
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos Biomédicos
Joselu Marina
 

Mais de Joselu Marina (15)

La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020
 
Kubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaKubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y Taniwa
 
Visión sobre tecnología y medicina
Visión sobre tecnología y medicinaVisión sobre tecnología y medicina
Visión sobre tecnología y medicina
 
mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013
 
mememtum: Móviles para la salud
mememtum: Móviles para la saludmememtum: Móviles para la salud
mememtum: Móviles para la salud
 
Taniwa: Servicios y productos
Taniwa: Servicios y productosTaniwa: Servicios y productos
Taniwa: Servicios y productos
 
Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp Ma
 
Abredatos2011
Abredatos2011Abredatos2011
Abredatos2011
 
Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)
 
Osmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioOsmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocio
 
bioLabeler para primerViernes
bioLabeler para primerViernesbioLabeler para primerViernes
bioLabeler para primerViernes
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de Genes
 
Priorización de Requisitos
Priorización de RequisitosPriorización de Requisitos
Priorización de Requisitos
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos Biomédicos
 
Osmius morfeo2010
Osmius morfeo2010Osmius morfeo2010
Osmius morfeo2010
 

Último

RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
helmer del pozo cruz
 
Profecia 2300 dias explicada, Daniel 8:14
Profecia 2300 dias explicada, Daniel 8:14Profecia 2300 dias explicada, Daniel 8:14
Profecia 2300 dias explicada, Daniel 8:14
KevinBuenrostro4
 
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdfPasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
NELLYKATTY
 
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdfANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
lvela1316
 

Último (20)

Época colonial: vestimenta, costumbres y juegos de la época
Época colonial: vestimenta, costumbres y juegos de la épocaÉpoca colonial: vestimenta, costumbres y juegos de la época
Época colonial: vestimenta, costumbres y juegos de la época
 
RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
RESOLUCION_VICE_MINISTERIAL-00048-2024-M-EVALUACIÓN EVALAUCION FORMATIVA MINE...
 
11.NEOLIBERALISMO: que es, ventajas, desventajas, consecuenciaspptx
11.NEOLIBERALISMO: que es, ventajas, desventajas, consecuenciaspptx11.NEOLIBERALISMO: que es, ventajas, desventajas, consecuenciaspptx
11.NEOLIBERALISMO: que es, ventajas, desventajas, consecuenciaspptx
 
Lecciones 07 Esc. Sabática. Motivados por la esperanza
Lecciones 07 Esc. Sabática. Motivados por la esperanzaLecciones 07 Esc. Sabática. Motivados por la esperanza
Lecciones 07 Esc. Sabática. Motivados por la esperanza
 
a propósito de la globalización y sus efectos
a propósito de la globalización y sus efectosa propósito de la globalización y sus efectos
a propósito de la globalización y sus efectos
 
flujo de materia y energía ecosistemas.
flujo de materia y  energía ecosistemas.flujo de materia y  energía ecosistemas.
flujo de materia y energía ecosistemas.
 
Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)
 
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesisnovelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
 
ciclos biogeoquimicas y flujo de materia ecosistemas
ciclos biogeoquimicas y flujo de materia ecosistemasciclos biogeoquimicas y flujo de materia ecosistemas
ciclos biogeoquimicas y flujo de materia ecosistemas
 
Profecia 2300 dias explicada, Daniel 8:14
Profecia 2300 dias explicada, Daniel 8:14Profecia 2300 dias explicada, Daniel 8:14
Profecia 2300 dias explicada, Daniel 8:14
 
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdfPasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
 
¿Que es Fuerza? online 2024 Repaso CRECE.pptx
¿Que es Fuerza? online 2024 Repaso CRECE.pptx¿Que es Fuerza? online 2024 Repaso CRECE.pptx
¿Que es Fuerza? online 2024 Repaso CRECE.pptx
 
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdfANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
 
DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptxDESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
 
Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)
 
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdfMETODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
 
Vínculo afectivo (labor expositivo de grupo )
Vínculo afectivo (labor expositivo de grupo )Vínculo afectivo (labor expositivo de grupo )
Vínculo afectivo (labor expositivo de grupo )
 
EVALUACION del tercer trimestre 2024 nap.docx
EVALUACION  del tercer trimestre 2024 nap.docxEVALUACION  del tercer trimestre 2024 nap.docx
EVALUACION del tercer trimestre 2024 nap.docx
 
TERCER GRADO PROGRAMACION ANUAL CCSS 3° - 2024.docx
TERCER GRADO PROGRAMACION ANUAL CCSS 3° - 2024.docxTERCER GRADO PROGRAMACION ANUAL CCSS 3° - 2024.docx
TERCER GRADO PROGRAMACION ANUAL CCSS 3° - 2024.docx
 
Power Point : Motivados por la esperanza
Power Point : Motivados por la esperanzaPower Point : Motivados por la esperanza
Power Point : Motivados por la esperanza
 

Aprendizaje por Refuerzo: Luchas de Robots

  • 1. Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero de 2009 Aprendizaje Automático
  • 2. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que siente y reacciona con su entorno, puede aprender a elegir acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
  • 3.
  • 4. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir política de control o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0 + Ɣ r 1 + Ɣ²r 2 + ... donde 0 ≤ Ɣ < 1 ... Agente Entorno
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1 S 2 . S n n=3 8 (6561) 3 8 PATROL FIRE_AROUND BE_QUIET GO_FOR_COOKIES FIRE_CRAZY RAMBOW STOP ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR .... Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8 x 7 45927 elementos NUMROBOTS = 0, SEE_ROBOT = 1, SEE_WALL = 2, SEE_COOKIE = 3, SEE_MINE = 4, SEE_BULLET = 5, MY_ENERGY = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
  • 15. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values(); calculate_state(); reward = energy + 400 / (robots_left * robots_left); action = Qt.next_action(state, reward); execute_action(action);
  • 16.
  • 17. Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción Entorno Estrategia Conclusiones Futuro
  • 18.
  • 19. Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro
  • 20.
  • 21.
  • 22. Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell - 1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila – 2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher – 2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction, MIT Press, Cambridge, MA - 1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz - 2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
  • 23. Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro ¿Preguntas? [email_address]
  • 24.