SlideShare uma empresa Scribd logo
1 de 16
AprendizagemAutomática Mestrado  em Engenharia Informática
Sumário Aprendizagem por Reforço 11-10-2010 Aprendizagem Automática / Machine Learning 2
Tipos de Aprendizagem (revisão) Procura Dado um espaço de soluções, procurar a melhor (ou uma aceitável) Aprendizagem por Reforço Interagir com um ambiente e descobrir qual a melhor acção para cada estado Aprendizagem Não supervisionada Dados vários padrões descobrir semelhanças entre eles, agrupá-los Reduzir número de atributos considerados Aprendizagem Supervisionada Sabendo o que se passou no passado, prever o que se segue Induzir uma regra dados exemplos  11-10-2010 Aprendizagem Automática / Machine Learning 3
Aprendizagem por Reforço É aplicado em problemas em que um “agente” tem de interagir com um ambiente (às vezes dinâmico) O agente tem de aprender quais as acções que lhe dão maiores recompensas, por tentativa e erro O agente consegue observar o estado do ambiente (ou parte dele) e o seu estado interno O agente avalia a qualidade de cada estado e cada acção 11-10-2010 Aprendizagem Automática / Machine Learning 4
Algoritmo genérico Recepção de estado do ambiente (s) no tempo t Escolha da acção (a) Recepção da recompensa (r, positiva, negativa, binária ou decimal) Actualização dos parâmetros de escolha da acção (usando a politica de escolha, (s,a)) 11-10-2010 Aprendizagem Automática / Machine Learning 5
Recompensa Pode ser  externa (basear-se em mais informação do que o estado) ou  interna (crítico heurístico, heuristiccritic) Avaliação do estado/Acção executados pelo agente Tipicamente o agente tenta optimizar a soma, descontada, das recompensas a longo prazo: R: recompensa total rt: recompensa no tempo t γ: termo de desconto para recompensas futuras 0< γ<1 11-10-2010 Aprendizagem Automática / Machine Learning 6
RL: Modelo do sistema Equação de Bellman V*(s): Valor óptimo (ou utilidade) do estado s P(s,a,s’): Probabilidade de transitar do estado s, para o estado s’ após efectuar acção a Se são conhecidos r,s,a e P(s,a,s’)…  Pode ser resolvido analiticamente, ou …  Valueiteration: Itera pelos valores possíveis para o estado (há várias politicas para o efeito) até convergir. 11-10-2010 Aprendizagem Automática / Machine Learning 7
RL: Diferenças temporais Temporal DifferenceLearningTD(λ) [Sutton 88] Método de descobrir a utilidade interagindo com o ambiente (sem modelo dado) TD(0) com eligibility traces s’: estado seguinte a s (observado) (note-se que esta actualização é feita só ao atingir o objectivo) e(s): elegibilidade do estado s para actualização, pode ser visto também como o grau em que foi visitado no passado recente  : taxa de aprendizagem 11-10-2010 Aprendizagem Automática / Machine Learning 8
Q-Learning[Watkins 89] Q(s,a): Qualidade da escolha da acção a, no estado s Para garantir desempenho óptimo é preciso passar por todos os pares (s,a) um número infinito de vezes e que α diminua ao longo do treino. 11-10-2010 Aprendizagem Automática / Machine Learning 9
SARSA[Rummery, Niranjan 94] O máximo da qualidade prevista para a próxima acção é substituído pela qualidade efectiva da acção tomada  Vantagem: não usa estimativas Desvantagens:  Só pode ser actualizado depois de escolher acção seguinte Não pode, simultaneamente, explorar acções não óptimas e usar a melhor acção seguinte para aprender 11-10-2010 Aprendizagem Automática / Machine Learning 10
RL: Escolha da próxima acção Problema: Exploration vs. Exploitation Escolher a melhor (Exploitation) Exploração (de Boltzmann) (com temperatura (T) decrescente)Mesmo princípio que SimulatedAnnealing.  ε-greedy Escolher com probabilidade 1-ε a melhor acção Escolher com probabilidade ε uma acção aleatória ε deve diminuir ao longo do treino 11-10-2010 Aprendizagem Automática / Machine Learning 11
RL: Questões práticas Problemas Exploração de Boltzmann: cálculo de exponenciais Sistemas com grande variância (problemas dinâmicos) Observações parciais do estado Coordenação em Sistemas Multiagentes (TragedyOftheCommons), equilíbrio de Nash Grande número de estados e acções, possibilidades de solução:  ANN Hierarchical RL (MSc/PhD) Repetição das experiências por ordem inversa [Lin 92] Dyna: Aprender modelo e repetir experiências [Sutton 90] 11-10-2010 Aprendizagem Automática / Machine Learning 12
Problema (Labirinto)  Dado um labirinto, que pode ser percorrido repetidas vezes, é possível criar um programa que aprenda qual o melhor caminho para sair desse labirinto? 11-10-2010 Aprendizagem Automática / Machine Learning 13
Referências [Bellman 57] R. Bellman, DynamicProgramming, Princeton UniversityPress, 1957 [Sutton 88] R. S. Sutton, Learning to predictbythemethodof temporal diferences, MachineLearning 3(1), pp 9-44, 1988 [Watkins 89] C. J. C. H. Watkins, LearningfromDelayedRewards, Ph.D. thesis Kings College, Cambridge, UK, 1989 [Sutton 90] R. S. Sutton, Integratedarchitectures for learningplanningandreactingbasedonapproximatingdynamicprogrammig, inProc. oftheSeventhInternationalConfertenceonMachineLearning, Austin TX, MorganKaufmann, 1990 [Kaelbling  et al. 96] Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey, inJournal of Artificial Intelligence Research4: 237–285, 1996   [Sutton, Barto 98] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction. MIT Press. ISBN 0-262-19398-1, 1998 [Rummery, Niranjan 94] G. A. Rummery, M. Niranjan, Online Q-Learning using connectionist systems., Tech. report CUED/F-INFENG/TR166, Cambridge University. [Whitehead 91] S. D. Whitehead, A complexity analysis of cooperative mechanisms in reinforcement learning, inProc. of the 9th National Conf. on AI (AAAI-91), pp. 607–613, 1991 [Lin 92] L.-J. Lin, Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 8, 293–321 ,1992
Referências [Stone, Veloso 00] Peter Stone, Manuela Veloso, Multiagent systems: A survey from a machine learning perspective, Autonomous Robots, 8 (3), pp. 345-383 2000(versão original 1996/97) [Wiering et al. 99] M. Wiering, B. Krose, F. Groen, Learning in multiagent systems, Technical report, University of Amsterdam,1999 [Hoen 06] Pieter Jan ’t Hoen, Karl Tuyls, LiviuPanait, Sean Luke, and Johannes La Poutre. An Overview of Cooperative and Competitive Multiagent Learning. In K. Tuyls, P.J. ’t Hoen, K. Verbeeck, and S. Sen, editors, Learning and Adaptation in Multi-Agent Systems, Lecture Notes in Artificial Intelligence, pp. 1–49, Springer Verlag, Berlin, 2006. [Panait, Luke 05] L. Panait, S. Luke, Cooperative Multi-Agent Learning: The State of the Art, in Autonomous Agents and Multi-Agent Systems, 2005 [Brooks 86] R. A. Brooks,"A Robust Layered Control System For A Mobile Robot", IEEE Journal Of Robotics And Automation, RA-2, April. pp. 14-23, 1986.  [Brooks 87] R. A. Brooks, "Planning is just a way of avoiding figuring out what to do next", Technical report, MIT Artificial Intelligence Laboratory, 1987.  [Brooks 90] R. A. Brooks, “ElephantsDon’t Play Chess”, RoboticsandAutonomousSystems 6, pp. 3-15, 1990
Referências [Littman 94] L. M. Littman, Markov games as a framework for multi-agent reinforcement learning. Proceedings of the Eleventh International Conference on Machine Learning (pp. 157–163). San Francisco: Morgan Kaufman, 1994. [Bowling 00] Michael Bowling, Convergence problems of general-sum multiagent reinforcement learning, In Proceedings of the Seventeenth International Conference on Machine Learning (ICML) , pages 89--94. Morgan Kaufman, June 2000 [Hayneset al. 95] T. Haynes, S. Sen, D. Schoenefeld, andR.Wainwright, Evolvingmultiagentcoordinationstrategieswithgeneticprogramming, TechnicalReport UTULSA-MCS-95-04, TheUniversityofTulsa, May 31, 1995. [Potteset al. 95] M. Potter, K. De Jong, and J. J. Grefenstette. A coevolutionaryapproach to learningsequentialdecisionrules.InProceedingsfromtheSixthInternationalConferenceonGeneticAlgorithms, pages 366–372.Morgan Kaufmann, Publishers, Inc., 1995. [Bowling,  Veloso 00] M. Bowling,M. Veloso. Ananalysisofstochastic game theory for multiagentreinforcementlearning.TechnicalReport CMU-CS-00-165, ComputerScienceDepartment, CarnegieMellonUniversity, 2000. [Wolpert et al. 99] D. Wolpert, K. Tumer, and J. Frank. Using collective intelligence to route internet traffic. In Advances in Neural Information Processing Systems - 11. MIT Press, 1999.

Mais conteúdo relacionado

Mais procurados

Variabilidade e estrutura de prática em Aprendizagem Motora
Variabilidade e estrutura de prática em Aprendizagem MotoraVariabilidade e estrutura de prática em Aprendizagem Motora
Variabilidade e estrutura de prática em Aprendizagem MotoraCassio Meira Jr.
 
Epistemologia genética de jean piaget primeira parte
Epistemologia genética de jean piaget primeira parteEpistemologia genética de jean piaget primeira parte
Epistemologia genética de jean piaget primeira parteAnaí Peña
 
Desenvolvimento cognitivo
Desenvolvimento cognitivoDesenvolvimento cognitivo
Desenvolvimento cognitivoDiana Sousa
 
Treinamento de velocidade, flexibilidade e coordenação
Treinamento de velocidade, flexibilidade e coordenaçãoTreinamento de velocidade, flexibilidade e coordenação
Treinamento de velocidade, flexibilidade e coordenaçãowashington carlos vieira
 
Memória - Psicologia
Memória - PsicologiaMemória - Psicologia
Memória - PsicologiaAna Felizardo
 
Processos cognitivos o pensamento
Processos cognitivos  o pensamentoProcessos cognitivos  o pensamento
Processos cognitivos o pensamentopsicologiaazambuja
 
3-PLASTICIDADE NEURAL.pptx
3-PLASTICIDADE NEURAL.pptx3-PLASTICIDADE NEURAL.pptx
3-PLASTICIDADE NEURAL.pptxMuniza Alfredo
 
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...Leinylson Fontinele
 
Distribuição da prática (todo-partes)
Distribuição da prática (todo-partes)Distribuição da prática (todo-partes)
Distribuição da prática (todo-partes)Cassio Meira Jr.
 
Aula Marcha humana normal.ppt
Aula Marcha humana normal.pptAula Marcha humana normal.ppt
Aula Marcha humana normal.pptIzabelVieira8
 
Jogos e Brincadeiras - Aula -01 Conceitos.pdf
Jogos e Brincadeiras - Aula -01 Conceitos.pdfJogos e Brincadeiras - Aula -01 Conceitos.pdf
Jogos e Brincadeiras - Aula -01 Conceitos.pdfGerardoMarcilioPinto
 
Medidas e avaliação em comportamento motor e aprendizagem motora
Medidas e avaliação em comportamento motor e aprendizagem motoraMedidas e avaliação em comportamento motor e aprendizagem motora
Medidas e avaliação em comportamento motor e aprendizagem motoraCassio Meira Jr.
 
Período Sensório-Motor
 Período Sensório-Motor Período Sensório-Motor
Período Sensório-MotorIara Benvindo
 

Mais procurados (20)

Variabilidade e estrutura de prática em Aprendizagem Motora
Variabilidade e estrutura de prática em Aprendizagem MotoraVariabilidade e estrutura de prática em Aprendizagem Motora
Variabilidade e estrutura de prática em Aprendizagem Motora
 
Desenvolvimento Infantil e Plasticidade Cerebral
Desenvolvimento Infantil e Plasticidade CerebralDesenvolvimento Infantil e Plasticidade Cerebral
Desenvolvimento Infantil e Plasticidade Cerebral
 
Inteligência emocional
Inteligência emocionalInteligência emocional
Inteligência emocional
 
Epistemologia genética de jean piaget primeira parte
Epistemologia genética de jean piaget primeira parteEpistemologia genética de jean piaget primeira parte
Epistemologia genética de jean piaget primeira parte
 
Desenvolvimento cognitivo
Desenvolvimento cognitivoDesenvolvimento cognitivo
Desenvolvimento cognitivo
 
Treinamento de velocidade, flexibilidade e coordenação
Treinamento de velocidade, flexibilidade e coordenaçãoTreinamento de velocidade, flexibilidade e coordenação
Treinamento de velocidade, flexibilidade e coordenação
 
Memória - Psicologia
Memória - PsicologiaMemória - Psicologia
Memória - Psicologia
 
Processos cognitivos o pensamento
Processos cognitivos  o pensamentoProcessos cognitivos  o pensamento
Processos cognitivos o pensamento
 
3-PLASTICIDADE NEURAL.pptx
3-PLASTICIDADE NEURAL.pptx3-PLASTICIDADE NEURAL.pptx
3-PLASTICIDADE NEURAL.pptx
 
Os neurónios
Os neuróniosOs neurónios
Os neurónios
 
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...
Sistemas Multimídia - Aula 04 - O Que é Multimídia (Ambientes Multimídia e Pr...
 
Distribuição da prática (todo-partes)
Distribuição da prática (todo-partes)Distribuição da prática (todo-partes)
Distribuição da prática (todo-partes)
 
Memória e Aprendizado
Memória e AprendizadoMemória e Aprendizado
Memória e Aprendizado
 
Aula Marcha humana normal.ppt
Aula Marcha humana normal.pptAula Marcha humana normal.ppt
Aula Marcha humana normal.ppt
 
Jogos e Brincadeiras - Aula -01 Conceitos.pdf
Jogos e Brincadeiras - Aula -01 Conceitos.pdfJogos e Brincadeiras - Aula -01 Conceitos.pdf
Jogos e Brincadeiras - Aula -01 Conceitos.pdf
 
Medidas e avaliação em comportamento motor e aprendizagem motora
Medidas e avaliação em comportamento motor e aprendizagem motoraMedidas e avaliação em comportamento motor e aprendizagem motora
Medidas e avaliação em comportamento motor e aprendizagem motora
 
Psicomotricidade
PsicomotricidadePsicomotricidade
Psicomotricidade
 
Período Sensório-Motor
 Período Sensório-Motor Período Sensório-Motor
Período Sensório-Motor
 
Introdução a Cognição
Introdução a CogniçãoIntrodução a Cognição
Introdução a Cognição
 
Exercício resistido
Exercício resistidoExercício resistido
Exercício resistido
 

Destaque

Redes Neurais Artificiais: Regras de Aprendizado
Redes Neurais Artificiais: Regras de AprendizadoRedes Neurais Artificiais: Regras de Aprendizado
Redes Neurais Artificiais: Regras de AprendizadoJackson Daner
 
Aula de sistema limbico reduzida foa
Aula de sistema limbico reduzida   foaAula de sistema limbico reduzida   foa
Aula de sistema limbico reduzida foaSilvyo Giffoni
 
Aprendizagem Social Bandura
Aprendizagem Social BanduraAprendizagem Social Bandura
Aprendizagem Social Banduraaritovi
 
10 dinâmicas divertidas e envolventes
10 dinâmicas divertidas e envolventes10 dinâmicas divertidas e envolventes
10 dinâmicas divertidas e envolventesSeduc MT
 

Destaque (8)

Redes Neurais Artificiais: Regras de Aprendizado
Redes Neurais Artificiais: Regras de AprendizadoRedes Neurais Artificiais: Regras de Aprendizado
Redes Neurais Artificiais: Regras de Aprendizado
 
Serotonina
SerotoninaSerotonina
Serotonina
 
Serotonina
SerotoninaSerotonina
Serotonina
 
Aula de sistema limbico reduzida foa
Aula de sistema limbico reduzida   foaAula de sistema limbico reduzida   foa
Aula de sistema limbico reduzida foa
 
Serotonina
SerotoninaSerotonina
Serotonina
 
Serotonina
SerotoninaSerotonina
Serotonina
 
Aprendizagem Social Bandura
Aprendizagem Social BanduraAprendizagem Social Bandura
Aprendizagem Social Bandura
 
10 dinâmicas divertidas e envolventes
10 dinâmicas divertidas e envolventes10 dinâmicas divertidas e envolventes
10 dinâmicas divertidas e envolventes
 

Semelhante a Aprendizagem por reforço

Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaLuís Nunes
 
Aprendizado de Máquina
Aprendizado de MáquinaAprendizado de Máquina
Aprendizado de Máquinabutest
 
Aprendizagem Supervisionada I
Aprendizagem Supervisionada IAprendizagem Supervisionada I
Aprendizagem Supervisionada ILuís Nunes
 
Atps tads 3_estrutura_dados
Atps tads 3_estrutura_dadosAtps tads 3_estrutura_dados
Atps tads 3_estrutura_dadosmarcon69
 
Umlv4 090813182632-phpapp02
Umlv4 090813182632-phpapp02Umlv4 090813182632-phpapp02
Umlv4 090813182632-phpapp02Jhonefj
 
Logica de Programação Vitor Jose de Souza.pptx
Logica de Programação Vitor Jose de Souza.pptxLogica de Programação Vitor Jose de Souza.pptx
Logica de Programação Vitor Jose de Souza.pptxJoseVitorSantanadeMe
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada IILuís Nunes
 
Apresentação por reforço
Apresentação por reforço Apresentação por reforço
Apresentação por reforço Lanylldo Araujo
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz
 
Análise Orientada a Objetos - Objetos E Classes
Análise Orientada a Objetos  -   Objetos E ClassesAnálise Orientada a Objetos  -   Objetos E Classes
Análise Orientada a Objetos - Objetos E ClassesCursoSENAC
 
[2010] Avaliaçao e Design de Sw Educativo
[2010] Avaliaçao e Design de Sw Educativo[2010] Avaliaçao e Design de Sw Educativo
[2010] Avaliaçao e Design de Sw EducativoUFPE
 
Estrutura prática_ aprendizagem motora
Estrutura prática_ aprendizagem motora Estrutura prática_ aprendizagem motora
Estrutura prática_ aprendizagem motora Luis Silio
 
Questionário sobre casos de uso e classes revisão da tentativa
Questionário sobre casos de uso e classes  revisão da tentativaQuestionário sobre casos de uso e classes  revisão da tentativa
Questionário sobre casos de uso e classes revisão da tentativaAluisioSantos4
 
59 algoritmosgeneticos(1)
59 algoritmosgeneticos(1)59 algoritmosgeneticos(1)
59 algoritmosgeneticos(1)arapido
 
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de Software
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de SoftwareAlgoritmos de Estimação de Distribuição Aplicados à Estimativa de Software
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de SoftwareJosé Corrêa Viana
 
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos Públicos
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos PúblicosPonto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos Públicos
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos PúblicosRicardo Magalhães
 
01 Orientacao A Objetos Programacao
01   Orientacao A Objetos   Programacao01   Orientacao A Objetos   Programacao
01 Orientacao A Objetos Programacaotaniamaciel
 

Semelhante a Aprendizagem por reforço (20)

Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Pro model
Pro modelPro model
Pro model
 
Aprendizado de Máquina
Aprendizado de MáquinaAprendizado de Máquina
Aprendizado de Máquina
 
Aprendizagem Supervisionada I
Aprendizagem Supervisionada IAprendizagem Supervisionada I
Aprendizagem Supervisionada I
 
Atps tads 3_estrutura_dados
Atps tads 3_estrutura_dadosAtps tads 3_estrutura_dados
Atps tads 3_estrutura_dados
 
Umlv4 090813182632-phpapp02
Umlv4 090813182632-phpapp02Umlv4 090813182632-phpapp02
Umlv4 090813182632-phpapp02
 
Logica de Programação Vitor Jose de Souza.pptx
Logica de Programação Vitor Jose de Souza.pptxLogica de Programação Vitor Jose de Souza.pptx
Logica de Programação Vitor Jose de Souza.pptx
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada II
 
Apresentação por reforço
Apresentação por reforço Apresentação por reforço
Apresentação por reforço
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
Análise Orientada a Objetos - Objetos E Classes
Análise Orientada a Objetos  -   Objetos E ClassesAnálise Orientada a Objetos  -   Objetos E Classes
Análise Orientada a Objetos - Objetos E Classes
 
[2010] Avaliaçao e Design de Sw Educativo
[2010] Avaliaçao e Design de Sw Educativo[2010] Avaliaçao e Design de Sw Educativo
[2010] Avaliaçao e Design de Sw Educativo
 
Estrutura prática_ aprendizagem motora
Estrutura prática_ aprendizagem motora Estrutura prática_ aprendizagem motora
Estrutura prática_ aprendizagem motora
 
Questionário sobre casos de uso e classes revisão da tentativa
Questionário sobre casos de uso e classes  revisão da tentativaQuestionário sobre casos de uso e classes  revisão da tentativa
Questionário sobre casos de uso e classes revisão da tentativa
 
59 algoritmosgeneticos(1)
59 algoritmosgeneticos(1)59 algoritmosgeneticos(1)
59 algoritmosgeneticos(1)
 
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de Software
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de SoftwareAlgoritmos de Estimação de Distribuição Aplicados à Estimativa de Software
Algoritmos de Estimação de Distribuição Aplicados à Estimativa de Software
 
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos Públicos
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos PúblicosPonto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos Públicos
Ponto UA: Modelos e Paradigmas de Interacção em Sistemas Interactivos Públicos
 
01 Orientacao A Objetos Programacao
01   Orientacao A Objetos   Programacao01   Orientacao A Objetos   Programacao
01 Orientacao A Objetos Programacao
 

Aprendizagem por reforço

  • 1. AprendizagemAutomática Mestrado em Engenharia Informática
  • 2. Sumário Aprendizagem por Reforço 11-10-2010 Aprendizagem Automática / Machine Learning 2
  • 3. Tipos de Aprendizagem (revisão) Procura Dado um espaço de soluções, procurar a melhor (ou uma aceitável) Aprendizagem por Reforço Interagir com um ambiente e descobrir qual a melhor acção para cada estado Aprendizagem Não supervisionada Dados vários padrões descobrir semelhanças entre eles, agrupá-los Reduzir número de atributos considerados Aprendizagem Supervisionada Sabendo o que se passou no passado, prever o que se segue Induzir uma regra dados exemplos 11-10-2010 Aprendizagem Automática / Machine Learning 3
  • 4. Aprendizagem por Reforço É aplicado em problemas em que um “agente” tem de interagir com um ambiente (às vezes dinâmico) O agente tem de aprender quais as acções que lhe dão maiores recompensas, por tentativa e erro O agente consegue observar o estado do ambiente (ou parte dele) e o seu estado interno O agente avalia a qualidade de cada estado e cada acção 11-10-2010 Aprendizagem Automática / Machine Learning 4
  • 5. Algoritmo genérico Recepção de estado do ambiente (s) no tempo t Escolha da acção (a) Recepção da recompensa (r, positiva, negativa, binária ou decimal) Actualização dos parâmetros de escolha da acção (usando a politica de escolha, (s,a)) 11-10-2010 Aprendizagem Automática / Machine Learning 5
  • 6. Recompensa Pode ser externa (basear-se em mais informação do que o estado) ou interna (crítico heurístico, heuristiccritic) Avaliação do estado/Acção executados pelo agente Tipicamente o agente tenta optimizar a soma, descontada, das recompensas a longo prazo: R: recompensa total rt: recompensa no tempo t γ: termo de desconto para recompensas futuras 0< γ<1 11-10-2010 Aprendizagem Automática / Machine Learning 6
  • 7. RL: Modelo do sistema Equação de Bellman V*(s): Valor óptimo (ou utilidade) do estado s P(s,a,s’): Probabilidade de transitar do estado s, para o estado s’ após efectuar acção a Se são conhecidos r,s,a e P(s,a,s’)… Pode ser resolvido analiticamente, ou … Valueiteration: Itera pelos valores possíveis para o estado (há várias politicas para o efeito) até convergir. 11-10-2010 Aprendizagem Automática / Machine Learning 7
  • 8. RL: Diferenças temporais Temporal DifferenceLearningTD(λ) [Sutton 88] Método de descobrir a utilidade interagindo com o ambiente (sem modelo dado) TD(0) com eligibility traces s’: estado seguinte a s (observado) (note-se que esta actualização é feita só ao atingir o objectivo) e(s): elegibilidade do estado s para actualização, pode ser visto também como o grau em que foi visitado no passado recente  : taxa de aprendizagem 11-10-2010 Aprendizagem Automática / Machine Learning 8
  • 9. Q-Learning[Watkins 89] Q(s,a): Qualidade da escolha da acção a, no estado s Para garantir desempenho óptimo é preciso passar por todos os pares (s,a) um número infinito de vezes e que α diminua ao longo do treino. 11-10-2010 Aprendizagem Automática / Machine Learning 9
  • 10. SARSA[Rummery, Niranjan 94] O máximo da qualidade prevista para a próxima acção é substituído pela qualidade efectiva da acção tomada Vantagem: não usa estimativas Desvantagens: Só pode ser actualizado depois de escolher acção seguinte Não pode, simultaneamente, explorar acções não óptimas e usar a melhor acção seguinte para aprender 11-10-2010 Aprendizagem Automática / Machine Learning 10
  • 11. RL: Escolha da próxima acção Problema: Exploration vs. Exploitation Escolher a melhor (Exploitation) Exploração (de Boltzmann) (com temperatura (T) decrescente)Mesmo princípio que SimulatedAnnealing. ε-greedy Escolher com probabilidade 1-ε a melhor acção Escolher com probabilidade ε uma acção aleatória ε deve diminuir ao longo do treino 11-10-2010 Aprendizagem Automática / Machine Learning 11
  • 12. RL: Questões práticas Problemas Exploração de Boltzmann: cálculo de exponenciais Sistemas com grande variância (problemas dinâmicos) Observações parciais do estado Coordenação em Sistemas Multiagentes (TragedyOftheCommons), equilíbrio de Nash Grande número de estados e acções, possibilidades de solução: ANN Hierarchical RL (MSc/PhD) Repetição das experiências por ordem inversa [Lin 92] Dyna: Aprender modelo e repetir experiências [Sutton 90] 11-10-2010 Aprendizagem Automática / Machine Learning 12
  • 13. Problema (Labirinto) Dado um labirinto, que pode ser percorrido repetidas vezes, é possível criar um programa que aprenda qual o melhor caminho para sair desse labirinto? 11-10-2010 Aprendizagem Automática / Machine Learning 13
  • 14. Referências [Bellman 57] R. Bellman, DynamicProgramming, Princeton UniversityPress, 1957 [Sutton 88] R. S. Sutton, Learning to predictbythemethodof temporal diferences, MachineLearning 3(1), pp 9-44, 1988 [Watkins 89] C. J. C. H. Watkins, LearningfromDelayedRewards, Ph.D. thesis Kings College, Cambridge, UK, 1989 [Sutton 90] R. S. Sutton, Integratedarchitectures for learningplanningandreactingbasedonapproximatingdynamicprogrammig, inProc. oftheSeventhInternationalConfertenceonMachineLearning, Austin TX, MorganKaufmann, 1990 [Kaelbling et al. 96] Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey, inJournal of Artificial Intelligence Research4: 237–285, 1996  [Sutton, Barto 98] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction. MIT Press. ISBN 0-262-19398-1, 1998 [Rummery, Niranjan 94] G. A. Rummery, M. Niranjan, Online Q-Learning using connectionist systems., Tech. report CUED/F-INFENG/TR166, Cambridge University. [Whitehead 91] S. D. Whitehead, A complexity analysis of cooperative mechanisms in reinforcement learning, inProc. of the 9th National Conf. on AI (AAAI-91), pp. 607–613, 1991 [Lin 92] L.-J. Lin, Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 8, 293–321 ,1992
  • 15. Referências [Stone, Veloso 00] Peter Stone, Manuela Veloso, Multiagent systems: A survey from a machine learning perspective, Autonomous Robots, 8 (3), pp. 345-383 2000(versão original 1996/97) [Wiering et al. 99] M. Wiering, B. Krose, F. Groen, Learning in multiagent systems, Technical report, University of Amsterdam,1999 [Hoen 06] Pieter Jan ’t Hoen, Karl Tuyls, LiviuPanait, Sean Luke, and Johannes La Poutre. An Overview of Cooperative and Competitive Multiagent Learning. In K. Tuyls, P.J. ’t Hoen, K. Verbeeck, and S. Sen, editors, Learning and Adaptation in Multi-Agent Systems, Lecture Notes in Artificial Intelligence, pp. 1–49, Springer Verlag, Berlin, 2006. [Panait, Luke 05] L. Panait, S. Luke, Cooperative Multi-Agent Learning: The State of the Art, in Autonomous Agents and Multi-Agent Systems, 2005 [Brooks 86] R. A. Brooks,"A Robust Layered Control System For A Mobile Robot", IEEE Journal Of Robotics And Automation, RA-2, April. pp. 14-23, 1986. [Brooks 87] R. A. Brooks, "Planning is just a way of avoiding figuring out what to do next", Technical report, MIT Artificial Intelligence Laboratory, 1987. [Brooks 90] R. A. Brooks, “ElephantsDon’t Play Chess”, RoboticsandAutonomousSystems 6, pp. 3-15, 1990
  • 16. Referências [Littman 94] L. M. Littman, Markov games as a framework for multi-agent reinforcement learning. Proceedings of the Eleventh International Conference on Machine Learning (pp. 157–163). San Francisco: Morgan Kaufman, 1994. [Bowling 00] Michael Bowling, Convergence problems of general-sum multiagent reinforcement learning, In Proceedings of the Seventeenth International Conference on Machine Learning (ICML) , pages 89--94. Morgan Kaufman, June 2000 [Hayneset al. 95] T. Haynes, S. Sen, D. Schoenefeld, andR.Wainwright, Evolvingmultiagentcoordinationstrategieswithgeneticprogramming, TechnicalReport UTULSA-MCS-95-04, TheUniversityofTulsa, May 31, 1995. [Potteset al. 95] M. Potter, K. De Jong, and J. J. Grefenstette. A coevolutionaryapproach to learningsequentialdecisionrules.InProceedingsfromtheSixthInternationalConferenceonGeneticAlgorithms, pages 366–372.Morgan Kaufmann, Publishers, Inc., 1995. [Bowling, Veloso 00] M. Bowling,M. Veloso. Ananalysisofstochastic game theory for multiagentreinforcementlearning.TechnicalReport CMU-CS-00-165, ComputerScienceDepartment, CarnegieMellonUniversity, 2000. [Wolpert et al. 99] D. Wolpert, K. Tumer, and J. Frank. Using collective intelligence to route internet traffic. In Advances in Neural Information Processing Systems - 11. MIT Press, 1999.
  • 17. Sumário Aprendizagem por Reforço 11-10-2010 Aprendizagem Automática / Machine Learning 17