O documento discute os conceitos de aprendizagem por reforço, incluindo como um agente pode aprender quais ações levam a maiores recompensas por tentativa e erro, e algoritmos como Q-learning e SARSA. Também aborda questões práticas como exploração versus exploração e aplicações da aprendizagem por reforço em problemas como um labirinto.
3. Tipos de Aprendizagem (revisão) Procura Dado um espaço de soluções, procurar a melhor (ou uma aceitável) Aprendizagem por Reforço Interagir com um ambiente e descobrir qual a melhor acção para cada estado Aprendizagem Não supervisionada Dados vários padrões descobrir semelhanças entre eles, agrupá-los Reduzir número de atributos considerados Aprendizagem Supervisionada Sabendo o que se passou no passado, prever o que se segue Induzir uma regra dados exemplos 11-10-2010 Aprendizagem Automática / Machine Learning 3
4. Aprendizagem por Reforço É aplicado em problemas em que um “agente” tem de interagir com um ambiente (às vezes dinâmico) O agente tem de aprender quais as acções que lhe dão maiores recompensas, por tentativa e erro O agente consegue observar o estado do ambiente (ou parte dele) e o seu estado interno O agente avalia a qualidade de cada estado e cada acção 11-10-2010 Aprendizagem Automática / Machine Learning 4
5. Algoritmo genérico Recepção de estado do ambiente (s) no tempo t Escolha da acção (a) Recepção da recompensa (r, positiva, negativa, binária ou decimal) Actualização dos parâmetros de escolha da acção (usando a politica de escolha, (s,a)) 11-10-2010 Aprendizagem Automática / Machine Learning 5
6. Recompensa Pode ser externa (basear-se em mais informação do que o estado) ou interna (crítico heurístico, heuristiccritic) Avaliação do estado/Acção executados pelo agente Tipicamente o agente tenta optimizar a soma, descontada, das recompensas a longo prazo: R: recompensa total rt: recompensa no tempo t γ: termo de desconto para recompensas futuras 0< γ<1 11-10-2010 Aprendizagem Automática / Machine Learning 6
7. RL: Modelo do sistema Equação de Bellman V*(s): Valor óptimo (ou utilidade) do estado s P(s,a,s’): Probabilidade de transitar do estado s, para o estado s’ após efectuar acção a Se são conhecidos r,s,a e P(s,a,s’)… Pode ser resolvido analiticamente, ou … Valueiteration: Itera pelos valores possíveis para o estado (há várias politicas para o efeito) até convergir. 11-10-2010 Aprendizagem Automática / Machine Learning 7
8. RL: Diferenças temporais Temporal DifferenceLearningTD(λ) [Sutton 88] Método de descobrir a utilidade interagindo com o ambiente (sem modelo dado) TD(0) com eligibility traces s’: estado seguinte a s (observado) (note-se que esta actualização é feita só ao atingir o objectivo) e(s): elegibilidade do estado s para actualização, pode ser visto também como o grau em que foi visitado no passado recente : taxa de aprendizagem 11-10-2010 Aprendizagem Automática / Machine Learning 8
9. Q-Learning[Watkins 89] Q(s,a): Qualidade da escolha da acção a, no estado s Para garantir desempenho óptimo é preciso passar por todos os pares (s,a) um número infinito de vezes e que α diminua ao longo do treino. 11-10-2010 Aprendizagem Automática / Machine Learning 9
10. SARSA[Rummery, Niranjan 94] O máximo da qualidade prevista para a próxima acção é substituído pela qualidade efectiva da acção tomada Vantagem: não usa estimativas Desvantagens: Só pode ser actualizado depois de escolher acção seguinte Não pode, simultaneamente, explorar acções não óptimas e usar a melhor acção seguinte para aprender 11-10-2010 Aprendizagem Automática / Machine Learning 10
11. RL: Escolha da próxima acção Problema: Exploration vs. Exploitation Escolher a melhor (Exploitation) Exploração (de Boltzmann) (com temperatura (T) decrescente)Mesmo princípio que SimulatedAnnealing. ε-greedy Escolher com probabilidade 1-ε a melhor acção Escolher com probabilidade ε uma acção aleatória ε deve diminuir ao longo do treino 11-10-2010 Aprendizagem Automática / Machine Learning 11
12. RL: Questões práticas Problemas Exploração de Boltzmann: cálculo de exponenciais Sistemas com grande variância (problemas dinâmicos) Observações parciais do estado Coordenação em Sistemas Multiagentes (TragedyOftheCommons), equilíbrio de Nash Grande número de estados e acções, possibilidades de solução: ANN Hierarchical RL (MSc/PhD) Repetição das experiências por ordem inversa [Lin 92] Dyna: Aprender modelo e repetir experiências [Sutton 90] 11-10-2010 Aprendizagem Automática / Machine Learning 12
13. Problema (Labirinto) Dado um labirinto, que pode ser percorrido repetidas vezes, é possível criar um programa que aprenda qual o melhor caminho para sair desse labirinto? 11-10-2010 Aprendizagem Automática / Machine Learning 13
14. Referências [Bellman 57] R. Bellman, DynamicProgramming, Princeton UniversityPress, 1957 [Sutton 88] R. S. Sutton, Learning to predictbythemethodof temporal diferences, MachineLearning 3(1), pp 9-44, 1988 [Watkins 89] C. J. C. H. Watkins, LearningfromDelayedRewards, Ph.D. thesis Kings College, Cambridge, UK, 1989 [Sutton 90] R. S. Sutton, Integratedarchitectures for learningplanningandreactingbasedonapproximatingdynamicprogrammig, inProc. oftheSeventhInternationalConfertenceonMachineLearning, Austin TX, MorganKaufmann, 1990 [Kaelbling et al. 96] Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey, inJournal of Artificial Intelligence Research4: 237–285, 1996 [Sutton, Barto 98] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction. MIT Press. ISBN 0-262-19398-1, 1998 [Rummery, Niranjan 94] G. A. Rummery, M. Niranjan, Online Q-Learning using connectionist systems., Tech. report CUED/F-INFENG/TR166, Cambridge University. [Whitehead 91] S. D. Whitehead, A complexity analysis of cooperative mechanisms in reinforcement learning, inProc. of the 9th National Conf. on AI (AAAI-91), pp. 607–613, 1991 [Lin 92] L.-J. Lin, Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 8, 293–321 ,1992
15. Referências [Stone, Veloso 00] Peter Stone, Manuela Veloso, Multiagent systems: A survey from a machine learning perspective, Autonomous Robots, 8 (3), pp. 345-383 2000(versão original 1996/97) [Wiering et al. 99] M. Wiering, B. Krose, F. Groen, Learning in multiagent systems, Technical report, University of Amsterdam,1999 [Hoen 06] Pieter Jan ’t Hoen, Karl Tuyls, LiviuPanait, Sean Luke, and Johannes La Poutre. An Overview of Cooperative and Competitive Multiagent Learning. In K. Tuyls, P.J. ’t Hoen, K. Verbeeck, and S. Sen, editors, Learning and Adaptation in Multi-Agent Systems, Lecture Notes in Artificial Intelligence, pp. 1–49, Springer Verlag, Berlin, 2006. [Panait, Luke 05] L. Panait, S. Luke, Cooperative Multi-Agent Learning: The State of the Art, in Autonomous Agents and Multi-Agent Systems, 2005 [Brooks 86] R. A. Brooks,"A Robust Layered Control System For A Mobile Robot", IEEE Journal Of Robotics And Automation, RA-2, April. pp. 14-23, 1986. [Brooks 87] R. A. Brooks, "Planning is just a way of avoiding figuring out what to do next", Technical report, MIT Artificial Intelligence Laboratory, 1987. [Brooks 90] R. A. Brooks, “ElephantsDon’t Play Chess”, RoboticsandAutonomousSystems 6, pp. 3-15, 1990
16. Referências [Littman 94] L. M. Littman, Markov games as a framework for multi-agent reinforcement learning. Proceedings of the Eleventh International Conference on Machine Learning (pp. 157–163). San Francisco: Morgan Kaufman, 1994. [Bowling 00] Michael Bowling, Convergence problems of general-sum multiagent reinforcement learning, In Proceedings of the Seventeenth International Conference on Machine Learning (ICML) , pages 89--94. Morgan Kaufman, June 2000 [Hayneset al. 95] T. Haynes, S. Sen, D. Schoenefeld, andR.Wainwright, Evolvingmultiagentcoordinationstrategieswithgeneticprogramming, TechnicalReport UTULSA-MCS-95-04, TheUniversityofTulsa, May 31, 1995. [Potteset al. 95] M. Potter, K. De Jong, and J. J. Grefenstette. A coevolutionaryapproach to learningsequentialdecisionrules.InProceedingsfromtheSixthInternationalConferenceonGeneticAlgorithms, pages 366–372.Morgan Kaufmann, Publishers, Inc., 1995. [Bowling, Veloso 00] M. Bowling,M. Veloso. Ananalysisofstochastic game theory for multiagentreinforcementlearning.TechnicalReport CMU-CS-00-165, ComputerScienceDepartment, CarnegieMellonUniversity, 2000. [Wolpert et al. 99] D. Wolpert, K. Tumer, and J. Frank. Using collective intelligence to route internet traffic. In Advances in Neural Information Processing Systems - 11. MIT Press, 1999.