Mestrado em Engenharia Informática
 Métodos de aceleração
30/01/2015 Aprendizagem Automática / Machine Learning 2
 Começar com pequenas populações / testes
para eliminar rapidamente casos de
espécimes inapropriados e focar zonas
"interessantes"
 Usar apenas mutação
 Usar conhecimento específico do problema
para minimizar a possibilidade de espécimes
inapropriados
30/01/2015 Aprendizagem Automática / Machine Learning 3
 Backward experience replay
 (Lin 92)
 Shaping
 (Randløv & Alstrøm, 1998), (Selfridge et al., 1985),
(Matari´c, 1997), (Ng et al. 1999)
30/01/2015 Aprendizagem Automática / Machine Learning 4
 Boosting (Kearns 88)
 Can a set of weak learners create a single strong learner?
 Vários modelos ("aprendedores") "fracos"
 Adicionados com um peso associado
 Exemplos mal classificados tornam-se mais importantes
para o erro em cada iteração
 Bagging - Bootstrap aggregating: (Breiman 96)
 Selecciona aleatoriamente subconjuntos de dados,
 Treina com vários "aprendedores",
 Classifica por votação.
30/01/2015 Aprendizagem Automática / Machine Learning 5
 Termo de momento (momentum)
 Duas vezes na mesma direcção, acelera,
 Em direcções contrárias, trava (ou não é usado).
 Valor típico: 0.8
)( ,1,,,1 ijtijtijtijt wwww   


x
ijijt xw ,
 A mesma taxa de aprendizagem para todos os
pesos faz com que se mova com a mesma
“velocidade” em todas as direcções
 Solução: taxas de aprendizagem diferentes para
cada peso
 ALR (Adaptive Learning Rates):


x
ijijt xw , ijtijtijt www ,,,1  


x
ijijt xw , ijtijtijtijt www ,,,,1  













Ec
wwd
wwu
ijt
ijtijtijt
ijtijtijt
ijt
,
0,
0,
,
,,,
,,,
,
5.01
8.01
2.11



c
d
u
 (Whitehead 91)Whitehead, S. D. (1991). A
complexity analysis of cooperative mechanisms
in reinforcement learning. Proc. of the 9th
National Conf. on AI (AAAI-91), pp. 607–613.
 (Lin 92) Lin, L.-J. (1992). Self-improving reactive
agents based on reinforcement learning,
planning and teaching. Machine Learning, 8,
293–321.
 F. M. Silva and L. B. Almeida, "Acceleration
Techniques for the Backpropagation Algorithm",
in L. B. Almeida and C. J.Wellekens (eds.), Neural
Networks, Springer-Verlag, 1990.
30/01/2015 Aprendizagem Automática / Machine Learning 9
 Randløv, J., & Alstrøm, P. (1998). Learning to drive a
bicycle using reinforcement learning and shaping.
Proceedings of the 15th International Conference on
Machine Learning (pp. 463.471).
 Selfridge, O., Sutton, R. S., & Barto, A. G. (1985).Training
and tracking in robotics. Proceedings of the Ninth
International Joint Conference on Articial Intelligence (pp.
670.672).
 Matari´c, M. (1997). Reinforcement learning in the
multirobot domain. Autonomous Robots, 4, 73.83.
 Ng, A., Harada, D., & Russell, S. (1999). Policy invariance
under reward transformations: theory and application to
reward shaping. Proceedings of the 16th International
Conference on Machine Learning (pp. 278.287).
30/01/2015 Aprendizagem Automática / Machine Learning 10
 (Kearns 88) Michael Kearns.Thoughts on
hypothesis boosting. Unpublished
manuscript. 1988
 (Schapire 90) Rob Schapire. Strength ofWeak
Learnability. Machine LearningVol. 5, pages
197-227. 1990
 (Breiman 96) Breiman, L., Bagging
Predictors, Machine Learning, 24(2), pp.123-
140, 1996.
30/01/2015 Aprendizagem Automática / Machine Learning 11
 Métodos de aceleração e melhoria de
resultados em Aprendizagem Supervisionada
e por Reforço
30/01/2015 Aprendizagem Automática / Machine Learning 12

Métodos de aceleração da aprendizagem

  • 1.
  • 2.
     Métodos deaceleração 30/01/2015 Aprendizagem Automática / Machine Learning 2
  • 3.
     Começar compequenas populações / testes para eliminar rapidamente casos de espécimes inapropriados e focar zonas "interessantes"  Usar apenas mutação  Usar conhecimento específico do problema para minimizar a possibilidade de espécimes inapropriados 30/01/2015 Aprendizagem Automática / Machine Learning 3
  • 4.
     Backward experiencereplay  (Lin 92)  Shaping  (Randløv & Alstrøm, 1998), (Selfridge et al., 1985), (Matari´c, 1997), (Ng et al. 1999) 30/01/2015 Aprendizagem Automática / Machine Learning 4
  • 5.
     Boosting (Kearns88)  Can a set of weak learners create a single strong learner?  Vários modelos ("aprendedores") "fracos"  Adicionados com um peso associado  Exemplos mal classificados tornam-se mais importantes para o erro em cada iteração  Bagging - Bootstrap aggregating: (Breiman 96)  Selecciona aleatoriamente subconjuntos de dados,  Treina com vários "aprendedores",  Classifica por votação. 30/01/2015 Aprendizagem Automática / Machine Learning 5
  • 6.
     Termo demomento (momentum)  Duas vezes na mesma direcção, acelera,  Em direcções contrárias, trava (ou não é usado).  Valor típico: 0.8 )( ,1,,,1 ijtijtijtijt wwww      x ijijt xw ,
  • 7.
     A mesmataxa de aprendizagem para todos os pesos faz com que se mova com a mesma “velocidade” em todas as direcções  Solução: taxas de aprendizagem diferentes para cada peso
  • 8.
     ALR (AdaptiveLearning Rates):   x ijijt xw , ijtijtijt www ,,,1     x ijijt xw , ijtijtijtijt www ,,,,1                Ec wwd wwu ijt ijtijtijt ijtijtijt ijt , 0, 0, , ,,, ,,, , 5.01 8.01 2.11    c d u
  • 9.
     (Whitehead 91)Whitehead,S. D. (1991). A complexity analysis of cooperative mechanisms in reinforcement learning. Proc. of the 9th National Conf. on AI (AAAI-91), pp. 607–613.  (Lin 92) Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 8, 293–321.  F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J.Wellekens (eds.), Neural Networks, Springer-Verlag, 1990. 30/01/2015 Aprendizagem Automática / Machine Learning 9
  • 10.
     Randløv, J.,& Alstrøm, P. (1998). Learning to drive a bicycle using reinforcement learning and shaping. Proceedings of the 15th International Conference on Machine Learning (pp. 463.471).  Selfridge, O., Sutton, R. S., & Barto, A. G. (1985).Training and tracking in robotics. Proceedings of the Ninth International Joint Conference on Articial Intelligence (pp. 670.672).  Matari´c, M. (1997). Reinforcement learning in the multirobot domain. Autonomous Robots, 4, 73.83.  Ng, A., Harada, D., & Russell, S. (1999). Policy invariance under reward transformations: theory and application to reward shaping. Proceedings of the 16th International Conference on Machine Learning (pp. 278.287). 30/01/2015 Aprendizagem Automática / Machine Learning 10
  • 11.
     (Kearns 88)Michael Kearns.Thoughts on hypothesis boosting. Unpublished manuscript. 1988  (Schapire 90) Rob Schapire. Strength ofWeak Learnability. Machine LearningVol. 5, pages 197-227. 1990  (Breiman 96) Breiman, L., Bagging Predictors, Machine Learning, 24(2), pp.123- 140, 1996. 30/01/2015 Aprendizagem Automática / Machine Learning 11
  • 12.
     Métodos deaceleração e melhoria de resultados em Aprendizagem Supervisionada e por Reforço 30/01/2015 Aprendizagem Automática / Machine Learning 12