Métodos de aceleração da aprendizagem

Mestrado em Engenharia Informática

 Métodos de aceleração
30/01/2015 Aprendizagem Automática / Machine Learning 2

 Começar com pequenas populações / testes
para eliminar rapidamente casos de
espécimes inapropriados e focar zonas
"interessantes"
 Usar apenas mutação
 Usar conhecimento específico do problema
para minimizar a possibilidade de espécimes
inapropriados

 Backward experience replay
 (Lin 92)
 Shaping
 (Randløv & Alstrøm, 1998), (Selfridge et al., 1985),
(Matari´c, 1997), (Ng et al. 1999)

 Boosting (Kearns 88)
 Can a set of weak learners create a single strong learner?
 Vários modelos ("aprendedores") "fracos"
 Adicionados com um peso associado
 Exemplos mal classificados tornam-se mais importantes
para o erro em cada iteração
 Bagging - Bootstrap aggregating: (Breiman 96)
 Selecciona aleatoriamente subconjuntos de dados,
 Treina com vários "aprendedores",
 Classifica por votação.

 Termo de momento (momentum)
 Duas vezes na mesma direcção, acelera,
 Em direcções contrárias, trava (ou não é usado).
 Valor típico: 0.8
)( ,1,,,1 ijtijtijtijt wwww   


x
ijijt xw ,

 A mesma taxa de aprendizagem para todos os
pesos faz com que se mova com a mesma
“velocidade” em todas as direcções
 Solução: taxas de aprendizagem diferentes para
cada peso

 ALR (Adaptive Learning Rates):


x
ijijt xw , ijtijtijt www ,,,1  


x
ijijt xw , ijtijtijtijt www ,,,,1  













Ec
wwd
wwu
ijt
ijtijtijt
ijtijtijt
ijt
,
0,
0,
,
,,,
,,,
,
5.01
8.01
2.11



c
d
u

 (Whitehead 91)Whitehead, S. D. (1991). A
complexity analysis of cooperative mechanisms
in reinforcement learning. Proc. of the 9th
National Conf. on AI (AAAI-91), pp. 607–613.
 (Lin 92) Lin, L.-J. (1992). Self-improving reactive
agents based on reinforcement learning,
planning and teaching. Machine Learning, 8,
293–321.
 F. M. Silva and L. B. Almeida, "Acceleration
Techniques for the Backpropagation Algorithm",
in L. B. Almeida and C. J.Wellekens (eds.), Neural
Networks, Springer-Verlag, 1990.

 Randløv, J., & Alstrøm, P. (1998). Learning to drive a
bicycle using reinforcement learning and shaping.
Proceedings of the 15th International Conference on
Machine Learning (pp. 463.471).
 Selfridge, O., Sutton, R. S., & Barto, A. G. (1985).Training
and tracking in robotics. Proceedings of the Ninth
International Joint Conference on Articial Intelligence (pp.
670.672).
 Matari´c, M. (1997). Reinforcement learning in the
multirobot domain. Autonomous Robots, 4, 73.83.
 Ng, A., Harada, D., & Russell, S. (1999). Policy invariance
under reward transformations: theory and application to
reward shaping. Proceedings of the 16th International
Conference on Machine Learning (pp. 278.287).

 (Kearns 88) Michael Kearns.Thoughts on
hypothesis boosting. Unpublished
manuscript. 1988
 (Schapire 90) Rob Schapire. Strength ofWeak
Learnability. Machine LearningVol. 5, pages
197-227. 1990
 (Breiman 96) Breiman, L., Bagging
Predictors, Machine Learning, 24(2), pp.123-
140, 1996.

 Métodos de aceleração e melhoria de
resultados em Aprendizagem Supervisionada
e por Reforço

Métodos de aceleração da aprendizagem

Mais conteúdo relacionado

Semelhante a Métodos de aceleração da aprendizagem

Métodos de aceleração da aprendizagem