SlideShare uma empresa Scribd logo
1 de 35
AprendizagemAutomática Mestrado  em Engenharia Informática
Sumário Aprendizagem Supervisionada 18-10-2010 Aprendizagem Automática / Machine Learning 2
Regressão ,[object Object],[object Object]
Reformulação Se assumirmos que a função é linear Será que a partir de um conjunto de pontos (x, f(x)) conseguimos saber w1 e w2? (i.e., qual a “regra” usada para gerar os pontos) Encontrar os pesos para minimizar o erro:
Aproximação / Regressão ,[object Object]
Se soubermos                                       (o gradiente do erro, i.e. derivada do erro em relação a cada uma das variáveis) saberemos qual a direcção para alterar w1 e w2 de modo a diminuir o erro (a oposta à derivada).,[object Object]
Aproximação Por exemplo, se soubermos que: Se                       ,  e fizermos: O erro diminui (se o passo (α) for suf. pequeno) Demonstração
Classificação Queremos uma função com parâmetros  wij, que dê os seguintes resultados: Que tipo de função é mais adequado?
Algo como: Mas a derivada  é sempre zero ou infinita (?) Classificação Perceptrão [McCullogh & Pitts 43] Regra Delta (delta-rule)
É necessária uma aproximação contínua: Funções para classificação b - Termo de polarização (bias). Funciona como uma fasquia regulável. ou …
Função não linear simples: capacidade de representação limitada Conjunto de unidades encadeadas (com uma ou mais camadas-escondidas)  podem aproximar qualquer função com uma precisão arbitrária (desde que … ) Redes Neuronais ArtificiaisArtificial Neural Networks[Rumelhart, Hinton, Williams 86]  entradas pesos pesos saídas
Capacidade de divisão do espaço Funções para classificação
Codificação / Compressão Redes Neuronais ArtificiaisArtificial Neural Networks
Projecção num espaço de maiores dimensões de modo a tornar as classes separáveis (na prática, combinando de modos diferentes as features de entrada de modo a criar características que definem bem as classes) Redes Neuronais ArtificiaisArtificial Neural Networks
Os métodos analíticos de classificação / regressão têm  desvantagens quando os dados têm ruído e/ou muitos exemplos. São também sensíveis em relação a aproximações numéricas. As ANN são: Robustas em relação ao ruído e aproximações Baseadas num modelo (muito simplificado) do funcionamento dos neurónios Podem ser treinadas incrementalmente Condensam a informação de grandes conjuntos de dados num conjunto comparativamente pequeno de pesos Redes Neuronais Artificiais
Apresentar cada exemplo (xi,di) Calcular a resposta da rede para xi: f(xi) Propagar para trás o erro (construindo a derivada do erro em relação a cada peso) Ao fim de cada época: actualizar os pesos RetropropagaçãoBackpropagation
Vantagens das funções de activação apresentadas: As derivadas num ponto calculam-se à custa do valor nesse ponto (possibilidade de implementação paralela) Retropropagação
Cálculo da derivada é simples com base no valor da avaliação Menos cálculos (do que outras funções semelhantes): Menos erros de aproximação Mais rápido Redes Neuronais Artificiais
Overfitting Boa generalização (mesmo com erros) Overfitting / Sobre-aprendizagem
Generalização e “overfitting” Como saber quando parar o treino: Validação cruzadaCross-validation teste Paragem treino
[object Object]
Treino, Teste, Validação
Conjuntos pequenos (k-foldvalidation/leaven-off)Dividir dados em k subconjuntos Em cada uma de k experiências usar um dos conjuntos para validação Calcular nº médio de iterações (n) para minimizar erro de validação Treinar com todos os dados n épocas Validação
Termo de momento (momentum) Duas vezes na mesma direcção, acelera,  Em direcções contrárias, trava (ou não é usado). Valor típico: 0.8 Aceleração de Backprop
A mesma taxa de aprendizagem para todos os pesos faz com que se mova com a mesma “velocidade” em todas as direcções Solução: taxas de aprendizagem diferentes para cada peso Aceleração de Backprop
ALR (AdaptiveLearning Rates): Aceleração de Backprop
Técnica dos passos-adaptativos AdaptiveLearning Rates F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J. Wellekens (eds.), Neural Networks, Springer-Verlag, 1990. Aceleração de ANN
Dicas de implementação: Deve ser fácil mudar a função (e a sua derivada), a tanh() é, normalmente, melhor Deve ser possível ter 2 ou 3 camadas Deve ser fácil mudar a taxa de aprendizagem Experimentar primeiro com um caso muito simples Use sempre uma taxa de aprendizagem baixa para começar (1E-7) Vá aumentando a taxa até verificar que de uma época para a seguinte há alteração da média do erro Diminua a taxa de aprendizagem ao longo do treino Use valores desejados abaixo do limite da função (e.g. -0.9 e 0.9, para a tanh) Redes Neuronais Artificiais 27 AA/ML, Luís Nunes, DCTI/ISCTE
[Rumelhart, Hinton, Williams 86] D.E.Rumelhart, G.E.Hinton and R.J.Williams, "Learning internal representa-tions by error propagation", In David E. Rumelhart and James A. McClelland, volume 1. The MIT Press, 1986. [Rumelhart, Widrow, Lehr] David E. Rumelhart, Bernard Widrow, Michael A. Lehr, The basic ideas in neural networks,  Communications of the ACM archive, Volume 37 ,  Issue 3  (March 1994) table of contents, pp 87 – 92, 1994, ISSN:0001-0782 , Publisher ACM Press   New York, NY, USA  F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J. Wellekens (eds.), Neural Networks, Springer-Verlag, 1990. OutrasReferências: [McCullough & Pitts 43] W. S. McCullough, W. Pitts, LogicalCalculusoftheideasimmanentinnervousactivity, Contemp. Math, 113, pp. 189-219 [Minsky & Papert 69] Minsky M L and Papert S A 1969 Perceptrons (Cambridge, MA: MIT Press)  Referências-base 28 AA/ML, Luís Nunes, DCTI/ISCTE
Sumário Aprendizagem Supervisionada 18-10-2010 Aprendizagem Automática / Machine Learning 29
Avaliação e erro
Derivadas parciais
Derivadas parciais
Derivadas parciais
Derivadas parciais

Mais conteúdo relacionado

Mais procurados

Curso Básico de Java - Aula 7
Curso Básico de Java - Aula 7Curso Básico de Java - Aula 7
Curso Básico de Java - Aula 7PeslPinguim
 
Aprendizado de Máquina
Aprendizado de MáquinaAprendizado de Máquina
Aprendizado de Máquinabutest
 
Inteligência Artificial em Séries Temporais na Arrecadação
Inteligência Artificial em Séries Temporais na ArrecadaçãoInteligência Artificial em Séries Temporais na Arrecadação
Inteligência Artificial em Séries Temporais na ArrecadaçãoGuttenberg Ferreira Passos
 
4. metodos de contrucao de algoritmo
4. metodos de contrucao de algoritmo4. metodos de contrucao de algoritmo
4. metodos de contrucao de algoritmoEugenio Caetano
 
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive BayesAhirton Lopes
 
Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1Guttenberg Ferreira Passos
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 
Logica fuzzy Conceitos e Aplicações
Logica fuzzy   Conceitos e AplicaçõesLogica fuzzy   Conceitos e Aplicações
Logica fuzzy Conceitos e AplicaçõesToni Esteves
 
Redes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e HopfieldRedes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e HopfieldLucas Sabadini
 
Lógica Fuzzy aplicada à Sistemas de Apoio a Decisão
Lógica Fuzzy aplicada à  Sistemas de Apoio a DecisãoLógica Fuzzy aplicada à  Sistemas de Apoio a Decisão
Lógica Fuzzy aplicada à Sistemas de Apoio a DecisãoOtávio Calaça Xavier
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Tchelinux
 
Comparativo bubble sort e quick sort
Comparativo bubble sort e quick sortComparativo bubble sort e quick sort
Comparativo bubble sort e quick sortDaiana de Ávila
 
Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1Pacc UAB
 
A rede neural supervisionada chamada perceptron multicamadas
A rede neural supervisionada chamada perceptron multicamadasA rede neural supervisionada chamada perceptron multicamadas
A rede neural supervisionada chamada perceptron multicamadascesar do amaral
 
Introdução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaIntrodução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaFernando Palma
 
Algoritmos de ordenação
Algoritmos de ordenaçãoAlgoritmos de ordenação
Algoritmos de ordenaçãoJonas Mendonça
 
Estrutura de Dados Apoio (Complexidade de Algoritmos)
Estrutura de Dados Apoio (Complexidade de Algoritmos)Estrutura de Dados Apoio (Complexidade de Algoritmos)
Estrutura de Dados Apoio (Complexidade de Algoritmos)Leinylson Fontinele
 

Mais procurados (20)

Curso Básico de Java - Aula 7
Curso Básico de Java - Aula 7Curso Básico de Java - Aula 7
Curso Básico de Java - Aula 7
 
Aprendizado de Máquina
Aprendizado de MáquinaAprendizado de Máquina
Aprendizado de Máquina
 
Inteligência Artificial em Séries Temporais na Arrecadação
Inteligência Artificial em Séries Temporais na ArrecadaçãoInteligência Artificial em Séries Temporais na Arrecadação
Inteligência Artificial em Séries Temporais na Arrecadação
 
Modelos de previsão de Ocorrências
Modelos de previsão de OcorrênciasModelos de previsão de Ocorrências
Modelos de previsão de Ocorrências
 
4. metodos de contrucao de algoritmo
4. metodos de contrucao de algoritmo4. metodos de contrucao de algoritmo
4. metodos de contrucao de algoritmo
 
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
 
Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 
Logica fuzzy Conceitos e Aplicações
Logica fuzzy   Conceitos e AplicaçõesLogica fuzzy   Conceitos e Aplicações
Logica fuzzy Conceitos e Aplicações
 
160277 redes neurais artificiais
160277 redes neurais artificiais160277 redes neurais artificiais
160277 redes neurais artificiais
 
Redes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e HopfieldRedes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e Hopfield
 
Lógica Fuzzy aplicada à Sistemas de Apoio a Decisão
Lógica Fuzzy aplicada à  Sistemas de Apoio a DecisãoLógica Fuzzy aplicada à  Sistemas de Apoio a Decisão
Lógica Fuzzy aplicada à Sistemas de Apoio a Decisão
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
 
Comparativo bubble sort e quick sort
Comparativo bubble sort e quick sortComparativo bubble sort e quick sort
Comparativo bubble sort e quick sort
 
Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1
 
A rede neural supervisionada chamada perceptron multicamadas
A rede neural supervisionada chamada perceptron multicamadasA rede neural supervisionada chamada perceptron multicamadas
A rede neural supervisionada chamada perceptron multicamadas
 
Introdução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaIntrodução à Aprendizagem de Máquina
Introdução à Aprendizagem de Máquina
 
Algoritmos de ordenação
Algoritmos de ordenaçãoAlgoritmos de ordenação
Algoritmos de ordenação
 
Estrutura de Dados Apoio (Complexidade de Algoritmos)
Estrutura de Dados Apoio (Complexidade de Algoritmos)Estrutura de Dados Apoio (Complexidade de Algoritmos)
Estrutura de Dados Apoio (Complexidade de Algoritmos)
 
Scipy meetup-2020-02
Scipy meetup-2020-02Scipy meetup-2020-02
Scipy meetup-2020-02
 

Semelhante a Aprendizagem Supervisionada II

INTELIGENCIA ARTIFICIAL RNA
INTELIGENCIA ARTIFICIAL RNAINTELIGENCIA ARTIFICIAL RNA
INTELIGENCIA ARTIFICIAL RNACarlos Cheth
 
Sistemas de comunicação, digital, di.pdf
Sistemas de comunicação, digital, di.pdfSistemas de comunicação, digital, di.pdf
Sistemas de comunicação, digital, di.pdfBNBN31
 
Balanceamento (1)
Balanceamento (1)Balanceamento (1)
Balanceamento (1)Bruna Fraga
 
Balanceamento (1)
Balanceamento (1)Balanceamento (1)
Balanceamento (1)Bruna Fraga
 
Aula_07_Complexidade_de_Algoritmos.ppt
Aula_07_Complexidade_de_Algoritmos.pptAula_07_Complexidade_de_Algoritmos.ppt
Aula_07_Complexidade_de_Algoritmos.pptssuserd654cb1
 
Aula_07_Complexidade_de_Algoritmos (1).ppt
Aula_07_Complexidade_de_Algoritmos (1).pptAula_07_Complexidade_de_Algoritmos (1).ppt
Aula_07_Complexidade_de_Algoritmos (1).pptssuserd654cb1
 
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...Ricardo Brasil
 
Tutorial aed iii 005 - algoritmo de ordenação quicksort
Tutorial aed iii   005 - algoritmo de ordenação quicksortTutorial aed iii   005 - algoritmo de ordenação quicksort
Tutorial aed iii 005 - algoritmo de ordenação quicksortFlávio Freitas
 
Algorítmo estruturado
Algorítmo estruturadoAlgorítmo estruturado
Algorítmo estruturadoNaldo Falaschi
 
Prof. Dr. Fabrício Härter
Prof. Dr. Fabrício HärterProf. Dr. Fabrício Härter
Prof. Dr. Fabrício HärterDafmet Ufpel
 
Machine learning usando scikits
Machine learning usando scikitsMachine learning usando scikits
Machine learning usando scikitsMarcelo Lacerda
 
Tutorial aed iii 004 - algoritmo de ordenação quicksort
Tutorial aed iii   004 - algoritmo de ordenação quicksortTutorial aed iii   004 - algoritmo de ordenação quicksort
Tutorial aed iii 004 - algoritmo de ordenação quicksortFlávio Freitas
 
Aprendizado Profundo & CNNs
Aprendizado Profundo & CNNsAprendizado Profundo & CNNs
Aprendizado Profundo & CNNsFabio Spanhol
 
Curso Básico de Java - Aula 5
Curso Básico de Java - Aula 5Curso Básico de Java - Aula 5
Curso Básico de Java - Aula 5PeslPinguim
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 

Semelhante a Aprendizagem Supervisionada II (20)

INTELIGENCIA ARTIFICIAL RNA
INTELIGENCIA ARTIFICIAL RNAINTELIGENCIA ARTIFICIAL RNA
INTELIGENCIA ARTIFICIAL RNA
 
Apresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdfApresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdf
 
Sistemas de comunicação, digital, di.pdf
Sistemas de comunicação, digital, di.pdfSistemas de comunicação, digital, di.pdf
Sistemas de comunicação, digital, di.pdf
 
Aula2
Aula2Aula2
Aula2
 
Balanceamento (1)
Balanceamento (1)Balanceamento (1)
Balanceamento (1)
 
Balanceamento (1)
Balanceamento (1)Balanceamento (1)
Balanceamento (1)
 
05453943
0545394305453943
05453943
 
Aula_07_Complexidade_de_Algoritmos.ppt
Aula_07_Complexidade_de_Algoritmos.pptAula_07_Complexidade_de_Algoritmos.ppt
Aula_07_Complexidade_de_Algoritmos.ppt
 
Aula_07_Complexidade_de_Algoritmos (1).ppt
Aula_07_Complexidade_de_Algoritmos (1).pptAula_07_Complexidade_de_Algoritmos (1).ppt
Aula_07_Complexidade_de_Algoritmos (1).ppt
 
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...
Aplicação das Redes Neuronais Artificiais do software STATISTICA 7.0: O caso ...
 
Tutorial aed iii 005 - algoritmo de ordenação quicksort
Tutorial aed iii   005 - algoritmo de ordenação quicksortTutorial aed iii   005 - algoritmo de ordenação quicksort
Tutorial aed iii 005 - algoritmo de ordenação quicksort
 
Algorítmo estruturado
Algorítmo estruturadoAlgorítmo estruturado
Algorítmo estruturado
 
Prof. Dr. Fabrício Härter
Prof. Dr. Fabrício HärterProf. Dr. Fabrício Härter
Prof. Dr. Fabrício Härter
 
Machine learning usando scikits
Machine learning usando scikitsMachine learning usando scikits
Machine learning usando scikits
 
Tutorial aed iii 004 - algoritmo de ordenação quicksort
Tutorial aed iii   004 - algoritmo de ordenação quicksortTutorial aed iii   004 - algoritmo de ordenação quicksort
Tutorial aed iii 004 - algoritmo de ordenação quicksort
 
Algoritmos
AlgoritmosAlgoritmos
Algoritmos
 
Redes Neurais Artificias - Marcelo Estevão Da Silva
Redes Neurais Artificias - Marcelo Estevão Da SilvaRedes Neurais Artificias - Marcelo Estevão Da Silva
Redes Neurais Artificias - Marcelo Estevão Da Silva
 
Aprendizado Profundo & CNNs
Aprendizado Profundo & CNNsAprendizado Profundo & CNNs
Aprendizado Profundo & CNNs
 
Curso Básico de Java - Aula 5
Curso Básico de Java - Aula 5Curso Básico de Java - Aula 5
Curso Básico de Java - Aula 5
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 

Aprendizagem Supervisionada II

  • 1. AprendizagemAutomática Mestrado em Engenharia Informática
  • 2. Sumário Aprendizagem Supervisionada 18-10-2010 Aprendizagem Automática / Machine Learning 2
  • 3.
  • 4. Reformulação Se assumirmos que a função é linear Será que a partir de um conjunto de pontos (x, f(x)) conseguimos saber w1 e w2? (i.e., qual a “regra” usada para gerar os pontos) Encontrar os pesos para minimizar o erro:
  • 5.
  • 6.
  • 7. Aproximação Por exemplo, se soubermos que: Se , e fizermos: O erro diminui (se o passo (α) for suf. pequeno) Demonstração
  • 8. Classificação Queremos uma função com parâmetros wij, que dê os seguintes resultados: Que tipo de função é mais adequado?
  • 9. Algo como: Mas a derivada é sempre zero ou infinita (?) Classificação Perceptrão [McCullogh & Pitts 43] Regra Delta (delta-rule)
  • 10. É necessária uma aproximação contínua: Funções para classificação b - Termo de polarização (bias). Funciona como uma fasquia regulável. ou …
  • 11. Função não linear simples: capacidade de representação limitada Conjunto de unidades encadeadas (com uma ou mais camadas-escondidas) podem aproximar qualquer função com uma precisão arbitrária (desde que … ) Redes Neuronais ArtificiaisArtificial Neural Networks[Rumelhart, Hinton, Williams 86] entradas pesos pesos saídas
  • 12. Capacidade de divisão do espaço Funções para classificação
  • 13. Codificação / Compressão Redes Neuronais ArtificiaisArtificial Neural Networks
  • 14. Projecção num espaço de maiores dimensões de modo a tornar as classes separáveis (na prática, combinando de modos diferentes as features de entrada de modo a criar características que definem bem as classes) Redes Neuronais ArtificiaisArtificial Neural Networks
  • 15. Os métodos analíticos de classificação / regressão têm desvantagens quando os dados têm ruído e/ou muitos exemplos. São também sensíveis em relação a aproximações numéricas. As ANN são: Robustas em relação ao ruído e aproximações Baseadas num modelo (muito simplificado) do funcionamento dos neurónios Podem ser treinadas incrementalmente Condensam a informação de grandes conjuntos de dados num conjunto comparativamente pequeno de pesos Redes Neuronais Artificiais
  • 16. Apresentar cada exemplo (xi,di) Calcular a resposta da rede para xi: f(xi) Propagar para trás o erro (construindo a derivada do erro em relação a cada peso) Ao fim de cada época: actualizar os pesos RetropropagaçãoBackpropagation
  • 17. Vantagens das funções de activação apresentadas: As derivadas num ponto calculam-se à custa do valor nesse ponto (possibilidade de implementação paralela) Retropropagação
  • 18. Cálculo da derivada é simples com base no valor da avaliação Menos cálculos (do que outras funções semelhantes): Menos erros de aproximação Mais rápido Redes Neuronais Artificiais
  • 19. Overfitting Boa generalização (mesmo com erros) Overfitting / Sobre-aprendizagem
  • 20. Generalização e “overfitting” Como saber quando parar o treino: Validação cruzadaCross-validation teste Paragem treino
  • 21.
  • 23. Conjuntos pequenos (k-foldvalidation/leaven-off)Dividir dados em k subconjuntos Em cada uma de k experiências usar um dos conjuntos para validação Calcular nº médio de iterações (n) para minimizar erro de validação Treinar com todos os dados n épocas Validação
  • 24. Termo de momento (momentum) Duas vezes na mesma direcção, acelera, Em direcções contrárias, trava (ou não é usado). Valor típico: 0.8 Aceleração de Backprop
  • 25. A mesma taxa de aprendizagem para todos os pesos faz com que se mova com a mesma “velocidade” em todas as direcções Solução: taxas de aprendizagem diferentes para cada peso Aceleração de Backprop
  • 26. ALR (AdaptiveLearning Rates): Aceleração de Backprop
  • 27. Técnica dos passos-adaptativos AdaptiveLearning Rates F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J. Wellekens (eds.), Neural Networks, Springer-Verlag, 1990. Aceleração de ANN
  • 28. Dicas de implementação: Deve ser fácil mudar a função (e a sua derivada), a tanh() é, normalmente, melhor Deve ser possível ter 2 ou 3 camadas Deve ser fácil mudar a taxa de aprendizagem Experimentar primeiro com um caso muito simples Use sempre uma taxa de aprendizagem baixa para começar (1E-7) Vá aumentando a taxa até verificar que de uma época para a seguinte há alteração da média do erro Diminua a taxa de aprendizagem ao longo do treino Use valores desejados abaixo do limite da função (e.g. -0.9 e 0.9, para a tanh) Redes Neuronais Artificiais 27 AA/ML, Luís Nunes, DCTI/ISCTE
  • 29. [Rumelhart, Hinton, Williams 86] D.E.Rumelhart, G.E.Hinton and R.J.Williams, "Learning internal representa-tions by error propagation", In David E. Rumelhart and James A. McClelland, volume 1. The MIT Press, 1986. [Rumelhart, Widrow, Lehr] David E. Rumelhart, Bernard Widrow, Michael A. Lehr, The basic ideas in neural networks, Communications of the ACM archive, Volume 37 ,  Issue 3  (March 1994) table of contents, pp 87 – 92, 1994, ISSN:0001-0782 , Publisher ACM Press   New York, NY, USA F. M. Silva and L. B. Almeida, "Acceleration Techniques for the Backpropagation Algorithm", in L. B. Almeida and C. J. Wellekens (eds.), Neural Networks, Springer-Verlag, 1990. OutrasReferências: [McCullough & Pitts 43] W. S. McCullough, W. Pitts, LogicalCalculusoftheideasimmanentinnervousactivity, Contemp. Math, 113, pp. 189-219 [Minsky & Papert 69] Minsky M L and Papert S A 1969 Perceptrons (Cambridge, MA: MIT Press) Referências-base 28 AA/ML, Luís Nunes, DCTI/ISCTE
  • 30. Sumário Aprendizagem Supervisionada 18-10-2010 Aprendizagem Automática / Machine Learning 29
  • 36. Actualização (batch) … ou, para evitar que seja um valor muito grande (overflow):