1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS DE MÚLTIPLAS CAMADAS IA 353 - Redes Neurais Leandro Nunes de Castro Fernando José Von Zuben

Tópicos ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Motivação ,[object Object],[object Object],[object Object],[object Object],Garantia de convergência Taxa de convergência Teoria de otimização Aproximação de funções Teoria de análise numérica Áreas de atuação científica a serem abrangidas

Redes de múltiplas camadas MLP - Multilayer Perceptron

Abordagem matricial para o algoritmo de retro-propagação ( backpropagation )

Treinamento e critérios de parada ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Superfícies de erro e mínimos locais (I) Critérios de parada Mínimos locais Mínimo local Mínimo global

Aproximação em Taylor - Exemplo Expansão em Taylor para F (x) em torno do ponto x = 0: F 0 (x) F 4 (x) F 2 (x)

Mínimos ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Mínimo local Mínimo global

Derivada direcional ,[object Object],[object Object],Primeira derivada direcional : Segunda derivada direcional :

Otimalidade & Hessiana (caso quadrático) Condições de otimalidade : ,[object Object],[object Object],Auto-sistema da Hessiana : Z 1 (  min ) Z 2 (  max )

Superfícies de erro e mínimos locais (II) Função a ser aproximada Rede para aproximação

Superfícies de erro e mínimos locais (III) Superfície do erro quadrático e seu contorno em relação aos pesos v 11 e w 11 Vales Platô

Superfícies de erro e mínimos locais (IV) Superfície do erro quadrático e seu contorno em relação aos limiares v 01 e w 01 Mínimo global Mínimo local

Abordagem ,[object Object],[object Object],[object Object],[object Object],vetor gradiente matriz hessiana

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aproximação de funções

Algoritmos de otimização ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],1 a ordem 2 a ordem 2 a ordem (grad. conjugado) 2 a ordem (quase-Newton) 2 a ordem

[object Object],[object Object],Métodos de 1 a ordem (I) ,[object Object],[object Object],momento

Métodos de 1 a ordem (II) Exemplo 1: Problema XOR (OU-exclusivo) ,[object Object],[object Object]

Métodos de 1 a ordem (III) Algoritmo padrão com e sem momento Método do gradiente Exemplo 1: Erro

[object Object],[object Object],Métodos de 2 a ordem (I) Positivando a Hessiana Gauss-Newton

Métodos de 2 a ordem (II) Exemplo 1: Levenberg-Marquardt Erro

[object Object],[object Object],Métodos de 2 a ordem (III) Quase-Newton Aproximação iterativa da inversa da Hessiana:

Métodos de 2 a ordem (IV) Exemplo 1: Quase-Newton DFP BFGS Erro

[object Object],Métodos de 2 a ordem (V) Exemplo 1: Erro

[object Object],[object Object],Métodos de 2 a ordem (VI) Gradiente Conjugado Passo  i

Métodos de 2 a ordem (VII) PR FR Exemplo 1: Erro

[object Object],[object Object],[object Object],Métodos de 2 a ordem (VIII) Exemplo 1: Erro

Complexidade Computacional P : graus de liberdade do modelo l : número de unidades na N : número de amostras camada intermediária

Detalhes de implementação/Variações ,[object Object],[object Object],[object Object],[object Object],Busca unidimensional Reinicialização do algoritmo  tanh(  x )

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Algoritmos de otimização não-linear irrestrita Exemplo 2: Propriedades de convergência

Algoritmos de otimização (139) GRAD (1) MN (9) GC (13) DFP

[object Object],[object Object],[object Object],Taxas de Aprendizagem Globais (I) ,[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],Taxas de Aprendizagem Globais (II)

Algoritmos ,[object Object],[object Object]

Taxas de Aprendizagem Globais (III) Exemplo 3: Busca simples Alfa

Taxas de Aprendizagem Globais (IV) Exemplo 4: Redução do intervalo de incertezas ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Taxas de Aprendizagem Globais (V) Exemplo 4: (20) Fibonacci (20) Seção áurea (6) Falsa posição

Exemplo Atualização em lote: 625 amostras do Exercício 3

Exemplo - exercício 3 Parâmetros: nh = 10; minerr = 0.64; maxep = 1000; val = 0.5; dn = 0.001; cm = 0.9;

Exemplo - exercício 3 Comportamento do SSE (soma dos erros quadráticos)

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Problemas Abordados

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Algoritmos Implementados

Velocidade de Convergência (I) Exemplo 5: Problema XOR (OU-exclusivo)

Velocidade de Convergência (II) Exemplo 6: Problema sen( x ).cos(2 x )

Velocidade de Convergência (III) Exemplo 7: Problema GLASS

Velocidade de Convergência (IV) Estatísticas: Épocas Tempo de processamento Esforço computacional ( flops )

Referências (I) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Referências (II)

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Referências (III)

1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Destaque

Destaque (20)

Semelhante a 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

Semelhante a 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais (20)

Mais de Leandro de Castro

Mais de Leandro de Castro (10)

1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais