Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais

Universidade de Itaúna
Faculdade de Engenharia
Curso de Ciência da Computação
Fabiano de Oliveira Rates
Estudo Comparativo entre os Algoritmos para Treinamento
de Redes Neurais Artificiais: Backpropagation e Resilient
Propagation
Itaúna
2013

Propagation
Monografia apresentada à Faculdade de Engenha-
ria da Universidade de Itaúna como requisito par-
cial para a obten¸cão do t´ıtulo de BACHAREL em
Ciência da Computa¸cão.
Orientador: Paulo de Tarso Gomide Castro Silva
Itaúna
2013

Propagation
Monografia apresentada à Faculdade de Engenha-
ria da Universidade de Itaúna como requisito par-
cial para a obten¸cão do t´ıtulo de BACHAREL em
Ciência da Computa¸cão.
Aprovado em 05 de Dezembro de 2013
BANCA EXAMINADORA
Paulo de Tarso Gomide Castro Silva
Mestre / PUC-Rio
Zilton Cordeiro Junior
Mestre / Universidade Federal de Minas Gerais

À minha mãe e minha irmã.
Em memória a meu pai.
À minha namorada pelo apoio.
Aos meus amigos pelo companheirismo.

Resumo
Essa monografia realiza um trabalho comparativo entre dois algoritmos para treinamento
de redes neurais: Backpropagation e Resilient Propagation. A principal diferen¸ca prática
entre esses algoritmos é que o treinamento através do algoritmo Backpropagation demanda
o ajuste de vários parâmetros a ele pertencentes, enquanto o algoritmo Resilient Propa-
gation não precisa do ajuste de nenhum parâmetro antes do treinamento. Entre outros
pontos a serem comparados, com base nessas informa¸cões, será analisado se, mesmo não
possuindo um conjunto tão vasto de configura¸cões, o treinamento via Resilient Propaga-
tion apresentará eficácia e eficiência comparável ao Backpropagation. Para essa análise
será considerada a predi¸cão de formas geométricas simples para verifica¸cão como qua-
drado, triângulo e c´ırculo, apresentando um n´ıvel de ru´ıdos significante, já que os mesmos
serão informados manualmente.
Palavras-chaves: Inteligência Artificial, Redes Neurais Artificiais, Algoritmos de Trei-
namento, Backpropagation, Resilient Propagation.

Abstract
This monograph makes a comparative study between two training algorithms for neu-
ral networks: Backpropagation and Resilient Propagation. The main practical difference
between these algorithms is that the training using the Backpropagation algorithm re-
quires the setting of several parameters belonging to it, while the Resilient Propagation
algorithm does not need any parameter tuning before the training. Among other points
to be compared, based on this information, it will be analyzed if, even not having a so
broad set of configurations, the training via Resilient Propagation presents effectiveness
and efficiency comparable to the Backpropagation. For this analysis will be considered
the prediction of simple geometric shapes for verification as square, triangle and circle,
with a significant level of noise, since they will be entered manually.
Keywords: Artificial Intelligence, Artificial Neural Networks, Algorithms Training, Back-
propagation, Resilient Propagation.

Agradecimentos
Agrade¸co a Deus por tudo que tem que me dado nessa vida, à toda minha fam´ılia
que tem me dado o apoio que eu precisava, principalmente a minha mãe Irene que sempre
esteve junto comigo, me ajudando a ser melhor a cada dia, gra¸cas ao seu aprendizado que
me foi passado, minha irmã Franciele pelo grande apoio que meu deu nesse per´ıodo. À
minha namorada Juliana pela motiva¸cão e compreensão.
Ao meu orientador Paulo Gomide, pelo apoio que me deu para que esse trabalho fosse
realizado.
Agrade¸co também a todos os meus amigos, que me incentivaram a nunca desistir.
Principalmente ao Marcelo pelas discussões e ideias, e por me ajudar a escolher o tema.

“O verdadeiro homem mede a sua for¸ca,
quando se defronta com o obst´aculo.”
Antoine de Saint-Exup´ery

Sumário
Lista de Figuras 10
Lista de Tabelas 13
1 Introdu¸cão 15
1.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Contextualiza¸cão 19
2.1 Inteligência Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 História da Inteligência Artificial . . . . . . . . . . . . . . . . . . . 19
2.1.2 O nascimento da Inteligência Artificial . . . . . . . . . . . . . . . . 20
2.1.3 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.4 Neurônios biológicos . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.5 Neurônios artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.6 Fun¸cões de Ativa¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.7 Classifica¸cão das RNAs . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.8 Arquiteturas da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.9 Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Algoritmos de Treinamento 33
3.0.10 Perceptron de Camada Única . . . . . . . . . . . . . . . . . . . . . 33
3.0.11 Regra Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.0.12 Limita¸cões do Perceptrons . . . . . . . . . . . . . . . . . . . . . . . 34
3.0.13 Perceptrons de Múltiplas Camadas . . . . . . . . . . . . . . . . . . 35
3.0.14 Algoritmo de Treinamento Backpropagation . . . . . . . . . . . . . 35
3.0.15 Número de Camadas . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.0.16 Número de Neurônios . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1 Resilient Propagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Critérios de Parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Metodologia 41
4.1 Defini¸cões Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Obten¸cão dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Tratamento dos Dados para a RNA . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Implementa¸cão e Execu¸cão dos Treinamentos e Testes com as RNAs . . . . 46
4.5 Processamento e Análise dos Dados Gerados pela RNA . . . . . . . . . . . 49
5 Resultados Obtidos 50
5.1 Defini¸cões das RNAs Utilizadas na Compara¸cão . . . . . . . . . . . . . . . 50
5.1.1 Fun¸cão de Ativa¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.2 Número de Camadas Ocultas . . . . . . . . . . . . . . . . . . . . . 50
7

5.1.3 Número de Neurônios em Cada Camada . . . . . . . . . . . . . . . 51
5.1.4 Quantidade de Exemplos no Treinamento . . . . . . . . . . . . . . . 53
5.1.5 Quantidade de Exemplos na Valida¸cão . . . . . . . . . . . . . . . . 54
5.2 Resultados Obtidos Pelos Algoritmos . . . . . . . . . . . . . . . . . . . . . 54
5.2.1 Configura¸cão 1 - Utilizando a Regra do Valor Médio para Determi-
nar o Número de Neurônios Ocultos . . . . . . . . . . . . . . . . . . 55
5.2.2 Configura¸cão 2 - Utilizando a Regra de Kolmogorov para Determi-
nar o Número de Neurônios Ocultos . . . . . . . . . . . . . . . . . . 60
5.2.3 Configura¸cão 3 - Utilizando a Regra de Fletcher-Gloss para Deter-
minar o Número de Neurônios Ocultos . . . . . . . . . . . . . . . . 64
5.2.4 Configura¸cão 4 - Utilizando a Regra da Raiz Quadrada para Deter-
minar o Número de Neurônios Ocultos . . . . . . . . . . . . . . . . 68
5.2.5 Resumo dos testes utilizando as 4 configura¸cões . . . . . . . . . . . 73
5.3 O Melhor Backpropagation versus O Melhor Resilient Propagation . . . . 73
5.4 O Pior Backpropagation versus O Pior Resilient Propagation . . . . . . . . 75
6 Conclusão 77
7 Trabalhos Futuros 79
Bibliografia 80
I Apêndice 1 - Imagens Utilizadas no Treinamento das RNAs 82
II Apêndice 2 - Imagens Utilizadas na Valida¸cão das RNAs 83
IIIApêndice 3 - Resultados dos Treinamentos das RNAs Treinadas Utili-
zando Backpropagation 84
8

IV Apêndice 4 - Resultados dos Treinamentos das RNAs Treinadas Utili-
zando Resilient Propagation 85
V Apêndice 5 - Código Fonte e Aplica¸cão 86

Lista de Figuras
2.1 Neurônio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Fun¸cão Degrau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Fun¸cão Sigmóide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Fun¸cão Tangente Hiperbólica . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 RNAs Alimentadas Adiante com Camada Única . . . . . . . . . . . . . . . 29
2.6 RNAs Alimentadas Diretamente com Múltiplas Camadas . . . . . . . . . . 29
2.7 RNA Recorrente de Hopfield . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Evolu¸cão do Erro Durante o Treinamento da RNA . . . . . . . . . . . . . . 39
4.1 Formas Geométricas Definidas: C´ırculo, Quadrado e Triângulo . . . . . . . 42
4.2 Exemplo de Inser¸cão de Dados para a RNA . . . . . . . . . . . . . . . . . 43
4.3 Normaliza¸cão - Divisão das partes . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Resultado da Normaliza¸cão de uma imagem . . . . . . . . . . . . . . . . . 45
4.5 Fases da Expansão de Imagens Menores . . . . . . . . . . . . . . . . . . . . 46
4.6 Diagrama do Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Épocas x Erro - BP com a Configura¸cão 1 e 30 Exemplos . . . . . . . . . . 56
5.2 Épocas x Erro - RP com a Configura¸cão 1 e 30 Exemplos . . . . . . . . . . 57
5.5 Épocas x Erro - BP com a Configura¸cão 1 e 150 Exemplos . . . . . . . . . 59

5.6 Épocas x Erro - RP com a Configura¸cão 1 e 150 Exemplos . . . . . . . . . 59
5.25 Resumo dos Resultados de Todos os Testes Realizados . . . . . . . . . . . 73
5.26 Épocas x Erro - Melhor BP - Configura¸cão 3 e 150 Exemplos . . . . . . . . 74
5.27 Épocas x Erro - Melhor RP - Configura¸cão 4 e 150 Exemplos . . . . . . . . 75
5.28 Épocas x Erro - Pior BP - Configura¸cão 2 e 30 Exemplos . . . . . . . . . . 76
11

5.29 Épocas x Erro - Pior RP - Configura¸cão 2 e 30 Exemplos . . . . . . . . . . 76
I.1 Imagens Utilizadas no Treinamento das RNAs - Quadrado . . . . . . . . . 82
I.2 Imagens Utilizadas no Treinamento das RNAs - Triângulos . . . . . . . . . 82
I.3 Imagens Utilizadas no Treinamento das RNAs - C´ırculos . . . . . . . . . . 82
II.1 Imagens utilizadas na Valida¸cão das RNAs - Quadrados . . . . . . . . . . 83
II.2 Imagens Utilizadas na Valida¸cão das RNAs - Triângulos . . . . . . . . . . . 83
II.3 Imagens Utilizadas na Valida¸cão das RNAs - C´ırculos . . . . . . . . . . . . 83

Lista de Tabelas
4.1 Tabela de dados das formas geométricas . . . . . . . . . . . . . . . . . . . 42
5.1 Tabela de resultados dos treinamentos com configura¸cão 1 e 30 exemplos . 56
5.13 Tabela de resultados das melhores RNAs de cada algoritmo de treinamento 74
5.14 Tabela de resultados das piores RNAs de cada algoritmo de treinamento . 76
IV.1 Resultado do treinamento das RNAs utilizando Resilient Propagation . . . 85
IV.2 Resultado da valida¸cão das RNAs utilizando Resilient Propagation . . . . . 85

14
Lista de Siglas e Abreviaturas
GPS General Problem Solver
IA Inteligência Artificial
IAS Inteligência Artificial Simbólica
MCP referência a Warren McCulloch e Walter Pitts
MLP Multilayer Perceptron
PMC Perceptron de Múltiplas Camadas
RNA Rede Neural Artificial
RNAs Redes Neurais Artificiais
RPROP Resilient Propagation
BP Backpropagation
RP Resilient Propagation

15
1 Introdu¸cão
A Inteligência Artificial (IA) tem, como principal objetivo, representar o comporta-
mento humano através de modelos computacionais, constituindo-se em campo de pesquisa
aberto e dinâmico, tratando do estudo da solu¸cão de problemas através da distribui¸cão
de conhecimento entre diversas entidades(BITTENCOURT,2001).
Nesse sentido, as Redes Neurais Artificiais (RNAs) são sistemas computacionais, inspi-
rados no sistema nervoso biológico(BRAGA; CARVALHO; LUDERMIR, 2000). Segundo
Haykin (2001), uma rede neural é um processador maci¸co e paralelamente distribu´ıdo,
constitu´ıdo de unidades de processamento simples (neurônios), que têm a propensão na-
tural, para armazenar conhecimento experimental, tornando-o dispon´ıvel para uso. Atu-
almente, existem diversos algoritmos para simular essas redes neurais, cada um com seu
uso espec´ıfico.
1.1 Contexto
Uma rede neural artificial (RNA) é composta por várias unidades de processamento,
cujo funcionamento é bastante simples. Essas unidades, geralmente são conectadas por
canais de comunica¸cão que estão associados a um determinado peso. As unidades fazem
opera¸cões apenas sobre seus dados locais, que são entradas recebidas pelas suas conexões
(HAYKIN,2001).
O comportamento inteligente de uma Rede Neural Artificial vem das intera¸cões entre
as unidades de processamento da rede, que têm uma grande habilidade de aprender com os
dados a ela informados, e com isso, melhorar seu desempenho, sendo feito através de um
processo iterativo de ajustes a seus pesos. Ao processo que contempla essas itera¸cões e seus
ajustes de pesos, dá-se o nome de treinamento. O aprendizado da RNA ocorre quando a
mesma atinge uma solu¸cão generalizada para uma classe de problemas (HAYKIN, 2001).
Um algoritmo de aprendizado é um conjunto de regras bem definidas para a solu¸cão
de um problema de aprendizado. Existem muitos tipos de algoritmos de aprendizado
espec´ıficos para determinados modelos de redes neurais. Estes algoritmos diferem entre

1.2 Problema 16
si, principalmente, pelo modo como os pesos são modificados, por isso, ao criar uma rede
neural, é indispensável analisar qual é o algoritmo de aprendizado mais eficiente para a
aplica¸cão em questão (DHAR & STEIN, 1997).
1.2 Problema
O algoritmo de treinamento Backpropagation é, reconhecidamente, um algoritmo que,
ao longo dos anos, vem trazendo ótimos resultados na área de reconhecimento de padrões.
Porém, é tido por muitos como sendo um algoritmo “caixa preta”, devido ao fato de a
busca pela melhor configura¸cão deste algoritmo não ser muito bem compreendida gra¸cas
ao número excessivo de parâmetros que devem ser configurados, sendo que muitos desses
parâmetros apenas são bem definidos através de um árduo processo de tentativa e erro.
Por conta do excessivo número de parâmetros, de acordo com o seu caráter trabalhoso
de configura¸cão, ao longo dos anos, foram surgindo deriva¸cões do algoritmo Backpropa-
gation, na busca de tentar facilitar o processo de ajuste da Rede Neural. Uma dessas
deriva¸cões é o algoritmo Resilient Propagation, que requer, segundo a literatura, um es-
for¸co muito reduzido de configura¸cão, em compara¸cão ao Backpropagation.
1.3 Proposta
Em meio à dificuldade de configura¸cão do algoritmo Backpropagation, este trabalho
busca, através de uma análise comparativa, inferir se o algoritmo Resilient Propagation é
capaz de prover resultados tão satisfatórios quanto seu antecessor, mesmo utilizando um
número reduzido de parâmetros, se comparados ao mesmo.
O objetivo do trabalho, portanto, não é o de buscar o melhor algoritmo de reconheci-
mento de imagens, mas, para saber se o algoritmo de treinamento Resilient Propagation
possui um bom desempenho em rela¸cão ao reconhecimento de padrões, se faz necessária
a realiza¸cão da compara¸cão com seu antecessor, que, reconhecidamente, possui resultados
satisfatórios.

1.4 Justificativa 17
1.4 Justificativa
Atualmente, avan¸cos tecnológicos mostram que as aplica¸cões tendem a ser cada vez
mais independentes, tornando necessária a escolha da melhor técnica de treinamento para
a cria¸cão de aplica¸cões complexas que possua uma inteligência embutida.
Existem vários motivos para se comparar diferentes algoritmos de treinamento de
redes neurais, pois determinado algoritmo de treinamento pode ser mais eficiente para
um caso espec´ıfico e não ser muito eficiente para outro, por isso deve-se descobrir qual
algoritmo de treinamento é eficiente para um caso particular. De nada adianta criar uma
aplica¸cão com inteligência artificial, porém que não seja eficiente. Com isso, um estudo
comparativo de algoritmos para treinamento de redes neurais se faz válido.
1.5 Objetivos
O objetivo desse trabalho é a realiza¸cão da análise dos algoritmos para treinamento
de RNAs Backpropagation e Resilient Propagation, utilizando, como fonte de estudo, uma
aplica¸cão para reconhecimento de imagens. Para que essa análise possa ser realizada, é
proposta a implementa¸cão de uma aplica¸cão para reconhecimento de formas geométricas
básicas, como quadrados, retângulos e c´ırculos.
De acordo com a literatura, o algoritmo Resilient Propagation, por ser um algoritmo
derivado do Backpropagation, possui um número reduzido de parâmetros a serem confi-
gurados, o que, teoricamente, reduziria a complexidade na configura¸cão da rede neural.
Após a configura¸cão da rede, com os resultados encontrados da classifica¸cão das imagens,
poderá ser verificado se o algoritmo Resilient Propagation realmente possui uma simpli-
fica¸cão para que possa ser configurado e, se possui resultados satisfatórios, mesmo com
essa poss´ıvel redu¸cão de sua complexidade de configura¸cão.
1.6 Métodos
Inicialmente, foi realizado um estudo de processamento das imagens e de RNAs, com
ênfase nos algoritmos para treinamento de redes neurais. Após o processamento da ima-
gem ela será utilizada como entrada para os dois algoritmos, ambas serão treinadas com

1.7 Escopo 18
os mesmos exemplos para verificar, com base nas mesmas informa¸cões, qual seria a mais
eficiente no reconhecimento dessas formas. Com base nos resultados, foi realizada uma
análise de ambos os algoritmos para treinamento de redes neurais.
1.7 Escopo
Serão analisados os resultados encontrados com os dois algoritmos, utilizando, para
isso, uma aplica¸cão desktop para reconhecimento de imagens. Com base nessa análise,
não necessariamente pretende-se encontrar um algoritmo que realize o reconhecimento
de forma mais rápida ou com maior percentual de acertos, mas, a fonte de análise, está
em identificar se, mesmo com um número reduzido de parâmetros em compara¸cão ao
algoritmo Backpropagation, sua deriva¸cão, o algoritmo Resilient Propagation, possui um
desempenho tão satisfatório quando seu antecessor.

19
2 Contextualiza¸cão
2.1 Inteligência Artificial
A Inteligência Artificial (IA) tem, como objetivo central, a cria¸cão de modelos para a
inteligência e a constru¸cão de sistemas computacionais baseados nesses modelos, levando a
pesquisa e o desenvolvimento em IA a fundamentarem-se em torno de atividades de desen-
volvimento de modelos formais para a inteligência humana, desenvolvimento de aplica¸cões
educacionais, comerciais ou industriais, assim como a explora¸cão e experimenta¸cão de
técnicas computacionais que apresentem potencial para a simula¸cão do comportamento
inteligente (BITTENCOURT, 2001).
Apesar de ser um ramo, de certa forma, recente da ciência da computa¸cão, a Inte-
ligência Artificial foi constru´ıda a partir de ideias filosóficas, cient´ıficas, tecnológicas e
matemáticas, herdadas de outras ciências, desde muito tempo atrás (BITTENCOURT,
2001).
De acordo com (RUSSEL; NORVIG, 2004), os filósofos (desde 400 a.C), tornaram a IA
conceb´ıvel, considerando que a mente é, em alguns aspectos, semelhante a uma máquina,
de que ela opera sobre o conhecimento codificado em alguma linguagem interna e que o
pensamento pode ser usado para escolher as a¸cões que deverão ser executadas..
Alguns filósofos definiram que se as máquinas talvez pudessem simular a inteligência
humana, essas máquinas podem ser consideradas como possuidoras de uma IA Fraca.
Por outro lado, caso as máquinas que o fazem não estejam apenas simulando um com-
portamento, mas sim realmente pensando, essas máquinas podem ser consideradas como
possuidoras de uma IA Forte (RUSSEL; NORVIG, 2004).
2.1.1 História da Inteligência Artificial
O primeiro trabalho reconhecido como IA foi realizado por Warren McCulloch e Walter
Pitts (1943), no qual se basearam em três fontes: o conhecimento da fisiologia básica e
da fun¸cão dos neurônios no cérebro, uma análise formal da lógica proposicional criada

2.1 Inteligência Artificial 20
por Russell e Whitehead, e a teoria da computa¸cão de Turing. Eles propuseram um
modelo de neurônios artificiais, no qual cada neurônio se caracteriza por estar “ligado ou
desligado”. Com isso, eles mostraram que qualquer fun¸cão computável podia ser calculada
por uma certa rede de neurônios conectados, e que todos os conectivos lógicos podiam
ser implementados por estruturas de redes simples. Eles também sugeriram que redes
definidas adequadamente seriam capazes de aprender (RUSSEL; NORVIG, 2004).
Marvin Minsky e Dean Edmonds, dois alunos do departamento de matemática de
Princeton, constru´ıram o primeiro computador de rede neural em 1951. Mais tarde,
Minsky acabou provando teoremas importantes que mostravam as limita¸cões da pesquisa
em redes neurais (RUSSEL; NORVIG, 2004).
Apesar dos vários exemplos de trabalhos que podem ser caracterizados como IA, Tu-
ring foi quem primeiro articulou uma visão completa da IA, em seu artigo de 1950, inti-
tulado “Computing Machinery and Intelligency”, sendo que, neste artigo, foram apresen-
tados o teste de Turing, aprendizagem de máquina, algoritmos genéticos e aprendizagem
por refor¸co (RUSSEL; NORVIG, 2004).
2.1.2 O nascimento da Inteligência Artificial
Após sua gradua¸cão, John McCarthy mudou-se para o Dartmouth College, que se tor-
naria o local oficial do nascimento desse campo. Ele convenceu Minsky, Claude Shannon
e Nathaniel Rochester a ajudá-lo a reunir pesquisadores dos Estados Unidos interessados
em teoria de autômatos, redes neurais e no estudo da inteligência. Eles organizaram um
seminário de dois meses em Dartmouth que, apesar de não trazer nenhuma novidade,
apresentou uns aos outros os personagens importantes da história da IA. Talvez o resul-
tado mais duradouro do seminário tenha sido um acordo para adotar o nome sugerido por
McCarthy para o campo: Inteligência Artificial (RUSSEL; NORVIG, 2004).
Pode-se dizer que a´ı nasceram, simultaneamente, os dois paradigmas da inteligência
artificial: simbólica e conexionista. Na Inteligência Artificial Simbólica (IAS), o com-
portamento global é simulado, sem levar em considera¸cão os mecanismos responsáveis
por este comportamento. Na Inteligência Artificial Conexionista (IAC), acredita-se que
construindo uma máquina que imite a estrutura do cérebro, ela apresentará inteligência
(BARRETO, 2001).

Os primeiros anos da IA foram repletos de sucesso, porém de forma limitada, visto que
os computadores e ferramentas de programa¸cão da época eram extremamente limitados.
O General Problem Solver (GPS), ou em português Solucionador de Problemas Gerais,
talvez tenha sido o primeiro programa a incorporar a abordagem de “pensar de forma
humana”, pois ele foi projetado para imitar protocolos humanos de resolu¸cão de problemas
(RUSSEL; NORVIG, 2004).
A partir de 1952, Arthur Samuel escreveu uma série de programas para jogos de
damas, que eventualmente aprendiam a jogar em um n´ıvel amador elevado, sendo que ele
contestou a ideia de que os computadores só pudessem realizar as atividades para as quais
foram programados. Seu programa aprendeu rapidamente a jogar melhor que seu criador
e foi demonstrado na televisão em 1956, causando uma impressão muito forte (RUSSEL;
NORVIG, 2004).
Em 1958, no MIT AI Lab Memo No.1, McCarthy definiu a linguagem de alto n´ıvel
Lisp, que acabou se tornando a linguagem de programa¸cão dominante em IA. O trabalho
pioneiro baseado nas redes neurais de McCulloch e Pitts também prosperou. Os métodos
de aprendizado de Hebb foram aperfei¸coados por Bernie Widrow, que denominou suas
redes Adalines, e por Frank Rosenblatt com seus perceptrons. Rosenblatt provou o teorema
da convergência do perceptron, mostrando que seu algoritmo de aprendizado podia ajustar
os pesos da conexão de um perceptron para corresponderem a quaisquer dados de entrada,
desde que existisse tal correspondência (RUSSEL; NORVIG, 2004).
Simon fez a previsão de que, dentro de dez anos, um computador seria campeão
de xadrez e que um teorema matemático significativo seria provado por uma máquina.
Entretanto, essas previsões apenas se realizaram (ou quase), no prazo de 40 anos.
O segundo tipo de dificuldade foi a impossibilidade de tratar muitos dos problemas
que a IA estava tentando resolver, visto que a maior parte dos primeiros programas de
IA resolvia problemas experimentando diferentes combina¸cões de passos até encontrar
a solu¸cão. Esta estratégia funcionou inicialmente, porque os micromundos continham
pouqu´ıssimos objetos, com um número muito pequeno de a¸cões poss´ıveis e sequências de
solu¸cões muito curtas, mas o otimismo inicial foi logo ofuscado quando os pesquisadores
não conseguiram provar teoremas que envolviam mais de algumas dezenas de fatos.
Uma terceira dificuldade surgiu devido algumas limita¸cões nas estruturas básicas que

estavam sendo utilizadas para gerar o comportamento inteligente (RUSSEL; NORVIG,
2004).
O perceptron básico, e algumas de suas generaliza¸cões naquele tempo, eram sim-
plesmente inadequados para a maioria das tarefas de reconhecimento de padrões de im-
portância prática. O livro “Perceptrons”, de Minsky e Papert provou que, embora os
perceptrons pudessem aprender tudo que eram capazes de representar, eles podiam re-
presentar muito pouco. Esta visão desencorajadora da limita¸cão das máquinas do tipo
perceptrons foi mantida até meados da década de 1980, com os novos algoritmos de apren-
dizado por retropropaga¸cão para redes de várias camadas(MINSKY; PAPERT, 1972).
Resultados na coletânea Parallel Distributed Processing (Rumelhart e McClelland,
1986), tratando do desenvolvimento de novos algoritmos para perceptrons multicamadas
mudaram consideravelmente a situa¸cão. O método básico desses autores fornece um
treinamento efetivo para máquinas de múltiplas camadas. Esse sucesso estabeleceu as
máquinas do tipo perceptrons com múltiplas camadas como um dos principais modelos
de redes neurais atualmente em uso (GONZALEZ; WOODS, 2000).
2.1.3 Redes Neurais Artificiais
As redes neurais artificiais são uma forma de computa¸cão não-algor´ıtmica, caracteri-
zada por sistemas que lembram a estrutura do cérebro humano. Por não ser baseada em
regras ou programas, a computa¸cão neural se constitui em uma alternativa à computa¸cão
algor´ıtmica convencional (BRAGA; CARVALHO; LUDERMIR, 2000).
As redes neurais artificiais têm ra´ızes na neurociência, matemática, estat´ıstica, f´ısica,
ciência da computa¸cão e engenharia. Sua habilidade para aprender a partir de dados, com
ou sem professor, dotou-as com uma propriedade poderosa. Esta habilidade de aprendi-
zagem a partir de seu meio ambiente é baseada na capacidade do cérebro humano de
desenvolver suas próprias regras, que usualmente chamamos “experiência”. Um neurônio
em desenvolvimento é sinônimo de um cérebro plástico, sendo que a plasticidade permite
que o sistema nervoso em desenvolvimento se adapte ao seu meio ambiente. Assim como a
plasticidade é essencial para o funcionamento dos neurônios, também ela o é com rela¸cão
às redes neurais artificiais (HAYKIN, 2001).

Na sua forma mais geral, a rede neural é uma máquina projetada para modelar a ma-
neira como o cérebro realiza uma tarefa particular ou fun¸cão de interesse. O procedimento
utilizado para realizar o processo de aprendizagem é chamado de algoritmo de aprendi-
zagem, cuja fun¸cão é modificar os pesos sinápticos da rede de uma forma ordenada, para
alcan¸car um objetivo de projeto desejado (HAYKIN, 2001).
2.1.4 Neurônios biológicos
O cérebro humano possui em torno de 1011
neurônios. Cada um destes neurônios
processa e se comunica com milhares de outros, continuamente e em paralelo. A estru-
tura individual dos nodos, a topologia de suas conexões e o comportamento conjunto
destes nodos naturais, formam a base para o estudo das RNAs (BRAGA; CARVALHO;
LUDERMIR, 2000).
As RNAs tentam reproduzir as fun¸cões das redes biológicas, buscando implementar
seu comportamento básico. Como caracter´ısticas comuns, os dois sistemas são baseados
em unidades de computa¸cão paralela e distribu´ıda que se comunicam por meio de conexões
sinápticas. Apesar da pouca similaridade, do ponto de vista biológico, entre os dois
sistemas, estas caracter´ısticas comuns permitem às RNAs reproduzir com fidelidade várias
fun¸cões somente encontradas nos seres humanos (BRAGA; CARVALHO; LUDERMIR,
2000).
Os neurônios são divididos em três se¸cões: o corpo da célula, os dendritos e o axônio.
Os dendritos têm por fun¸cão receber as informa¸cões, ou impulsos nervosos, oriundas de
outros neurônios e conduzi-las até o corpo celular. Com isso, a informa¸cão é processada, e
novos impulsos são gerados. Estes impulsos são transmitidos a outros neurônios, passando
através do axônio até os dendritos dos neurônios seguintes. O ponto de contato entre a
termina¸cão axônica de um neurônio e o dendrito de outro, é chamado de sinapse. Os sinais
oriundos dos neurônios pré-sinápticos são passados para o corpo do neurônio pós-sináptico,
onde são comparados com os outros sinais recebidos pelo mesmo. Se o percentual em um
intervalo curto de tempo é suficientemente alto, a célula dispara, produzindo um impulso
que é transmitido para as células seguintes (BRAGA; CARVALHO; LUDERMIR, 2000).

2.1.5 Neurônios artificiais
O primeiro modelo de redes neurais foi proposto por (MCCULLOCH, 1943), que
propos um modelo de sistema neural, onde as unidades básicas, os neurônios, são bastante
simples no seu funcionamento. Este modelo de rede neural ficou conhecida como Rede
Neural de McCulloch e Pitts, ou simplesmente Rede Neural MCP.
O modelo de neurônio proposto por McCulloch e Pitts (fig. 2.1.5), é uma simplifica¸cão
do que se sabia a respeito do neurônio biológico.
Figura 2.1: Neurônio
Supondo que tenha-se os valores de entrada x1, x2, . . . , xp, com os pesos w1, w2, . . . , wp,
uma sa´ıda y, uma fun¸cão responsável pelo cálculo da entrada efetiva para o neurônio
denominada fun¸cão soma e uma fun¸cão de ativa¸cão. Assim, o neurônio tem a sa´ıda igual
a soma dos produtos obtidos entre os valores de entrada e os seus pesos correspondentes
(fun¸cão soma), descrita na equa¸cão 2.1.
m
j=1
wjxj, (2.1)
onde:
• m é o número de entradas do neurônio;
• wj é o peso associado à entrada xj.
Após isso, o resultado é comparado a um limiar estipulado que, uma vez atingido,
propaga a sa´ıda para os neurônios da camada seguinte. Essa propaga¸cão da sa´ıda para
os demais neurônios é realizada pela fun¸cão de ativa¸cão (Haykin, 2001).

No modelo MCP, a fun¸cão de ativa¸cão é dada pela fun¸cão de limiar linear, descrita
na equa¸cão 2.2.
y =



1, se wjxj >= 0
0, se wjxj < 0
(2.2)
O modelo geral de um neurônio é uma generaliza¸cão do modelo de McCulloch e Pitts.
Um valor auxiliar, chamado de bias também pode ser aplicado externamente. O bias tem
o efeito de aumentar ou diminuir a entrada l´ıquida da fun¸cão de ativa¸cão, dependendo se
ele é positivo ou negativo, respectivamente (HAYKIN, 2001).
A partir do modelo proposto por McCulloch e Pitts, foram derivados vários outros
modelos que permitem a produ¸cão de uma sa´ıda qualquer, não necessariamente zero ou
um, e com diferentes fun¸cões de ativa¸cão (BRAGA; CARVALHO; LUDERMIR, 2000).
Em termos matemáticos, pode-se descrever um neurônio k escrevendo o seguinte par
de equa¸cões:
uk =
m
j=1
wkjxkj e (2.3)
yk = ϕ(uk + bk), (2.4)
onde:
• uk é a sa´ıda do combinador linear devido aos sinais de entrada;
• wkj são os pesos sinápticos do neurônio k;
• xkj são os sinais de entrada do neurônio k;
• bk é o bias do neurônio k;
• ϕ é fun¸cão de ativa¸cão;
• yk é o sinal de sa´ıda do neurônio k.

vk = uk + bk (2.5)
De forma equivalente, tem-se:
vk =
m
j=1
wkjxkj + bk =
m
j=0
wkjxkj (2.6)
yk = ϕ(vk) (2.7)
Na equa¸cão 2.6 foi adicionada uma nova sinapse, cuja entrada é:
x0 = +1, (2.8)
e o peso é:
w0 = bk (2.9)
2.1.6 Fun¸cões de Ativa¸cão
Fun¸cões ativa¸cão são fun¸cões, geralmente, não lineares associadas às sa´ıdas das unida-
des de processamentos com o objetivo de limitar a sa´ıda da unidade num valor limitante,
de maneira similar ao que ocorre no neurônio biológico, com o objetivo de reproduzir o
mais próximo poss´ıvel o comportamento deste. Elas são às vezes referidas como fun¸cões
de transferência não lineares, relacionando a sa´ıda do neurônio artificial à sua entrada.
As fun¸cões ativa¸cões mais usadas são:
• Fun¸cão Impulso Unitário (Degrau);
• Fun¸cão Sigmóide;
• Fun¸cão Tangente Hiperbólica;

Fun¸cão Impulso Unitário (Degrau)
A fun¸cão degrau pode ser expressa segundo a equa¸cão:
y = f(net) =



1, se net ≥ 0
0, se net < 0
(2.10)
Conforme ilustrado no gráfico da figura 2.2.
Figura 2.2: Fun¸cão Degrau
Fun¸cão Sigmóide
A fun¸cão Sigmóide é vantajosa ao usar redes neurais treinadas utilizando algoritmos
de retropropaga¸cão, por ser fácil de distinguir, e ser capaz de minimizar a capacidade
de computa¸cão para o treinamento. O termo sigmóide significa ”forma de S”e por ter a
forma log´ıstica dos mapas sigmóide.
A fun¸cão Sigmóide pode ser expressa segundo a seguinte equa¸cão:
g(x) =
1
(1 + e−1
(2.11)
Conforme ilustrado no gráfico da figura 2.3.
Figura 2.3: Fun¸cão Sigmóide

Fun¸cão Tangente Hiperbólica
Uma outra fun¸cão log´ıstica não linear muito utilizada como fun¸cão ativa¸cão é a tan-
gente hiperbólica dada a seguir:
tanh(x) =
sinh(x)
cosh(x)
=
ex
− e−
x
ex + x−1
(2.12)
A fun¸cão Tangente hiperbólica é similar a fun¸cão Sigmóide, sua faixa de valores é de
-1 a 1 como pode ser visto na figura 2.4.
Figura 2.4: Fun¸cão Tangente Hiperbólica
2.1.7 Classifica¸cão das RNAs
Existem dois critérios básicos para a classifica¸cão das redes neurais artificiais: a ar-
quitetura e a forma de treinamento.
2.1.8 Arquiteturas da Rede
A maneira na qual os neurônios de uma rede neural estão estruturados está ligada ao
algoritmo de aprendizado para treinar a rede. Em geral, é poss´ıvel identificar três classes
de arquiteturas (estruturas) de rede fundamentalmente diferentes:
1. RNAs Alimentadas Adiante com Camada Única;
2. RNAs Alimentadas Diretamente com Múltiplas Camadas;
3. RNAs Recorrentes.

RNAs Alimentadas Adiante com Camada Única
Na forma mais simples de uma rede em camadas, tem-se uma camada de entrada,
que se projeta sobre uma camada de sa´ıda de neurônios, mas não vice-versa, ou seja, esta
rede é estritamente do tipo alimentada adiante ou ac´ıclica, como pode ser observado na
figura 2.5.
Figura 2.5: RNAs Alimentadas Adiante com Camada Única
Apesar de possuir duas camadas (entrada e sa´ıda), esta rede é chamada de rede de
camada única, pois esta designa¸cão se refere à camada de sa´ıda, pois nela é que é realizada
a computa¸cão (HAYKIN, 2001).
RNAs Alimentadas Diretamente com Múltiplas Camadas
Esta classe se distingue pela presen¸ca de uma ou mais camadas ocultas, como pode
ser observado na figura 2.6.
Figura 2.6: RNAs Alimentadas Diretamente com Múltiplas Camadas
A fun¸cão dos neurônios ocultos é intervir entre a entrada externa e a sa´ıda da rede de

uma maneira útil. A habilidade de os neurônios ocultos extra´ırem estat´ısticas de ordem
elevada é valiosa quando o tamanho da camada de entrada é grande (HAYKIN, 2001).
Os nós de fonte da camada de entrada da rede fornecem os respectivos elementos
do padrão de ativa¸cão (vetor de entrada). Os seus sinais de sa´ıda são utilizados como
entradas para a segunda camada, e assim por diante para o resto da rede. Dessa forma,
os neurônios em cada camada da rede têm como suas entradas apenas os sinais de sa´ıda
da camada precedente. O conjunto de sinais de sa´ıda dos neurônios da camada de sa´ıda
da rede constitui a resposta global da rede para o padrão de ativa¸cão fornecido pelos nós
de fonte da camada de entrada (HAYKIN, 2001).
As redes alimentadas diretamente com múltiplas camadas podem ser totalmente co-
nectadas, quando cada um dos nós de uma camada da rede está conectado a todos os
nós da camada adjacente seguinte, ou parcialmente conectadas, quando alguns dos elos
de comunica¸cão estiverem faltando na rede (HAYKIN, 2001).
RNAs Recorrentes
Esta classe possui pelo menos um la¸co de realimenta¸cão, ou seja, a sa´ıda de algum
neurônio na i-ésima camada da rede é usada como entrada de nodos em camadas de
´ındice menor ou igual a i, conforme pode ser visto pela figura 2.7 (BRAGA; CARVALHO;
LUDERMIR, 2000).
Figura 2.7: RNA Recorrente de Hopfield

2.1.9 Aprendizado
A propriedade mais importante de uma rede neural é a sua habilidade de aprender.
A etapa de aprendizagem consiste em um processo iterativo de ajustes de parâmetros
da rede, isto é, ajustes dos pesos das conexões entre as unidades de processamento, que
guardam, ao final do processo, o conhecimento que a rede adquiriu do ambiente em que
está operando (BRAGA; CARVALHO; LUDERMIR, 2000).
Neste contexto, pode-se destacar três tipos diferentes de RNAs:
1. RNAs com Treinamento Supervisionado;
2. RNAs com Treinamento Não-supervisionado;
3. RNAs com Aprendizado por Refor¸co.
RNAs com Treinamento Supervisionado
No estudo da aprendizagem supervisionada, uma condi¸cão fundamental é a existência
de um “professor” capaz de fornecer corre¸cões exatas para as sa´ıdas da rede quando um
erro ocorrer (HAYKIN, 2001).
Este método de aprendizado é o mais comum no treinamento das RNAs. O objetivo é
ajustar os parâmetros da rede, de forma a encontrar uma liga¸cão entre os pares de entrada
e sa´ıda fornecidos. O professor indica, explicitamente, um comportamento bom ou ruim
para a rede (BRAGA; CARVALHO; LUDERMIR, 2000).
RNAs com Treinamento Não-supervisionado
No paradigma de aprendizagem não-supervisionado, como o nome implica, não há
um “professor” para supervisionar o processo de aprendizagem, o que significa que não
há exemplos rotulados da fun¸cão a ser aprendida pela rede (HAYKIN, 2001).

RNAs com Aprendizado por Refor¸co
O aprendizado por refor¸co refere-se à utiliza¸cão de alguma fun¸cão heur´ıstica (definida
a priori), que descreva o quão boa é a resposta da rede a uma dada entrada, e da busca
da maximiza¸cão de tal fun¸cão (Xing; Pham, 1995 apud Neto, 2007).

33
3 Algoritmos de Treinamento
O treinamento é a atividade que leva a rede ao aprendizado. Denomina-se algoritmo
de aprendizado, um conjunto de regras bem definidas para a solu¸cão de um problema
de aprendizado. Existem muitos tipos de algoritmos de aprendizado espec´ıficos para
determinados modelos de redes neurais, estes algoritmos diferem entre si principalmente
pelo modo como os pesos são modificados durante as etapas do processo. Aprendizagem,
para uma rede neural, envolve o ajuste destes pesos (DHAR & STEIN, 1997).
3.0.10 Perceptron de Camada Única
O perceptron é a forma mais simples de uma RNA usada para a classifica¸cão de padrões
ditos linearmente separáveis. Basicamente, ele consiste de um único neurônio com pesos
sinápticos ajustáveis e bias. O algoritmo usado para ajustar os parâmetros livres desta
rede neural apareceu primeiro em um procedimento de aprendizagem desenvolvido por
Rosenblatt para o seu modelo cerebral do tron (HAYKIN, 2001).
O modelo proposto por Rosenblatt era composto por uma estrutura de rede tendo,
como unidades básicas, nodos MCP e uma regra de aprendizado. Alguns anos mais tarde,
Rosenblatt demonstrou o teorema de convergência do perceptron, que mostra que um
nodo MCP treinado com o algoritmo de aprendizado do perceptron sempre converge caso
o problema em questão seja linearmente separável, ou seja, problemas com comportamento
linear que podem ser graficamente separados por meio de uma reta em um hiperplano
(BRAGA; CARVALHO; LUDERMIR, 2000).
Perceptrons podem ser treinados por um algoritmo de aprendizagem simples, co-
nhecido como regra delta ou regra de Widrow-Hoff, assim denominada em homenagem
aos seus criadores (Widrow e Hoff, 1960).
3.0.11 Regra Delta
Segundo Haykin (2001), supondo-se que wkj(n) represente o valor do peso sináptico
wkj do neurônio k excitado por um elemento xj(n) do vetor de sinal x(n) no passo de

tempo n, de acordo com a regra delta, o ajuste δwkj(n) aplicado ao peso sináptico wkj no
passo de tempo n é definido por:
δwkj(n) = ηek(n)xj(n), (3.1)
onde η é uma constante positiva que determina a taxa de aprendizado quando se avan¸ca
em um passo no processo de aprendizagem.
Em outras palavras, a regra delta pode ser formulada como: “O ajuste feito em um
peso sináptico de um neurônio é proporcional ao produto do sinal de erro pelo sinal em
questão” (HAYKIN, 2001, p.78).
Tendo calculado o ajuste sináptico δwkj(n), o valor atualizado do peso sináptico wkj
é determinado por:
wkj(n + 1) = wkj(n) + δwkj(n) (3.2)
3.0.12 Limita¸cões do Perceptrons
Apesar de ter causado grande euforia na comunidade cient´ıfica da época, o percep-
tron não teve vida muito longa. A primeira cr´ıtica real ao perceptron de Rosenblatt
foi apresentada por Minsky e Selfridge (1961), onde eles demonstraram que o percep-
tron como definido por Rosenblatt não poderia generalizar nem em rela¸cão à no¸cão de
paridade, muito menos fazer abstra¸cões genéricas. As limita¸cões computacionais do per-
ceptron foram, depois, enquadradas em uma fundamenta¸cão matemática sólida no livro
“Perceptrons”, de Minsky e Papert (1969, 1988).
As duras cr´ıticas de Minsky e Papert causaram grande impacto sobre as pesquisas em
RNAs, levando a um grande desinteresse pela área durante os anos 70 e in´ıcio dos anos
80 (HAYKIN, 2001 & BRAGA; CARVALHO; LUDERMIR, 2000).
Entretanto, alguns anos depois surgiram várias outras formas avan¸cadas de RNAs
mais poderosas que o perceptron, do ponto de vista computacional. Por exemplo, os
perceptrons de múltiplas camadas, treinados com o algoritmo de retropropaga¸cão.

3.0.13 Perceptrons de Múltiplas Camadas
Uma rede perceptron de múltiplas camadas (PMC), ou em inglês multilayer perceptron
(MLP), consiste de um conjunto de unidades sensoriais (nós de frente), que constituem a
camada de entrada, uma ou mais camadas ocultas de nós computacionais e uma camada
de sa´ıda de nós computacionais. O sinal de entrada se propaga para frente através da
rede, camada por camada (HAYKIN, 2001).
O algoritmo de aprendizado mais conhecido para treinamento destas redes é o algo-
ritmo de retropropaga¸cão de erro (Error Backpropagation ou simplesmente Backpropaga-
tion).
Um perceptron de múltiplas camadas possui três caracter´ısticas distintivas:
1. O modelo de cada neurônio da rede inclui uma fun¸cão de ativa¸cão não-linear;
2. A rede contém uma ou mais camada de neurônios ocultos, que não são parte da
entrada ou da sa´ıda da rede;
3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da rede.
É através da combina¸cão destas caracter´ısticas, juntamente com a habilidade de apren-
der, que o perceptron de múltiplas camadas deriva seu poder computacional.
3.0.14 Algoritmo de Treinamento Backpropagation
O algoritmo de treinamento backpropagation, ou em português retropropaga¸cão, é um
método que se baseia em gradiente descendente utilizando a regra delta, sendo chamada
também de regra delta generalizada. Para que a regra delta generalizada possa ser usada,
a fun¸cão de ativa¸cão precisa ser cont´ınua, diferenciável e, de preferência, não-decrescente.
Conforme visto na se¸cão 2.1.6, diversas fun¸cões de ativa¸cão com as propriedades de
não-linearidade e diferencia¸cão têm sido propostas para redes multicamadas. Dentre essas
diversas fun¸cões de ativa¸cão, a mais utilizada é a fun¸cão sigmoidal log´ıstica. As fun¸cões
precisam ser diferenciáveis para que o gradiente possa ser calculado, direcionando o ajuste
dos pesos (BRAGA; CARVALHO; LUDERMIR, 2000).

O treinamento ocorre em duas fases: um passo para frente, a propaga¸cão (forward),
e um passo para trás, a retropropaga¸cão (backward).
No passo para frente, um padrão de atividade (vetor de entrada) é aplicado aos nós
sensoriais da rede e seu efeito se propaga através da rede, camada por camada. Com isso,
um conjunto de sa´ıdas é produzido como a resposta real da rede. Durante o passo de
propaga¸cão, os pesos sinápticos da rede são todos fixos.
No passo para trás, os pesos sinápticos são todos ajustados de acordo com a regra
de corre¸cão de erro. Dessa forma, a resposta real da rede é subtra´ıda de uma resposta
desejada para produzir um sinal de erro. Este sinal de erro é, então, propagado para trás,
contra a dire¸cão das conexões sinápticas. Os pesos sinápticos são ajustados para fazer
com que a resposta real da rede se mova para mais perto da resposta desejada (HAYKIN,
2001; BRAGA; CARVALHO; LUDERMIR, 2000).
3.0.15 Número de Camadas
As camadas intermediárias de uma rede PMC funcionam como detectores de ca-
racter´ısticas. Elas geram uma codifica¸cão interna dos padrões de entrada, que é então
utilizada para a defini¸cão de sa´ıda da rede. Com um número suficientemente grande de
unidades intermediárias, é poss´ıvel formar representa¸cões internas para qualquer conjunto
de padrões de entrada.
Para uma rede com pelo menos duas camadas intermediárias, pode-se dizer que o
seguinte processamento ocorre em cada uma das camadas:
• Camada de Entrada: propaga os valores recebidos como entrada para a próxima
camada;
• Primeira Camada Intermediária: cada nodo tra¸ca retas no espa¸co de padrões de
treinamento;
• Segunda Camada Intermediária: cada nodo combina as retas tra¸cadas pelos neurô-
nios da camada anterior conectados a ele, formando regiões convexas, onde o número
de lados é definido pelo número de unidades a ele conectadas;

• Camada de Sa´ıda: cada nodo forma regiões que são combina¸cões das regiões con-
vexas definidas pelos nodos a ele conectados da camada anterior. Dessa forma, os
nodos determinam regiões com formatos abstratos.
De acordo com Cybenko, uma camada intermediária, combinando as tarefas das duas
camadas intermediárias descritas acima, é suficiente para aproximar qualquer fun¸cão
cont´ınua. E duas camadas intermediárias são suficientes para aproximar qualquer fun¸cão
matemática [CYBENKO; 1989].
Para alguns casos, no entanto, a utiliza¸cão de duas ou mais camadas intermediárias
pode facilitar o treinamento da rede. Por outro lado, um número muito grande de camadas
intermediárias não é recomendada, pois cada vez que o erro medido durante o treinamento
é propagado para a camada anterior, faz com que essa camada se torne menos útil ou
precisa, de forma que a única camada a ter uma no¸cão precisa do erro cometido pela rede
é a camada de sa´ıda.
3.0.16 Número de Neurônios
O número de neurônios na camada intermediária, em geral, é definido empiricamente,
sendo que ele depende de vários fatores, como o número de exemplos de treinamento, a
quantidade de ru´ıdo presente nos exemplos e a complexidade da fun¸cão a ser aprendida.
Este número depende da distribui¸cão dos padrões de treinamento e valida¸cão da rede.
Porém, alguns métodos têm sido propostos como: (i) definir o número de neurônios
ocultos em fun¸cão do número de neurônios de entrada e sa´ıda; e (ii) utilizar um número
de conexões dez vezes menor que o número de exemplos.
Deve-se sempre tomar cuidado para não se utilizar um número muito grande de
neurônios nas camadas intermediárias. Utilizando-se um número excessivo de neurônios,
pode-se fazer com que a rede memorize os padrões de treinamento (overfitting), em vez
de extrair as caracter´ısticas gerais que a permitirão generalizar ou reconhecer os padrões
não vistos durante o treinamento. Por outro lado, um número muito pequeno fará com
que a rede gaste um tempo muito grande até que consiga encontrar uma representa¸cão
ótima (underfitting).

3.1 Resilient Propagation 38
3.1 Resilient Propagation
O algoritmo de treinamento Resilient Propagation (RPROP) é um algoritmo que pos-
sui um novo esquema de aprendizagem se comparado com o algoritmo Backpropagation,
pois ao invés de utilizar constantes para a atualiza¸cão dos pesos, ele utiliza uma variável
associada a cada peso que determina quanto ele irá atualizar o seu peso [RIEDMIL-
LER,1993].
Essa atualiza¸cão é realizada a cada itera¸cão de acordo com a seguinte regra de apren-
dizagem:
1. Se o sinal do erro cometido tiver sido alterado, então a taxa de ajuste foi exagerada
e deve ser diminu´ıda.
Essa abordagem é equivalente a cada peso ter sua própria taxa de aprendizado. Logo,
a vantagem deste algoritmo é de que não se precisa definir uma taxa de aprendizagem
constante, já que ela é calculada em fun¸cão do gradiente descendente. O valor de sua
inicializa¸cão também não tem grandes impactos no treinamento [RIEDMILLER,1993].
Um das principais vantagens da Resilient Propagation, para muitos problemas, é que
nenhum parâmetro dela precisa ser informado, acelerando tanto o processo de modelagem
da RNA, quanto a sua convergência.
3.2 Critérios de Parada
Como pode ser visto na figura 3.1, a cada itera¸cão, o resultado calculado pela RNA
aproxima-se mais dos valores do conjunto de treinamento. Portanto, enquanto o treina-
mento continuar é provável que o erro do conjunto de treinamento continue a diminuir.
Entretanto, como mencionado anteriormente, um treinamento excessivo pode fazer
com que a RNA simplesmente decore os padrões de treinamento, afetando sua capacidade
de generaliza¸cão (overfitting). Portanto, é de fundamental importância, estabelecer um
ou mais critérios de parada para a fase de treinamento.
Dois critérios de paradas clássicos são descritos abaixo:

3.2 Critérios de Parada 39
Figura 3.1: Evolu¸cão do Erro Durante o Treinamento da RNA
• Taxa de erro desejada: nesse caso é definida a taxa de erro desejada e quando essa
taxa é alcan¸cada, o treinamento para e a RNA é considerada treinada;
• Número máximo de itera¸cões: é definida por quantas itera¸cões a rede deve ser
treinada e quando chegar na itera¸cão definida, o treinamento acaba e a RNA é dada
como treinada.
Uma combina¸cão dos dois casos pode ser aplicada para ter um critério mais robusto
como o treinamento deve parar quando o erro médio percentual absoluto do conjunto de
teste for 0,1% ou ocorrer 20.000 itera¸cões. Esses critérios apresentam a desvantagem do
treinamento poder parar antes ou depois do ideal. Prolongar demais o treinamento pode
provocar um superajustamento (overfitting) da rede, o que a faria ter um desempenho
satisfatório apenas sobre o conjunto de treinamento, uma vez que seus dados teriam sido
memorizados. Por outro lado, caso o treinamento pare antes do ideal, a RNA terá um
desempenho abaixo do que poderia ser obtido, problema é conhecido como underfitting.
Para evitar esses problemas existe o critério de parada conhecido como valida¸cão cru-
zada. Na valida¸cão cruzada, além de um conjunto de dados de treinamento, é considerado
outro conjunto de dados: o conjunto de valida¸cão cruzada, cujos dados devem ser estatis-
ticamente representativos. Esse critério funciona da seguinte forma [VALENÇA, 2010]:
1. Ao final de cada itera¸cão é calculado o erro do conjunto de treinamento e do conjunto
de valida¸cão cruzada;
2. O valor dos erros de ambos os conjuntos são comparados. Enquanto a RNA es-
tiver aprendendo corretamente, o valor das taxas de erro decrescerão juntas e o

3.2 Critérios de Parada 40
treinamento deve continuar;
3. Quando o erro do conjunto de valida¸cão cruzada passar a aumentar enquanto a do
conjunto de treinamento continuar a diminuir, é o sinal de que a rede agora está
sofrendo um superajustamento e o treinamento deve ser encerrado.
No próximo capitulo, será relatado como foram realizados os testes, os algoritmos
implementados, as dificuldades encontradas nos caminho e as solu¸cões desses problemas.

41
4 Metodologia
Esse cap´ıtulo tem como objetivo descrever todos os passos realizados para o desen-
volvimento desse trabalho. De um modo geral, ocorreram basicamente cinco etapas:
• Defini¸cões iniciais;
• Obten¸cão dos dados de treinamento e valida¸cão;
• Tratamento dos dados obtidos para a RNA;
• Implementa¸cão e execu¸cão dos treinamentos e testes com as RNAs;
• Processamento e análise dos dados gerados pelo passo anterior.
Nas se¸cões a seguir, é descrita cada etapa detalhadamente, de forma a esclarecer o
processo realizado em cada etapa.
4.1 Defini¸cões Iniciais
Primeiro foi definido quais padrões a RNA iria se propor a reconhecer. Inicialmente a
ideia era a cria¸cão de 10 elementos, que seriam todos os algarismos de 0 a 9, porém, quanto
mais elementos, maior seria o número de exemplos, e como o objetivo deste trabalho é a
compara¸cão dos algoritmos de treinamento das redes neurais, foi escolhido um dom´ınio
menor, composto por três formas geométricas simples, sendo elas o c´ırculo, o quadrado e
o triângulo.
A figura 4.1 mostra uma ilustra¸cão dos desenhos correspondentes às formas geométricas
a serem reconhecidas pelas RNAs. Os mesmos foram desenhados manualmente, conforme
será feito durante os processos de treinamento, valida¸cão e execu¸cão das RNAs.
Como pode ser observado na tabela 4.1, cada forma geométrica possui um código para
identificá-lo, de forma a distinguir cada uma delas. Além disso, cada forma geométrica
possui também uma faixa de valores, que come¸ca com um valor m´ınimo, indo até um
valor máximo, que representa os poss´ıveis retornos da rede neural para aquela forma.

4.2 Obten¸cão dos Dados 42
Figura 4.1: Formas Geométricas Definidas: C´ırculo, Quadrado e Triângulo
Caso o valor de sa´ıda da rede neural, para uma forma geométrica, esteja dentro da
faixa de valores determinada para tal imagem, quer dizer que a rede neural reconheceu a
imagem de entrada como sendo correspondente àquela forma. Vale ressaltar que o valor
informado para cada imagem utilizada nos treinamentos será o valor ideal, que corresponde
à média dos valores m´ınimo e máximo. O processo de treinamento e utiliza¸cão desses
valores será melhor explicado na se¸cão 4.4.
Tabela 4.1: Tabela de dados das formas geométricas
Código Forma Valor M´ınimo Valor Ideal Valor Máximo
1 Quadrado 0 0,16 0,33
2 Triângulo 0,34 0,5 0,66
3 C´ırculo 0,67 0,83 0,99
Definido isso, foi necessário obter os dados de alguma maneira, sendo este o próximo
item a ser descrito.
4.2 Obten¸cão dos Dados
Após as defini¸cões iniciais, os dados precisaram ser inseridos manualmente por uma
pessoa, de forma que essa pessoa realiza o desenho da figura geométrica, e ela mesma
informa qual código representa a forma geométrica desenhada, de acordo com os códigos
da tabela 4.1.
Observando a figura 4.2, pode-se observar a interface disponibilizada para que os dados
de treinamento e valida¸cão pudesse ser inseridos. No exemplo em questão, é inserido um
quadrado com o código 1 no treinamento, enquanto que, na valida¸cão, é inserido um
triângulo com o código 2, conforme tabela 4.1.

4.3 Tratamento dos Dados para a RNA 43
Figura 4.2: Exemplo de Inser¸cão de Dados para a RNA
Todas as imagens utilizadas no treinamento (figuras I.1, I.2, I.3) e na valida¸cão (figuras
II.1, II.2, II.3 ), estão presentes no apêndice desse trabalho.
Apenas com esses dados inseridos, a rede neural ainda não é capaz de prever qual
a forma da imagem fornecida, pois, primeiro, é necessário um tratamento desses dados
inseridos pelo usuário, de forma a facilitar o reconhecimento da rede, como pode ser
verificado na próxima se¸cão.
4.3 Tratamento dos Dados para a RNA
Para que a RNA consiga receber os dados desenhados pelo usuário, não basta sim-
plesmente indicar que a entrada será aquela imagem informada. Para isso, é necessário
um tratamento dos dados de entrada a serem inseridos no treinamento da RNA, pois se
nenhum tratamento fosse realizado, a entrada não seria bem aceita pelo treinamento da
rede, tornando-o mais demorado e menos preciso.
No caso deste trabalho, foram realizados vários testes, com as mais variadas maneiras
de tratamento, para a entrada da rede neural. Todas essas maneiras são descritas breve-
mente, a seguir, enquanto que a maneira utilizada nos testes finais do trabalho é descrita,
de forma detalhada, buscando mostrar todo o processo de tratamento da imagem.
Nos primeiros treinamentos foi realizado apenas uma redu¸cão das imagens, passando,
inicialmente, de uma imagem com uma resolu¸cão de 100 x 100 pixels para uma imagem
de 15 x 15 pixels. Para isso, foram utilizados alguns dos algoritmos mais populares

de redu¸cão de imagem, com vários modos de interpola¸cão, tais como Bicubic, Bilinear,
Nearest Neighbor e High Quality Bicubic.
Após essas redu¸cões, as imagens foram convertidas para preto e branco. Com isso, a
imagem passou a possuir apenas duas cores, onde no padrão de cores RGB (Red, Green,
Blue), a cor preta representa o valor (0, 0, 0) e o branco equivale a (255, 255, 255).
Posteriormente, a fim de facilitar o tratamento desses pixels, os pontos brancos pas-
saram a ser considerados como 0 e os pontos pretos considerados 1, gerando, portanto,
uma entrada de 225 neurônios binários para a RNA, sendo cada neurônio correspondente
a um dos bits da imagem.
Mesmo com tais manipula¸cões na imagem, a rede não se mostrou muito eficiente,
apresentando treinamento demorado, com várias épocas geradas durante o processo, e
um baixo percentual de acerto após sua conclusão.
Visando melhorar o padrão de entrada de dados da RNA, foi realizada uma norma-
liza¸cão dos dados de entrada. Para isso, a imagem original de resolu¸cão de 100 x 100 pixels
foi dividida em 100 partes de 10 x 10 pixels, onde cada parte foi normalizada utilizando
a formula a seguir.
y(x) =
1
x
, (4.1)
onde:
• y é o valor normalizado;
• e x é o valor a ser normalizado.
Como pode ser observado na figura 4.3, a imagem original foi divida em 100 regiões,
cada região com 10 x 10 pixels. Após isso, foi realizada a normaliza¸cão da “popula¸cão” de
bits de cada região da imagem, que nada mais é que contabilizar os pontos pretos daquela
parte. Essa quantidade de pontos pretos da região é exatamente o valor do x da fórmula
de normaliza¸cão 4.1 e, com esse valor normalizado, pode-se gerar o valor de entrada da
rede neural daquela parte.

Figura 4.3: Normaliza¸cão - Divisão das partes
A imagem inicial com seu resultado final da normaliza¸cão pode ser observado no
exemplo da figura 4.4.
Figura 4.4: Resultado da Normaliza¸cão de uma imagem
Utilizando a normaliza¸cão, tornou-se poss´ıvel reduzir a entrada da rede neural de
225 neurônios para 100 neurônios, muda muito e melhorando bastante a eficácia dos
treinamentos em geral.
A normaliza¸cão foi útil para dados com um determinado tamanho informado nos trei-
namentos. Porém, ao se informar formas geométricas de tamanhos variados, a RNA não
conseguiu distingu´ı-los, pois os variados tamanhos geravam valores diferentes na norma-
liza¸cão, sendo assim necessários uma maior quantidade de exemplos com os mais variados
tamanhos das formas geométricas, tornando essa possibilidade inviável.
Para solucionar esse problema, após realizar várias pesquisas, foi verificado que se
fossem consideradas imagens de vários tamanhos em um frame 100 x 100, seria poss´ıvel,
sem grandes preju´ızos, transformar as imagens menores para o tamanho 100 x 100. Dessa
forma, limitando-se apenas a região onde a figura deve ser informada, as entradas produ-
zidas para a RNA estariam padronizadas, auxiliando com isso o treinamento e a predi¸cão

4.4 Implementa¸cão e Execu¸cão dos Treinamentos e Testes com as RNAs 46
da forma geométrica informada.
Para realizar essas padroniza¸cão, foi utilizada a API gráfica AForge, realizando-se os
passos ilustrados na figura 4.5 e descritos a seguir:
• Fase 1 - imagem original;
• Fase 2 - para a utiliza¸cão da AForge, a imagem deve ser convertida para preto e
branco e as cores devem ser invertidas;
• Fase 3 - com as cores invertidas, a AForge consegue detectar os 4 extremos da
imagem e, com esses pontos, escalar a imagem para o tamanho do frame (100 x
100);
• Fase 4 - após a expansão, a imagem é invertida novamente para fundo branco e
forma preta.
Figura 4.5: Fases da Expansão de Imagens Menores
Após conseguir padronizar os dados de entrada da RNA, verificou-se que os resultados
gerados foram bem mais eficientes. Dessa maneira, a rede pôde aproveitar melhor a
entrada e, com isso, reduzir a quantidade de exemplos necessários para o treinamento,
aumentando a qualidade e a diversidade de tamanhos poss´ıveis para a predi¸cão da RNA.
4.4 Implementa¸cão e Execu¸cão dos Treinamentos e Testes com as RNAs
Como este trabalho necessita de que todos os dados sejam armazenadas para uma
rápida consulta a qualquer momento e também para que se tenha uma base consistente
para análise de todas as informa¸cões geradas por todos os treinamentos e valida¸cões, todas
as informa¸cões foram armazenadas em um banco de dados. O diagrama a seguir apresenta
uma visão geral de como os dados foram armazenados:

Figura 4.6: Diagrama do Banco de Dados
Como pode ser observado no diagrama da figura 4.6, a tabela principal, denominada
Treinamento, armazena as principais informa¸cões sobre o treinamento das RNAs como:
qual RNA foi utilizada, qual algoritmo foi utilizado, quais os valores dos parâmetros de
treinamento, dentre outras informa¸cões.
Durante o treinamento, cada época tem sua margem de erro armazenada na tabela
LogTreinamento, para que a análise a ser realizada e também a gera¸cão dos gráficos
utilizados na compara¸cão sejam facilitadas. E, após o treinamento, cada RNA tem seus
pesos armazenados na tabela RedeNeuralResultante, o que permite que uma rede neural
possa ser reutiliza a qualquer momento sem a necessidade de um novo treinamento.
Todos os elementos utilizados no treinamento de cada RNA presente na tabela Trei-
namento, possuem n TreinamentoDados, que armazenam todas as formas utilizadas no
treinamento e, ainda, as informa¸cões pós treinamento informando se a forma foi vali-

dada conforme o esperado ou não. Com isso, tem-se um controle das formas validadas,
facilitando a identifica¸cão do(s) ponto(s) forte(s) do treinamento de cada RNA.
A imagem original e os dados normalizados de cada forma podem ser encontrados na
tabela DadosTreinamento, que armazena todos as imagens que podem ser utilizadas nos
treinamentos.
Na tabela Elemento, são encontradas todas as formas que a rede pode predizer. No
caso deste trabalho, são exatamente as formas descritas na tabela 4.1.
A valida¸cão da rede neural ocorre de maneira semelhante ao processo de treinamento,
apresentando n ValidacaoDados, que armazenam informa¸cões sobre determinada imagem
presente em DadosValidacao. Para não prejudicar o processo de valida¸cão da RNA, nessa
etapa não é utilizado nenhuma imagem já considerada no processo de treinamento.
A tabela DadosRedeNeural contém as configura¸cões das RNAs como: o número de
neurônios presentes em cada uma de suas três camadas (camada de entrada, camada
oculta e camada de sa´ıda) e os pesos iniciais atribu´ıdos aos neurônios e às suas liga¸cões
antes da etapa de treinamento.
Utilizando toda essa estrutura descrita, os treinamentos foram realizados considerando
três quantidade de exemplos: 10, 30 e 50 exemplos de cada forma geométrica. Como
critérios de parada, foi considerada uma margem de erro de 0, 1% ou um limite máximo
de 20.000 épocas, sendo este segundo limite importante para finalizar o treinamento das
RNAs que encontram um m´ınimo local, que faz com que a treinamento se prolongue
indefinidamente. Os parâmetros do processo de treinamento serão explicados de forma
mais detalhada no cap´ıtulo de 5.
Todas as imagens utilizadas no treinamento estão presentes no apêndice 1 (veja figuras
I.1, I.2, I.3).
Descrito o processo de treinamento, na se¸cão a seguir, é relatado como foram feitas
as valida¸cões das RNAs treinadas.

4.5 Processamento e Análise dos Dados Gerados pela RNA 49
4.5 Processamento e Análise dos Dados Gerados pela RNA
Após a realiza¸cão de todos os treinamentos, foram realizados os testes de valida¸cão
com exemplos totalmente diferentes daqueles utilizados no treinamento. Através da etapa
de valida¸cão, foi poss´ıvel verificar se as RNAs conseguiram uma alta eficiência na predi¸cão
das formas geométricas (sem overfitting ou underfitting), e analisar como cada algoritmo
de treinamento se saiu no seu respectivo treinamento.
Todas as imagens utilizadas durante a etapa de valida¸cão estão presentes no apêndice
2 (figuras II.1, II.2, II.3).
O seguinte processo foi realizado para todas as imagens da valida¸cão para a realiza¸cão
da valida¸cão:
1. A imagem é manipulada de acordo com as etapas citadas no treinamento;
2. A RNA é constru´ıda com os pesos resultantes do treinamento e, após ser criada,
os dados de cada imagem são computados pela rede, retornando um valor que,
analisando as faixas de valores definidas inicialmente para cada elemento, pode-se
dizer qual é a forma geométrica correspondente;
3. Com o valor computado pela RNA, é verificado se o valor retornado pela mesma é
próximo da faixa de valores definidos para aquela imagem. Se estiver na faixa, é
poss´ıvel dizer que a rede validou com sucesso aquela imagem.
Os dados de valida¸cão são armazenados no banco de dados para permitir consultas
posteriores. Para isso, deve-se armazenar quais valores foram retornados pela rede neural
ao predizer uma imagem e verificar se este valor retornado confere com o valor informado
na inser¸cão daquela forma geométrica, apontando a valida¸cão daquela imagem como válida
ou não.
Com base em todos esses dados dos treinamentos e valida¸cões, foi poss´ıvel obter os
dados necessários para a realiza¸cão das compara¸cões entre os algoritmos de treinamento
Backpropagation e Resilient Propagation, que são apresentados no próximo cap´ıtulo.

50
5 Resultados Obtidos
Neste cap´ıtulo serão discutidos os resultados obtidos pelos testes das RNAs, apresen-
tando, inicialmente, todos os parâmetros e defini¸cões dos treinamentos realizados como
exemplo: a fun¸cão de ativa¸cão utilizada, o número de camadas ocultas, o número de
neurônios em cada camada e a quantidade de exemplos utilizados no treinamento e na
valida¸cão.
5.1 Defini¸cões das RNAs Utilizadas na Compara¸cão
Esta se¸cão possui um breve resumo de todas as defini¸cões que foram utilizadas na
análise dos algoritmos de treinamento: Backpropagation e Resilient Propagation.
Neste cap´ıtulo, o algoritmo Backpropagation é tratado como “BP” e o algoritmo
Resilient Propagation como “RP”, para uma melhor compreensão.
5.1.1 Fun¸cão de Ativa¸cão
Uma das etapas necessárias para a cria¸cão das RNAs foi a defini¸cão de qual fun¸cão
de ativa¸cão utilizar. A fun¸cão de ativa¸cão escolhida foi a Sigmóide, pois esta fun¸cão pode
assumir todos os valores entre 0 e 1. Com isso, ela aceita todas as faixas escolhidas para
a representa¸cão das formas geométricas.
5.1.2 Número de Camadas Ocultas
Foi estabelecido que as RNAs apresentarão apenas uma camada oculta, pois uma vez
que o intuito do trabalho é apenas comparar os algoritmos de treinamento, a defini¸cão de
mais de uma camada oculta implicaria em um grau de complexidade a mais, sem qual-
quer necessidade. Além disso, testes emp´ıricos com a rede neural MLP não conseguiram
comprovar vantagem significante no uso de mais de uma camada oculta (HAYKIN, 2001).

5.1 Defini¸cões das RNAs Utilizadas na Compara¸cão 51
5.1.3 Número de Neurônios em Cada Camada
A camada de entrada das RNAs proposta apresentam 100 neurônios, representando
cada um dos elementos da matriz 10 x 10 que representa a forma geométrica a ser clas-
sificada, após a normaliza¸cão realizada sobre a imagem original descrita na se¸cão 4.4. Já
na camada de sa´ıda, as RNAs possuem apenas 1 neurônio, para retornar o valor predito
que representa a imagem a ser identificada. E, por fim, para a defini¸cão do número de
neurônios presentes na camada oculta, foram utilizadas quatro configura¸cões calculadas
pelas seguintes regras:
Regra do Valor Médio
A regra do valor médio pode ser definida pela seguinte equa¸cão:
n1 + n2
2
, (5.1)
onde:
• n1 é o número de neurônios na camada de entrada;
• e n2 é o número de neurônios na camada de sa´ıda.
Regra de Kolmogorov
A regra de Kolmogorov pode ser definida pela seguinte equa¸cão:
(2 ∗ n1) + n2, (5.2)
onde:

Regra de Fletcher-Gloss
A regra de Fletcher-Gloss pode ser definida pela seguinte equa¸cão:
(2 ∗
√
n1) + n2, (5.3)
onde:
Regra da Raiz Quadrada
A regra da raiz quadrada pode ser definida pela seguinte equa¸cão:
√
n1 + n2, (5.4)
onde:
Defini¸cões das Configura¸cões
Baseando nas formas citadas anteriormente, obtêm-se as seguintes configura¸cões de
redes neurais:
• Configura¸cão 1 - Utilizando a regra do valor médio:
– Camada de Entrada: 100 neurônios;
– Camada Oculta: 50 neurônios;
– Camada de Sa´ıda: 1 neurônio.

• Configura¸cão 2 - Utilizando a regra de Kolmogorov:
• Configura¸cão 3 - Utilizando a regra de Fletcher-Gloss:
• Configura¸cão 4 - Utilizando a regra da raiz quadrada:
Para evitar qualquer injusti¸ca ou falha nessas compara¸cões, todas as redes de uma
determinada configura¸cão come¸cam sempre com os mesmos pesos iniciais. Para arma-
zenar os pesos de uma RNA após o treinamento, foram utilizados métodos do próprio
framework Encog, facilitando assim a reutiliza¸cão dessa rede, sem a necessidade de um
novo treinamento.
5.1.4 Quantidade de Exemplos no Treinamento
Após a defini¸cão das configura¸cões das RNAs utilizadas nas compara¸cões, é preciso
definir o número de exemplos a serem utilizados durante o treinamento. Com o intuito
de analisar como cada algoritmo se comporta com diferentes quantidades de exemplos de
entrada os mesmos procedimentos serão realizados, utilizando-se:
• 10 exemplos de cada forma, totalizando 30 exemplos;
• 30 exemplos de cada forma, totalizando 90 exemplos;
• e 50 exemplos de cada forma, totalizando 150 exemplos.

5.2 Resultados Obtidos Pelos Algoritmos 54
A fim de por em prova a capacidade das RNAs distinguirem padrões mesmo com um
razoável volume de ru´ıdos, todos os exemplos foram desenhados manualmente (por uma
pessoa utilizando o mouse), podendo apresentar, além de tamanhos variados, pequenas
deforma¸cões inseridas propositalmente, para que a RNA não trabalhe apenas com formas
perfeitas.
5.1.5 Quantidade de Exemplos na Valida¸cão
No caso da valida¸cão, todas as 150 imagens presentes nas figuras II.3, II.1 e II.2 pre-
sentes no apêndice 2 foram utilizadas para todas as configura¸cões das RNAs, de forma a
seguirem sempre um padrão na valida¸cão das formas que não foram utilizadas no treina-
mento.
5.2 Resultados Obtidos Pelos Algoritmos
Nessa sessão são exibidos todos os resultados obtidos, divididos por configura¸cão da
RNA e pelo número de exemplos utilizados no treinamento. Em seguida, é realizado
um comparativo global entre as melhores e piores RNAs treinadas por cada algoritmo,
observando cada aspecto separadamente.
Para as RNAs treinadas pelo algoritmo RP, foi realizado apenas um treinamento, uma
vez que este algoritmo não possui parâmetros de configura¸cão a serem calibrados. Com
isso, para um determinado conjunto de exemplos de entrada e considerando sempre os
mesmos pesos iniciais, essas RNAs apresentam sempre o mesmo resultado final no ajuste
dos pesos.
Já para as RNAs treinadas pelo algoritmo BP, foi necessária a realiza¸cão de diversos
treinamentos, já que as mesmas possuem dois parâmetros de configura¸cão. São eles:
• Taxa de aprendizagem: responsável por definir a forma de ajuste dos pesos em cada
itera¸cão, tem grande influência no processo de treinamento da RNA. Uma taxa de
aprendizado muito baixa torna o aprendizado da rede muito lento, ao passo que
uma taxa de aprendizado muito alta provoca oscila¸cões no treinamento e impede a
convergência do processo de aprendizado. Geralmente seu valor varia de 0.1 a 1.0;

• Momentum: responsável por evitar que o treinamento se estabilize em m´ınimos/máximos
locais, o momentum aumenta a velocidade de treinamento da RNA e reduz o perigo
de instabilidade. Este parâmetro pode ou não ser usado durante o treinamento e
seu valor, em geral, varia de 0.0 (não utiliza¸cão) a 1.0.
No caso das RNAs Backpropagation, foram realizados treinamentos com as seguintes
faixas de valores:
• Taxa de aprendizagem: variando de 0.1 a 0.9, aumentando de 0.1 em 0.1;
• Momentum: variando de 0.1 a 0.9, aumentando de 0.1 em 0.1.
Com base nessas faixas, foram realizados 81 testes do algoritmo Backpropagation para
cada combina¸cão (configura¸cão,quantidade de exemplos).
5.2.1 Configura¸cão 1 - Utilizando a Regra do Valor Médio para Determinar
o Número de Neurônios Ocultos
Entende-se como configura¸cão 1, aquela que utiliza a regra do valor médio para de-
terminar o número de neurônios presentes na camada oculta.
Para cada quantidade de exemplos utilizados no treinamento, foram analisados como
cada algoritmo de treinamento se comportou.
Utilizando 30 Exemplos de Entrada
Analisando como cada algoritmo se saiu com 30 exemplos, sendo 10 quadrados, 10
triângulos e 10 c´ırculos, nessa primeira configura¸cão das RNAs, com base na tabela 5.1,
pode-se verificar que as melhores RNAs de cada algoritmo não alcan¸caram a faixa de 80%
de acertos.
Como era esperado, a RNA treinada com o algoritmo Resilient Propagation convergiu
em um número menor de épocas, apresentando apenas 30 épocas, enquanto que aquela
treinada com o algoritmo Backpropagation precisou de 109 épocas para convergir. Essa
diferen¸ca aponta uma eficiência da RNA treinada pelo RP cerca de 3 vezes maior que

a mesma rede treinada pelo BP. Em rela¸cão ao percentual de acerto, não foi vista uma
grande vantagem para nenhum dos dois tipos de treinamento, tendo o BP apresentado uma
acertividade média de 74%, e o RP de 76%. Esses ´ındices de acerto abaixo do esperado
se devem, provavelmente, ao baixo número de exemplos utilizados no treinamento.
Tabela 5.1: Tabela de resultados dos treinamentos com configura¸cão 1 e 30 exemplos
Informa¸cões Treinamento Acertos Obtidos no Treinamento Acertos Obtidos na Valida¸cão
Total Acertos
Treinamento Algoritmo Épocas Quadrado Triângulo C´ırculo Total Quadrado Triângulo C´ırculo Total
57 BP 109 10/10 100% 10/10 100% 10/10 100% 30/30 100% 41/50 82% 18/50 36% 44/50 88% 103/150 69% 133/180 74%
1 RP 30 10/10 100% 10/10 100% 10/10 100% 30/30 100% 42/50 84% 36/50 72% 29/50 58% 107/150 71% 137/180 76%
Analisando os gráficos 5.1 e 5.2, que apresentam a evolu¸cão dos treinamentos reali-
zados com os algoritmos BP e RP, respectivamente, pode-se observar que o treinamento
utilizando o BP apresentou um volume maior de oscila¸cões e, provavelmente por esse
motivo, gerou um alto número de épocas para a convergência do treinamento. Já no
treinamento utilizando o RP, ocorreram apenas 3 grandes oscila¸cões, que podem ser veri-
ficadas nas épocas 5, 7 e 10, mas, com a mudan¸ca de sinal, o próprio treinamento mudou
o sentido de aumento do erro para uma diminui¸cão do erro de forma mais rápida, como
explicado no cap´ıtulo 3.
Figura 5.1: Épocas x Erro - BP com a Configura¸cão 1 e 30 Exemplos
Para este caso, verificou-se que a RNA treinada com o algoritmo Resilient Propagation
se saiu um pouco melhor num aspecto geral que o algoritmo Backpropagation, pois, apesar
de não apresentar uma acertividade muito maior, apresentou convergência em um número
menor de épocas no treinamento.

Figura 5.2: Épocas x Erro - RP com a Configura¸cão 1 e 30 Exemplos
Analisando agora a mesma RNA com 90 exemplos, sendo 30 c´ırculos, 30 quadrados e
30 triângulos, pela tabela 5.2, verifica-se que a RNA treinada pelo algoritmo BP teve um
acerto de 90%, enquanto que aquela treinada pelo RP teve 85% de acerto. Portanto, com
o simples aumento do número de exemplos, ambas as RNAs apresentaram um aumento
expressivo no percentual de acertos.
Além disse, pode ser observado que com o aumento da quantidade de exemplos, au-
mentou também o número de épocas necessárias para os algoritmos convergirem. O RP
precisou de mais 43 épocas, ao passo que o BP aumentou aproximadamente 20 vezes o
número de épocas necessárias para convergir, resultando numa esperar bem maior para a
realiza¸cão do treinamento.
Total Acertos
382 BP 2264 29/30 97% 30/30 100% 30/30 100% 89/90 99% 43/50 86% 46/50 92% 38/50 76% 127/150 85% 216/240 90%
5 RP 73 30/30 100% 30/30 100% 30/30 100% 90/90 100% 39/50 78% 34/50 68% 41/50 82% 114/150 76% 204/250 85%
Analisando os gráficos 5.3 e 5.4, pode-se perceber que novamente o RP apresentou
raras oscila¸cões, enquanto o BP teve uma grande quantidade de oscila¸cões, sempre au-
mentando e diminuindo o erro durante o treinamento, motivo do expressivo aumento do
número de épocas para a convergência.

Após essas compara¸cões, verificou-se que neste caso quem se saiu melhor foi o BP,
porém em casos que o número de épocas do treinamento é importante, o RP deve ser
considerado já que apresenta um número de épocas para convergência cerca de 31 vezes
menor que o BP.
E, por fim, analisando a mesma RNA com 150 exemplos, sendo 50 c´ırculos, 50 qua-
drados e 50 triângulos, pode-se observar que a quantidade de acertos aumentou muito
pouco com a adi¸cão de 20 exemplos de cada forma. Conforme pode ser visto na tabela
5.3, os aumentos foram de cerca de 2% para o BP e de 4% para o RP, o que gerou um
percentual de 92% de acerto para o BP e 89% para o RP.
Em rela¸cão ao número de épocas para convergência de cada treinamento, os gráficos
5.5 e 5.6 mostram o mesmo comportamento dos cenários anteriores, apresentando o BP
com muitas oscila¸cões e convergência com muitas épocas (2034 épocas), e o RP com

Total Acertos
690 BP 2034 50/50 100% 50/50 100% 50/50 100% 150/150 100% 41/50 0,82 50/50 100% 35/50 70% 126/150 84% 276/300 92%
9 RP 109 50/50 100% 50/50 100% 50/50 100% 150/150 100% 43/50 0,86 36/50 72% 39/50 78% 118/150 79% 268/300 89%
poucas oscila¸cões e convergência em um número bem menor de épocas (109 épocas).
Neste contexto, o treinamento com o RP convergiu cerca de 18 vezes menos épocas que o
treinamento com o BP, porém teve um percentual de acertos menor.
Verificou-se portanto, um novo aumento na quantidade de acertos, proveniente do
aumento da quantidade de imagens no treinamento, sendo que o BP apresentou melhores
resultados, embora o RP tenha apresentado também um bom n´ıvel de acertividade com
um número menor de épocas para convergência bem menor.

Análise dos Resultados da Configura¸cão 1
Com 50 neurônios na camada oculta, as RNAs treinadas tanto por BP quanto por RP
se mostraram menos eficientes ao predizer as formas geométricas com poucos exemplos
e foram aumentando o percentual de acertos a medida que o número de exemplos no
treinamento aumentava, chegando ao limite de 92% de acertividade com o BP e de 89%
com o RP.
Em rela¸cão ao número de épocas para a convergência, enquanto o BP aumentou de
maneira drástica o número de épocas necessárias para convergir seu treinamento, chegando
a superar a casa das 2000 épocas, o RP precisou de no máximo 109 épocas para conver-
gir. Já em rela¸cão à acertividade, o treinamento por BP apresentou, no geral, melhores
resultados. Portanto, pode-se dizer que o RP convergiu rapidamente com uma margem
de acertos aceitável e com poucas oscila¸cões. Já o BP se saiu melhor no percentual de
acertos, porém deixou a desejar em rela¸cão ao número de épocas no treinamento.
5.2.2 Configura¸cão 2 - Utilizando a Regra de Kolmogorov para Determinar
Entende-se como configura¸cão 2, aquela que utiliza a regra de Kolmogorov para de-
terminar o número de neurônios presentes na camada oculta.
Nesta configura¸cão, a RNA apresenta o maior número de neurônios ocultos testado
e, com isso, apresenta um maior risco de overfitting.
Analisando a tabela 5.4, com a menor quantidade de exemplos dispon´ıveis, pode-se
observar que as melhores RNAs de ambos os algoritmos não conseguiram alcan¸car 75%
de acertos, o BP apresentou uma acertividade um pouco maior com 73%, enquanto que
o RP teve 72% de acerto.
Analisando os gráficos de cada algoritmo nas figuras 5.7 e 5.8, é poss´ıvel perceber que
o algoritmo BP apresentou um número menor de oscila¸cões se comparado aos gráficos

Total Acertos
146 BP 115 10/10 100% 10/10 100% 10/10 100% 30/30 100% 38/50 76% 30/50 60% 34/50 68% 102/150 68% 132/180 73%
2 RP 34 10/10 100% 10/10 100% 10/10 100% 30/30 100% 40/50 80% 34/50 68% 25/50 50% 99/150 66% 129/180 72%
anteriores desse algoritmo, convergindo em 115 épocas, enquanto que o RP convergiu
com apenas 34 épocas, sendo cerca de 3 vezes menos épocas.
Para essa configura¸cão e número de exemplos, os dois algoritmos apresentaram resul-
tados bem similares, apresentando uma acertividade discreta e convergência acelerada.
Aumentando o número de exemplos, mesmo pela primeira vez tendo errado 1 quadrado
durante o treinamento, o BP aumentou seu percentual de acertos de 73% para 89%,

enquanto que o RP atingiu uma acertividade de 85%, conforme apresentado na tabela
5.5.
Total Acertos
463 BP 2216 29/30 97% 30/30 100% 30/30 100% 89/90 99% 40/50 80% 47/50 94% 38/50 76% 125/150 83% 214/240 89%
6 RP 85 30/30 100% 30/30 100% 30/30 100% 90/90 100% 40/50 80% 36/50 72% 39/50 78% 115/150 77% 205/240 85%
Ao se analisar os gráficos de ambos os algoritmos nas figuras 5.9 e 5.10, pode-se
observar que o BP voltar a oscilar de forma exagerada, enquanto que o RP manteve um
baixo volume de oscila¸cões. Esse excesso de oscila¸cões no BP fez com que o treinamento
do BP demandasse cerca de 26 vezes mais épocas que o BP, que apresentou pouca redu¸cão
no número de épocas para convergência.
Com 90 exemplos no treinamento, o BP se saiu melhor quanto ao percentual de

acertos, porém o RP manteve uma acertividade próxima com uma convergência bem
mais acelerada.
Aumentando um pouco mais o número de exemplos no treinamento, conforme obser-
vado na tabela 5.6, o algoritmo BP aumentou o percentual de acertos para 92%, enquanto
que o RP acertou 89% dos exemplos, uma diferen¸ca de 3% ou 10 formas geométricas.
Total Acertos
750 BP 5010 49/50 98% 50/50 100% 50/50 100% 149/150 99% 45/50 90% 43/50 86% 39/50 78% 127/150 85% 276/300 92%
10 RP 124 50/50 100% 50/50 100% 50/50 100% 150/150 100% 41/50 82% 32/50 64% 43/50 86% 116/150 77% 266/300 89%
Analisando os gráficos 5.11 e 5.12, porém, como nos demais treinamentos, o BP apre-
sentou muitas oscila¸cões e precisou de muitas épocas para convergir, enquanto que o RP
manteve o baixo número de oscila¸cões e um número menor de épocas para a convergência.
Análise dos Resultados da Configura¸cão 2
Conforme esperado, com 201 neurônios na camada oculta, as RNAs treinadas tanto
pelo BP quanto que pelo RP, apresentaram um aumento no seu percentual de acerto

proporcional ao aumento na quantidade de exemplos, conseguindo um acerto máximo
de 92% de acerto com o BP e 89% com o RP. É interessante observar, que esses foram
exatamente os mesmos valores máximos obtidos pelas RNAs com a configura¸cão 1.
Nessa configura¸cão, mais uma vez, de uma forma geral, o BP se saiu melhor no
percentual de acertos, mas apresentou um número maior de época necessárias para a
convergência em todos os casos. Já o RP convergiu em um número menor de épocas e
com poucas oscila¸cões, mas apresentou margem de acertos um pouco inferior.
5.2.3 Configura¸cão 3 - Utilizando a Regra de Fletcher-Gloss para Determinar
Entende-se como configura¸cão 3, aquela que utiliza a regra de Fletcher-Gloss para
determinar o número de neurônios presentes na camada oculta.
Novamente, para cada quantidade de exemplos utilizados no treinamento, foram ana-
lisados como cada algoritmo de treinamento se comportou.
Como pode ser observado na tabela 5.7, com 30 exemplos de entrada, ambas as RNAs
passaram dos 74% de acerto. O RP atingiu 77% de acertividade, enquanto que o BP
acertou 74% das formas.
Analisando os gráficos, pode-se observar que o gráfico do RP, figura 5.14, não tem
tantas oscila¸cões quanto a do BP, figura 5.13, demandando um número bem menor de

Total Acertos
1008 BP 87 10/10 100% 10/10 100% 10/10 100% 30/30 100% 40/50 80% 29/50 58% 34/50 68% 103/150 69% 133/180 74%
1216 RP 27 10/10 100% 10/10 100% 10/10 100% 30/30 100% 43/50 86% 33/50 66% 33/50 66% 109/150 73% 139/180 77%
épocas para convergir (27 contra 87).
Nesta configura¸cão com 21 neurônios na camada oculta e com 30 exemplos, o RP se
saiu melhor em todos os aspectos, uma vez que obteve o maior percentual de acertividade
e conseguiu convergir com apenas 27 épocas, precisando de três vezes menos épocas que
o BP, que precisou de 87 épocas para convergir.

Aumentando a quantidade de exemplos, como observado na tabela 5.8, o BP superou
o RP, com um percentual de acertos de 89% enquanto que o RP acertou 87% das formas
geométricas.
Total Acertos
1081 BP 12000 30/30 100% 30/30 100% 30/30 100% 90/90 100% 45/50 90% 42/50 84% 37/50 74% 124/150 83% 214/240 89%
1217 RP 57 30/30 100% 30/30 100% 30/30 100% 90/90 100% 37/50 74% 40/50 80% 41/50 82% 118/150 79% 208/240 87%
Como observado nas figuras 5.15 e 5.16 referentes a cada algoritmo, o BP apresentou
muitas oscila¸cões que ocasionaram um número excessivo de épocas necessárias para con-
vergir, enquanto o RP manteve um número reduzido de oscila¸cões, conseguindo convergir
em um número menor de épocas.
É poss´ıvel notar que com o aumento de exemplos no treinamento, o BP melhorou
significativamente sua acertividade, porém experimentou 12.000 épocas até a sua con-
vergência. Se comparado ao RP, que precisou de apenas 57 épocas, apresentou uma
acertividade um pouco maior, mas uma convergência com 210 vezes mais épocas.

Aumentando novamente o número de exemplos, pode-se observar na tabela 5.9, que
ambas as RNAs conseguiram acertar mais de 90% das formas geométricas, mostrando
que nessa configura¸cão as duas se sa´ıram muito bem. O BP atingiu 94% de acertividade,
enquanto que o RP acertou 92% dos exemplos.
CódigoTreinamento
Informa¸cõesTreinamento AcertosObtidosnoTreinamento AcertosObtidosnaValida¸cão
TotalAcertos
Algoritmo Épocas Quadrado Triângulo C´ırculo Total Quadrado Triângulo C´ırculo Total
1175 BP 767 50/50 100% 50/50 100% 50/50 100% 150/150 100% 47/50 94% 48/50 96% 37/50 74% 132/150 88% 282/300 94%
1218 RP 79 50/50 100% 50/50 100% 50/50 100% 150/150 100% 43/50 86% 38/50 76% 44/50 88% 125/150 83% 275/300 92%
Analisando as figuras 5.17 e 5.18, observa-se que o BP novamente apresentou muitas
oscila¸cões se comparada com o RP, necessitando de 767 épocas contra apenas 79 do RP.

Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais

Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Destaque

Destaque (16)

Semelhante a Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais

Semelhante a Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais (20)

Monografia sobre Inteligência artificial para comparar algoritmos de treinamento de redes neurais artificiais