Redes Neurais Artificias - Marcelo Estevão Da Silva

UNIVERSIDADE FEDERAL DO CEARÁ – CAMPUS DE SOBRAL
CURSO DE ENGENHARIA ELÉTRICA
REDES NEURAIS ARTIFICIAIS
MARCELO ESTEVÃO DA SILVA

SUMÁRIO:
1. O NEURÔNIO ARTIFICIAL
1.1 CALCULO DO SINAL LÍQUIDO DE ENTRADA
1.2 FUNÇÕES DE ATIVAÇÃO
1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL
1.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL
1.4.1 Vetores Aumentados
1.4.2 Regra de Aprendizagem do Gradiente Descendente
1.4.3 Regra de Aprendizagem de Hidrow-Hoff
1.4.4 Regra de Aprendizagem Delta Generalizada
1.4.5 Regra de Aprendizagem de Erro-Correção
2. REDES NEURAIS DE APRENDIZAGEM SUPERVISIONADA
2.1 TIPOS DE REDES NEURAIS
2.1.1 Redes Neurais Feedforward
2.1.2 Redes Neurais de Link Funcional
2.1.3 Redes Neurais Recorrentes Simples
2.1.4 Redes Neurais de Tempo de Atraso
2.1.5 Redes Neurais de Cascata

1. O NEURÔNIO ARTIFICIAL
Um neurônio artificial (AN), implementa um mapeamento não linear de ℝ𝐼
sendo normalmente:
𝑓𝐴𝑁: ℝ𝐼
→ [0,1] ou 𝑓𝐴𝑁: ℝ𝐼
→ [-1,1]
Um AN recebe um vetor de I sinais de entrada: z = (𝑧1, 𝑧2, … , 𝑧𝐼) ou do ambiente ou outros ANs.
Cada sinal de entrada 𝑧𝑖 é associado a um peso 𝑣𝑖 para fortalecer ou enfraquecer o sinal de líquido
de entrada.
O AN computa o sinal líquido de entrada e usa uma função de ativação 𝑓𝐴𝑁 para computer o sinal
de saída, o, dada um sinal líquido de entrada.
A força do sinal de saída é mais influênciada para valores mais próximo de um valor limite, θ,
definido como bias.

MODELO DE NEURÔNIO ARTIFICIAL

1.1 CÁLCULO DO SINAL LÍQUIDO DE ENTRADA
O sinal líquido de entrada para um AN é normalmente computado como uma soma ponderada de
todas os sinais de entrada:
net = 𝑖=1
𝐼
𝑧𝑖 𝑣1
AN que computam o sinal líquido de entrada como soma ponderada são chamados como
Unidades de Soma (SU).Outra forma de computar o sinal líquido de entrada é usando Unidades de
Produto (PU), onde:
net = 𝑖=1
𝐼
𝑧𝑖
𝑣 𝑖
PUs permitem combinaçõas de ordem superior de entradas, tendo a vantage de incrementar
capacidade de informação.

1.2 FUNÇÕES DE ATIVAÇÃO
A função de ativação 𝑓𝐴𝑁 recebe o sinal líquido de entrada e o bias, e determina o sinal de saída do
neurônio. Em geral, funções de ativação são mapeamentos monotonicamente crescentes, onde
𝑓𝐴𝑁 −∞ = 0 ou 𝑓𝐴𝑁 −∞ = −1 e 𝑓𝐴𝑁 ∞ = 1
I) Função Linear:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝜆(𝑛𝑒𝑡 − 𝜃)
Onde a constante 𝜆 é a inclinação da função.

II) Função Degrau:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 =
𝛾1 𝑛𝑒𝑡 ≥ 𝜃
𝛾2 𝑛𝑒𝑡 < 𝜃
A função degrau produz um de dois valores escalares para a saída, dependendo do valor do limiar θ.
Normalmente, uma saída binária é produzida para 𝛾1 = 1 e 𝛾2 = 0; uma saída bipolar também pode
ser produzida com 𝛾1 = 1 e 𝛾2 = −1.

III) Função Rampa:
𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈
𝑛𝑒𝑡 − 𝜃, −∈< 𝑛𝑒𝑡 − 𝜃 <∈
−𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈
A função rampa é uma combinação da funções linear com a função degrau.
IV) Função Sigmoide:
1
1 + 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
A função sigmoide é uma versão continuada da função rampa, com 𝑓𝐴𝑁(net) ϵ (0,1). O parâmetro 𝜆
controla a inclinação da função. (normalmente 𝜆=1)

V) Função Tangente Hiperbolica:
𝑒 𝜆(𝑛𝑒𝑡−𝜃) − 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
𝑒 𝜆(𝑛𝑒𝑡−𝜃) + 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
A saída da tangente hiperbolica tem uma variação em (− 1,1).
VI) Função Gaussiana:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝑒
−(𝑛𝑒𝑡−𝜃)2
𝜎2
Onde 𝑛𝑒𝑡 − 𝜃 é a media e o 𝜎 desvio padrão da distribuição gaussiana.

1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL
Neurônios simples podem ser usados para realizar funções lineares separáveis sem nenhum erro.
Separabilidade linear significa que o neurônio pode separar o espaco do I-dimensional vetor de
entrada produzindo uma resposta acima do limiar dos vetores que tem uma resposta abaixo do
limiar no hiperplano I-dimensional. O hiperplano forma o limite entre os vetores de entrada
associados aos dois valores de saída

- Exemplo 1: Fronteira de decisão para um neurônio com função de ativação do tipo rampa. O hiperplano
separa os vetores de entrada para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0 dos vetores para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0.

2.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL
O neurônio artificial aprende o melhor valor para 𝑣𝑖 e θ a partir dos dados fornecidos.
Aprendizagem consiste do ajuste dos valores dos pesos e do limiar sob certos critérios satisfeitos.
Os três tipos de aprendizagem são:
• Aprendizagem Supervisionada: onde é fornecido ao AN ou NN um conjunto de dados de
treinamento que consiste em vetores de entrada e uma saída desejada associado a cada vetor de
entrada, com o objetivo de ajustar os valores de peso de forma a minimizar o erro entre a saída
real, 𝑜 = 𝑓 𝑛𝑒𝑡 − 𝜃 , e a saída desejada.

• Aprendizagem Não-Supervisionada: onde o objetivo é descobrir padrões e características em
dados de entrada sem a necessidade de uma fonte externa. Muitos algoritmos de aprendizagem
não-supervisionada basicamente realizam o processo de clusterização dos padrões de
treinamento.
• Aprendizado por Reforço: onde o objetivo é “recompensar” o neurônio (ou partes de uma NN)
por uma boa performance e penalizar por más performances.
1.4.1 Vetores Aumentados
Um AN é caracterizado pelo vetor peso v, o limiar θ e pela função de ativação 𝑓𝐴𝑁. Para o vetor
aumentado é incrementado o termo 𝑧𝐼+1 referenciado como bias unit. O valor de 𝑧𝐼+1 é sempre −1
e o peso 𝑣𝐼+1se torna o valor do limiar.

Logo, o valor do sinal líquido de entrada é:
𝑛𝑒𝑡 =
𝑖=1
𝐼
𝑧𝑖 𝑣𝑖 − 𝜃 =
𝑖=1
𝐼
𝑧𝑖 𝑣𝑖 − 𝑧𝐼+1 𝑣𝐼+1 =
𝑖=1
𝐼+1
𝑧𝑖 𝑣𝑖
1.4.2 Regra de Aprendizagem do Gradiente Descendente
Gradiente Descendente (GD) é usada para treinar neurônios (e NNs) e requer a definição da função
erro, onde o objetivo é medir o erro e aproximar a saída real da saída desejada. A soma dos erros
quadrados 𝜀 é normalmente usada, com 𝑡 𝑝 e 𝑜 𝑝 sendo a saída desejada e saída atual,
respectivamente.
𝜀 =
𝑝=1
𝑃𝑡
(𝑡 𝑝−𝑜 𝑝)2

ILUSTRAÇÃO DO GRADIENTE DESCENDENTE

O objetivo do GD é encontrar os valores de peso que minimizam 𝜀, que são encontrados calculando
o gradiente de 𝜀. Então, dado um padrão de treinamento simples, os pesos são atualizados usando:
𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + Δ𝑣𝑖 𝑡
Com,
Δ𝑣𝑖 𝑡 = 𝜂(−
𝜕𝜀
𝜕𝑣𝑖
)
Onde,
𝜕𝜀
𝜕𝑣𝑖
= −2(𝑡 𝑝−𝑜 𝑝)
𝜕𝑓
𝜕𝑛𝑒𝑡 𝑝
𝑧𝑖,𝑝
E 𝜂 é razão de aprendizagem (variação vertical na direção do gradiente).
* Obs.: GD não está definido em funções descontínuas.

1.4.3 Regra de Aprendizagem de Widrow-Hoff
Suponha 𝑓 = 𝑛𝑒𝑡 𝑝. Então,
𝜕𝑓
𝜕𝑛𝑒𝑡 𝑝
= 1. Logo,
𝜕𝜀
𝜕𝑣𝑖
= −2(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝
Então a atualização dos pesos é dado por,
𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + 2𝜂(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝
Esta regra, conhecida também como least-means-square (LMS) foi o primeiro algoritmo usado
para treinar redes neurais em camadas com múltiplos neurônios lineares adaptativos. (Madaline)

1.4.4 Regra de Aprendizado Delta Generalizada
A regra de aprendizado delta generalizada é uma generalização da regra de aprendizado de
Widrow-Hoff que assume funções de ativação diferenciáveis.
1.4.5 Regra de Aprendizagem de Erro-Correção
Para a regra de aprendizado de correção de erros, presume-se que as funções de ativação de valor
binário sejam usadas, por exemplo, a função de etapa. Os pesos só são ajustados quando o neurônio
responde com erro. Isto é, somente quando (𝑡 𝑝−𝑜 𝑝) = 1 ou (𝑡 𝑝−𝑜 𝑝) = −1. Os pesos são
atualizados usando a regra de Hidrow-Hoff.

2. REDES NEURAIS DE APRENDIZADO SUPERVISIONADO
- As redes neurais multicamadas são necessárias para resolver a limitação do neurônio simples
(de SU) só resolver funções linearmente independentes;
- Aprendizagem supervisionada requer um treinamento que consiste de um conjunto de de
vetores de entrada e um “vetor alvo” associado a cada um deles;
- A NN aprendiz usa o “vetor alvo” para determiner o quão bem ele aprendeu e para orientar os
ajustes nos valores de peso para reduzir seu erro geral.

2.1 TIPOS DE REDES NEURAIS
TIPOS CARACTERÍSTICAS
NN Feedforward
NN Link Funcional
NN de Unidade de Produto
Recebem sinais externos e simplesmente
propagam esses sinais por todas as
camadas para obter o resultado de saída.
NN Recorrente
Possui conexões de feedback para
modelar as características temporais do
problema que está sendo aprendido.
NN Atraso de Tempo (Time-Delay)
Memorizam uma janela de padrões
previamente observados.

2.1.1 Redes Neurais Feedforward (FFNN)
- A NN Feedforward consiste em três tipos de camadas: entrada, oculta e saída.
- FFNNs com funções diferenciáveis monotonicamente crescentes podem aproximar qualquer
função contínua com uma camada oculta, desde que a camada oculta tenha neurónios
escondidos suficientes;
- Pode ter conexões diretas entre a camada de entrada e a de saída.

ILUSTRAÇÃO DE REDE NEURAL FEEDFORWARD

O vetor de saída de uma FFNN para qualquer padrão de entrada 𝑧 𝑝 é calculado com uma única
“passagem” através da rede. Para cada unidade 𝑜 𝑘 de saída, temos
𝑜 𝑘 = 𝑓𝑜 𝑘
𝑛𝑒𝑡 𝑜 𝑘,𝑝
= 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑛𝑒𝑡 𝑦 𝑗,𝑝
= 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑖=1
𝐼+1
𝑣𝑗𝑖 𝑧𝑖,𝑝
*Obs.: Não é necessário ter apenas um tipo de função de ativação.

2.1.2 Rede Neural de Link Funcional (FLNN)
- As unidades de entradas implementam uma função de ativação;
- Uma FLNN é simplesmente uma FFNN com uma camada externa expandida em unidades
funcionais de ordem superior.
- Cada vetor de entrada é expandido para unidades funcionais ℎ1, ℎ2, … , ℎ 𝐿, com cada ℎ𝑙 sendo
uma função do vetor de parâmetro de entrada (𝑧1, 𝑧2, … , 𝑧𝐼), i.e. ℎ𝑙(𝑧1, 𝑧2, … , 𝑧𝐼).
- A matriz peso U entre a camada de entrada e a camada de unidades funcionais e unidade de
saída 𝑜 𝑘 é:
𝑢𝑙𝑖 =
1, ℎ𝑙 𝑑𝑒𝑝𝑒𝑛𝑑𝑒 𝑑𝑒 𝑧𝑖
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
𝑜 𝑘 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑙=1
𝐿
𝑣𝑗𝑙ℎ𝑙(𝒛 𝑝)

ILUSTRAÇÃO DE REDE NEURAL DE LINK FUNCIONAL

2.1.3 Rede Neural de Unidade de Produto (PUNN)
- Utilizam neurônios do tipo unidade de produto (PU) ao invés de unidade de soma (SU);
- São matematicamente mais complexos;
- Podem apresentar camadas mescladas com (SU) e (PU);
- Para o caso específico em que apenas a camada oculta possui PUs e funções lineares para todos
os AN, temos:
=
𝑖=1
𝐼
𝑧𝑖,𝑝
𝑣 𝑗𝑖 =
𝑖=1
𝐼
𝑒 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝)
= 𝑒 𝑖 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝)
- Com o chamado fator de “distorção”, resulta:
=
𝑖=1
𝐼+1
𝑧𝑖,𝑝
𝑣 𝑗𝑖

- O propósito do fator de distorção é modelar dinamicamente a função de ativação durante o
treinamento para ajustar mais de perto a forma da função verdadeira representada pelos dados
de treinamento;
- O valor de saída 𝑜 𝑘 é, portanto:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
(𝑒 𝜌 𝑗,𝑝 cos 𝜋𝜙𝑗,𝑝 )
Onde,
𝜌𝑗,𝑝 =
𝑖=1
𝐼
𝑣𝑗𝑖 𝑙𝑛 𝑧𝑖,𝑝 𝜙𝑗,𝑝
𝑖=1
𝐼
𝑣𝑗𝑖 𝐼𝑖 𝐼𝑖 =
0, 𝑠𝑒 𝑧𝑖,𝑝 > 0
1, 𝑠𝑒 𝑧𝑖,𝑝 < 0

2.1.4 Redes Neurais Recorrentes Simples (SRNN)
- Possuem conexões de retorno;
- Podem aprender características temporais do conjunto de dados;
- As principais SRNN são a de Elman e Jordan (extensões de FFNN’s).
• SRNN de Elman
- Cópia de uma camada oculta referenciada como “camada de contexto”;
- - A camada de contexto serve para armazenar o estado anterior e é uma extensão da camada de
entrada, onde o vetor de entrada é:
𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽
Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽 são as unidades do contexto.

ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE ELMAN

- Todas as unidades de contexto são interconectadas com todas as unidades da camada oculta;
- As conexões de cada unidade oculta 𝑦𝑗 (j = 1, ..., J) para sua unidade de contexto
correspondente 𝑧𝐼+1+𝑗 têm peso igual a 1.
- Cada unidade de ativação é calculada como segue:
𝑗=1
𝐽+1
𝑖=1
𝐼+1+𝐽
Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐽,𝑝) = (𝑦1,𝑝 𝑡 − 1 , … , 𝑦𝐽,𝑝(𝑡 − 1)).

• SRNN de Jordan
- Cópia da camada de saída, referenciada como “camada de estado”;
- O estado anterior da camada de saída também serve como entrada para a rede;
- A camada de estado serve como extensão da camada de entrada, cujo vetor é:
𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾
Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾 são as unidades de estado.
Para cada unidade de saída, temos:
𝑗=1
𝐽+1
𝑖=1
𝐼+1+𝐾
Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐾,𝑝) = (𝑜1,𝑝 𝑡 − 1 , … , 𝑜 𝐾,𝑝(𝑡 − 1)).

ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE JORDAN

2.1.5 Redes Neurais de Tempo de Atraso (TDNN)
- Uma TDNN (backpropagation-through-time) é uma rede temporal com seus padrões de entrada
sucessivamente atrasados no tempo;
- Na rede TDNN um AN simples com 𝑛 𝑡 tempo de atraso é usado para construir uma rede
feedforward TDNN;
- Inicialmente só 𝑧𝑖,𝑝 𝑡 tem valor (t = 0) e 𝑧𝑖,𝑝 𝑡 − 𝑡′ é zero para todo 𝑖 = 1, … 𝐼, com 𝑡′
=
1, … , 𝑛 𝑡 (com 𝑛 𝑡 sendo o número de padrões atrasados);
- Imediatamente da apresentação do primeiro padrão e antes da apresentação do segundo, temos:
𝑧𝑖,𝑝 𝑡 − 1 = 𝑧𝑖,𝑝 𝑡
- Antes da apresentação do 𝑡′ padrão e antes da apresentação do 𝑡′ + 1, para todo 𝑡 = 1, … 𝑡′,
temos:
𝑧𝑖,𝑝 𝑡 − 𝑡′ = 𝑧𝑖,𝑝 𝑡 − 𝑡′
+ 1

ILUSTRAÇÃO DE NEURÔNIO SIMPLES DE REDE NEURAL DE TEMPO DE ATRASO

- Isso faz com que um total de padrões 𝑛 𝑡 influencie as atualizações dos valores de peso,
permitindo assim que as características temporais conduzam a modelagem da função aprendida.
Cada conexão entre 𝑧𝑖,𝑝 𝑡 − 𝑡′ e 𝑧𝑖,𝑝 𝑡 − 𝑡′
+ 1 tenha valor 1.
- A saída de uma TDNN é calculada a partir de:
𝑗=1
𝐽+1
(
𝑖=1
𝐼
𝑡=0
𝑛 𝑡
𝑣𝑗,𝑖 𝑡 𝑧𝑖,𝑝 𝑡 + 𝑧𝐼+1 𝑣𝑗,𝐼+1)

2.1.5 Redes Neurais de Cascata (CNN)
- Uma CNN é uma FFNN multicada em que todas as unidades de entrada têm conexões diretas
com todas as unidades ocultas e de saída;
- As unidades ocultas estão em cascata, ou seja, a a saída de cada unidade oculta serve como uma
entrada para todas as unidades ocultas seguintes e de saída;
- A saída de uma CNN é calculada como segue:
𝑖=1
𝐼+1
𝑢 𝑘𝑖 𝑧𝑖 +
𝑗=1
𝐽
𝑖=1
𝐼+1
𝑣𝑗𝑖 𝑧𝑖 +
𝑙=1
𝐽−1
𝑠𝑗𝑙 𝑦𝑙

ILUSTRAÇÃO DE REDE NEURAL DE CASCATA

- O treinamento de uma CNN consiste em encontrar valores de peso e o tamanho da NN;
- O treinamento começa com a arquitetura simples com apenas os pesos direros 𝐼 + 1 𝐾 entre as
unidades de entrada e saída (indicados por quadrados);
- Se a precisão da CNN é inaceitável, uma unidade oculta é adicionado, adicionando outros pesos
𝐼 + 1 𝐽 + 𝐽 − 1 + 𝐽𝐾 à rede;
- Se 𝐽 = 1, a rede inclui os pesos indicados pelos quadrados e círculos preenchidos. Quando 𝐽 =
2, os pesos marcados por triângulos preenchidos são adicionados.

REFERÊNCIAS
ENGELBRECHT, Andries P. Inteligência Computacional: Uma Introdução. África do Sul: Jhon
Whiley & Sons Ltd, 2007.
CALDEIRA, André M. [et al.]. Inteligência Computacional Aplicada à Administração, Economia e
Engenharia em Matlab®. São Paulo: Thomson Learning, 2007.
BRAGA, Antônio de Pádua. Redes Neurais Artificiais: Teoria e Aplicações. Rio de Janeiro: LTC,
2012.

Redes Neurais Artificias - Marcelo Estevão Da Silva

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Redes Neurais Artificias - Marcelo Estevão Da Silva