SlideShare uma empresa Scribd logo
1 de 42
UNIVERSIDADE FEDERAL DO CEARÁ – CAMPUS DE SOBRAL
CURSO DE ENGENHARIA ELÉTRICA
REDES NEURAIS ARTIFICIAIS
MARCELO ESTEVÃO DA SILVA
SUMÁRIO:
1. O NEURÔNIO ARTIFICIAL
1.1 CALCULO DO SINAL LÍQUIDO DE ENTRADA
1.2 FUNÇÕES DE ATIVAÇÃO
1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL
1.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL
1.4.1 Vetores Aumentados
1.4.2 Regra de Aprendizagem do Gradiente Descendente
1.4.3 Regra de Aprendizagem de Hidrow-Hoff
1.4.4 Regra de Aprendizagem Delta Generalizada
1.4.5 Regra de Aprendizagem de Erro-Correção
2. REDES NEURAIS DE APRENDIZAGEM SUPERVISIONADA
2.1 TIPOS DE REDES NEURAIS
2.1.1 Redes Neurais Feedforward
2.1.2 Redes Neurais de Link Funcional
2.1.3 Redes Neurais Recorrentes Simples
2.1.4 Redes Neurais de Tempo de Atraso
2.1.5 Redes Neurais de Cascata
1. O NEURÔNIO ARTIFICIAL
Um neurônio artificial (AN), implementa um mapeamento não linear de ℝ𝐼
sendo normalmente:
𝑓𝐴𝑁: ℝ𝐼
→ [0,1] ou 𝑓𝐴𝑁: ℝ𝐼
→ [-1,1]
Um AN recebe um vetor de I sinais de entrada: z = (𝑧1, 𝑧2, … , 𝑧𝐼) ou do ambiente ou outros ANs.
Cada sinal de entrada 𝑧𝑖 é associado a um peso 𝑣𝑖 para fortalecer ou enfraquecer o sinal de líquido
de entrada.
O AN computa o sinal líquido de entrada e usa uma função de ativação 𝑓𝐴𝑁 para computer o sinal
de saída, o, dada um sinal líquido de entrada.
A força do sinal de saída é mais influênciada para valores mais próximo de um valor limite, θ,
definido como bias.
MODELO DE NEURÔNIO ARTIFICIAL
1.1 CÁLCULO DO SINAL LÍQUIDO DE ENTRADA
O sinal líquido de entrada para um AN é normalmente computado como uma soma ponderada de
todas os sinais de entrada:
net = 𝑖=1
𝐼
𝑧𝑖 𝑣1
AN que computam o sinal líquido de entrada como soma ponderada são chamados como
Unidades de Soma (SU).Outra forma de computar o sinal líquido de entrada é usando Unidades de
Produto (PU), onde:
net = 𝑖=1
𝐼
𝑧𝑖
𝑣 𝑖
PUs permitem combinaçõas de ordem superior de entradas, tendo a vantage de incrementar
capacidade de informação.
1.2 FUNÇÕES DE ATIVAÇÃO
A função de ativação 𝑓𝐴𝑁 recebe o sinal líquido de entrada e o bias, e determina o sinal de saída do
neurônio. Em geral, funções de ativação são mapeamentos monotonicamente crescentes, onde
𝑓𝐴𝑁 −∞ = 0 ou 𝑓𝐴𝑁 −∞ = −1 e 𝑓𝐴𝑁 ∞ = 1
I) Função Linear:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝜆(𝑛𝑒𝑡 − 𝜃)
Onde a constante 𝜆 é a inclinação da função.
II) Função Degrau:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 =
𝛾1 𝑛𝑒𝑡 ≥ 𝜃
𝛾2 𝑛𝑒𝑡 < 𝜃
A função degrau produz um de dois valores escalares para a saída, dependendo do valor do limiar θ.
Normalmente, uma saída binária é produzida para 𝛾1 = 1 e 𝛾2 = 0; uma saída bipolar também pode
ser produzida com 𝛾1 = 1 e 𝛾2 = −1.
III) Função Rampa:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 =
𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈
𝑛𝑒𝑡 − 𝜃, −∈< 𝑛𝑒𝑡 − 𝜃 <∈
−𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈
A função rampa é uma combinação da funções linear com a função degrau.
IV) Função Sigmoide:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 =
1
1 + 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
A função sigmoide é uma versão continuada da função rampa, com 𝑓𝐴𝑁(net) ϵ (0,1). O parâmetro 𝜆
controla a inclinação da função. (normalmente 𝜆=1)
V) Função Tangente Hiperbolica:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 =
𝑒 𝜆(𝑛𝑒𝑡−𝜃) − 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
𝑒 𝜆(𝑛𝑒𝑡−𝜃) + 𝑒−𝜆(𝑛𝑒𝑡−𝜃)
A saída da tangente hiperbolica tem uma variação em (− 1,1).
VI) Função Gaussiana:
𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝑒
−(𝑛𝑒𝑡−𝜃)2
𝜎2
Onde 𝑛𝑒𝑡 − 𝜃 é a media e o 𝜎 desvio padrão da distribuição gaussiana.
1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL
Neurônios simples podem ser usados para realizar funções lineares separáveis sem nenhum erro.
Separabilidade linear significa que o neurônio pode separar o espaco do I-dimensional vetor de
entrada produzindo uma resposta acima do limiar dos vetores que tem uma resposta abaixo do
limiar no hiperplano I-dimensional. O hiperplano forma o limite entre os vetores de entrada
associados aos dois valores de saída
- Exemplo 1: Fronteira de decisão para um neurônio com função de ativação do tipo rampa. O hiperplano
separa os vetores de entrada para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0 dos vetores para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0.
2.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL
O neurônio artificial aprende o melhor valor para 𝑣𝑖 e θ a partir dos dados fornecidos.
Aprendizagem consiste do ajuste dos valores dos pesos e do limiar sob certos critérios satisfeitos.
Os três tipos de aprendizagem são:
• Aprendizagem Supervisionada: onde é fornecido ao AN ou NN um conjunto de dados de
treinamento que consiste em vetores de entrada e uma saída desejada associado a cada vetor de
entrada, com o objetivo de ajustar os valores de peso de forma a minimizar o erro entre a saída
real, 𝑜 = 𝑓 𝑛𝑒𝑡 − 𝜃 , e a saída desejada.
• Aprendizagem Não-Supervisionada: onde o objetivo é descobrir padrões e características em
dados de entrada sem a necessidade de uma fonte externa. Muitos algoritmos de aprendizagem
não-supervisionada basicamente realizam o processo de clusterização dos padrões de
treinamento.
• Aprendizado por Reforço: onde o objetivo é “recompensar” o neurônio (ou partes de uma NN)
por uma boa performance e penalizar por más performances.
1.4.1 Vetores Aumentados
Um AN é caracterizado pelo vetor peso v, o limiar θ e pela função de ativação 𝑓𝐴𝑁. Para o vetor
aumentado é incrementado o termo 𝑧𝐼+1 referenciado como bias unit. O valor de 𝑧𝐼+1 é sempre −1
e o peso 𝑣𝐼+1se torna o valor do limiar.
Logo, o valor do sinal líquido de entrada é:
𝑛𝑒𝑡 =
𝑖=1
𝐼
𝑧𝑖 𝑣𝑖 − 𝜃 =
𝑖=1
𝐼
𝑧𝑖 𝑣𝑖 − 𝑧𝐼+1 𝑣𝐼+1 =
𝑖=1
𝐼+1
𝑧𝑖 𝑣𝑖
1.4.2 Regra de Aprendizagem do Gradiente Descendente
Gradiente Descendente (GD) é usada para treinar neurônios (e NNs) e requer a definição da função
erro, onde o objetivo é medir o erro e aproximar a saída real da saída desejada. A soma dos erros
quadrados 𝜀 é normalmente usada, com 𝑡 𝑝 e 𝑜 𝑝 sendo a saída desejada e saída atual,
respectivamente.
𝜀 =
𝑝=1
𝑃𝑡
(𝑡 𝑝−𝑜 𝑝)2
ILUSTRAÇÃO DO GRADIENTE DESCENDENTE
O objetivo do GD é encontrar os valores de peso que minimizam 𝜀, que são encontrados calculando
o gradiente de 𝜀. Então, dado um padrão de treinamento simples, os pesos são atualizados usando:
𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + Δ𝑣𝑖 𝑡
Com,
Δ𝑣𝑖 𝑡 = 𝜂(−
𝜕𝜀
𝜕𝑣𝑖
)
Onde,
𝜕𝜀
𝜕𝑣𝑖
= −2(𝑡 𝑝−𝑜 𝑝)
𝜕𝑓
𝜕𝑛𝑒𝑡 𝑝
𝑧𝑖,𝑝
E 𝜂 é razão de aprendizagem (variação vertical na direção do gradiente).
* Obs.: GD não está definido em funções descontínuas.
1.4.3 Regra de Aprendizagem de Widrow-Hoff
Suponha 𝑓 = 𝑛𝑒𝑡 𝑝. Então,
𝜕𝑓
𝜕𝑛𝑒𝑡 𝑝
= 1. Logo,
𝜕𝜀
𝜕𝑣𝑖
= −2(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝
Então a atualização dos pesos é dado por,
𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + 2𝜂(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝
Esta regra, conhecida também como least-means-square (LMS) foi o primeiro algoritmo usado
para treinar redes neurais em camadas com múltiplos neurônios lineares adaptativos. (Madaline)
1.4.4 Regra de Aprendizado Delta Generalizada
A regra de aprendizado delta generalizada é uma generalização da regra de aprendizado de
Widrow-Hoff que assume funções de ativação diferenciáveis.
1.4.5 Regra de Aprendizagem de Erro-Correção
Para a regra de aprendizado de correção de erros, presume-se que as funções de ativação de valor
binário sejam usadas, por exemplo, a função de etapa. Os pesos só são ajustados quando o neurônio
responde com erro. Isto é, somente quando (𝑡 𝑝−𝑜 𝑝) = 1 ou (𝑡 𝑝−𝑜 𝑝) = −1. Os pesos são
atualizados usando a regra de Hidrow-Hoff.
2. REDES NEURAIS DE APRENDIZADO SUPERVISIONADO
- As redes neurais multicamadas são necessárias para resolver a limitação do neurônio simples
(de SU) só resolver funções linearmente independentes;
- Aprendizagem supervisionada requer um treinamento que consiste de um conjunto de de
vetores de entrada e um “vetor alvo” associado a cada um deles;
- A NN aprendiz usa o “vetor alvo” para determiner o quão bem ele aprendeu e para orientar os
ajustes nos valores de peso para reduzir seu erro geral.
2.1 TIPOS DE REDES NEURAIS
TIPOS CARACTERÍSTICAS
NN Feedforward
NN Link Funcional
NN de Unidade de Produto
Recebem sinais externos e simplesmente
propagam esses sinais por todas as
camadas para obter o resultado de saída.
NN Recorrente
Possui conexões de feedback para
modelar as características temporais do
problema que está sendo aprendido.
NN Atraso de Tempo (Time-Delay)
Memorizam uma janela de padrões
previamente observados.
2.1.1 Redes Neurais Feedforward (FFNN)
- A NN Feedforward consiste em três tipos de camadas: entrada, oculta e saída.
- FFNNs com funções diferenciáveis monotonicamente crescentes podem aproximar qualquer
função contínua com uma camada oculta, desde que a camada oculta tenha neurónios
escondidos suficientes;
- Pode ter conexões diretas entre a camada de entrada e a de saída.
ILUSTRAÇÃO DE REDE NEURAL FEEDFORWARD
O vetor de saída de uma FFNN para qualquer padrão de entrada 𝑧 𝑝 é calculado com uma única
“passagem” através da rede. Para cada unidade 𝑜 𝑘 de saída, temos
𝑜 𝑘 = 𝑓𝑜 𝑘
𝑛𝑒𝑡 𝑜 𝑘,𝑝
= 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑛𝑒𝑡 𝑦 𝑗,𝑝
= 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑖=1
𝐼+1
𝑣𝑗𝑖 𝑧𝑖,𝑝
*Obs.: Não é necessário ter apenas um tipo de função de ativação.
2.1.2 Rede Neural de Link Funcional (FLNN)
- As unidades de entradas implementam uma função de ativação;
- Uma FLNN é simplesmente uma FFNN com uma camada externa expandida em unidades
funcionais de ordem superior.
- Cada vetor de entrada é expandido para unidades funcionais ℎ1, ℎ2, … , ℎ 𝐿, com cada ℎ𝑙 sendo
uma função do vetor de parâmetro de entrada (𝑧1, 𝑧2, … , 𝑧𝐼), i.e. ℎ𝑙(𝑧1, 𝑧2, … , 𝑧𝐼).
- A matriz peso U entre a camada de entrada e a camada de unidades funcionais e unidade de
saída 𝑜 𝑘 é:
𝑢𝑙𝑖 =
1, ℎ𝑙 𝑑𝑒𝑝𝑒𝑛𝑑𝑒 𝑑𝑒 𝑧𝑖
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
𝑜 𝑘 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑙=1
𝐿
𝑣𝑗𝑙ℎ𝑙(𝒛 𝑝)
ILUSTRAÇÃO DE REDE NEURAL DE LINK FUNCIONAL
2.1.3 Rede Neural de Unidade de Produto (PUNN)
- Utilizam neurônios do tipo unidade de produto (PU) ao invés de unidade de soma (SU);
- São matematicamente mais complexos;
- Podem apresentar camadas mescladas com (SU) e (PU);
- Para o caso específico em que apenas a camada oculta possui PUs e funções lineares para todos
os AN, temos:
𝑛𝑒𝑡 𝑦 𝑗,𝑝
=
𝑖=1
𝐼
𝑧𝑖,𝑝
𝑣 𝑗𝑖 =
𝑖=1
𝐼
𝑒 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝)
= 𝑒 𝑖 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝)
- Com o chamado fator de “distorção”, resulta:
𝑛𝑒𝑡 𝑦 𝑗,𝑝
=
𝑖=1
𝐼+1
𝑧𝑖,𝑝
𝑣 𝑗𝑖
- O propósito do fator de distorção é modelar dinamicamente a função de ativação durante o
treinamento para ajustar mais de perto a forma da função verdadeira representada pelos dados
de treinamento;
- O valor de saída 𝑜 𝑘 é, portanto:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
(𝑒 𝜌 𝑗,𝑝 cos 𝜋𝜙𝑗,𝑝 )
Onde,
𝜌𝑗,𝑝 =
𝑖=1
𝐼
𝑣𝑗𝑖 𝑙𝑛 𝑧𝑖,𝑝 𝜙𝑗,𝑝
𝑖=1
𝐼
𝑣𝑗𝑖 𝐼𝑖 𝐼𝑖 =
0, 𝑠𝑒 𝑧𝑖,𝑝 > 0
1, 𝑠𝑒 𝑧𝑖,𝑝 < 0
2.1.4 Redes Neurais Recorrentes Simples (SRNN)
- Possuem conexões de retorno;
- Podem aprender características temporais do conjunto de dados;
- As principais SRNN são a de Elman e Jordan (extensões de FFNN’s).
• SRNN de Elman
- Cópia de uma camada oculta referenciada como “camada de contexto”;
- - A camada de contexto serve para armazenar o estado anterior e é uma extensão da camada de
entrada, onde o vetor de entrada é:
𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽
Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽 são as unidades do contexto.
ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE ELMAN
- Todas as unidades de contexto são interconectadas com todas as unidades da camada oculta;
- As conexões de cada unidade oculta 𝑦𝑗 (j = 1, ..., J) para sua unidade de contexto
correspondente 𝑧𝐼+1+𝑗 têm peso igual a 1.
- Cada unidade de ativação é calculada como segue:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑖=1
𝐼+1+𝐽
𝑣𝑗𝑖 𝑧𝑖,𝑝
Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐽,𝑝) = (𝑦1,𝑝 𝑡 − 1 , … , 𝑦𝐽,𝑝(𝑡 − 1)).
• SRNN de Jordan
- Cópia da camada de saída, referenciada como “camada de estado”;
- O estado anterior da camada de saída também serve como entrada para a rede;
- A camada de estado serve como extensão da camada de entrada, cujo vetor é:
𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾
Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾 são as unidades de estado.
Para cada unidade de saída, temos:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑖=1
𝐼+1+𝐾
𝑣𝑗𝑖 𝑧𝑖,𝑝
Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐾,𝑝) = (𝑜1,𝑝 𝑡 − 1 , … , 𝑜 𝐾,𝑝(𝑡 − 1)).
ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE JORDAN
2.1.5 Redes Neurais de Tempo de Atraso (TDNN)
- Uma TDNN (backpropagation-through-time) é uma rede temporal com seus padrões de entrada
sucessivamente atrasados no tempo;
- Na rede TDNN um AN simples com 𝑛 𝑡 tempo de atraso é usado para construir uma rede
feedforward TDNN;
- Inicialmente só 𝑧𝑖,𝑝 𝑡 tem valor (t = 0) e 𝑧𝑖,𝑝 𝑡 − 𝑡′ é zero para todo 𝑖 = 1, … 𝐼, com 𝑡′
=
1, … , 𝑛 𝑡 (com 𝑛 𝑡 sendo o número de padrões atrasados);
- Imediatamente da apresentação do primeiro padrão e antes da apresentação do segundo, temos:
𝑧𝑖,𝑝 𝑡 − 1 = 𝑧𝑖,𝑝 𝑡
- Antes da apresentação do 𝑡′ padrão e antes da apresentação do 𝑡′ + 1, para todo 𝑡 = 1, … 𝑡′,
temos:
𝑧𝑖,𝑝 𝑡 − 𝑡′ = 𝑧𝑖,𝑝 𝑡 − 𝑡′
+ 1
ILUSTRAÇÃO DE NEURÔNIO SIMPLES DE REDE NEURAL DE TEMPO DE ATRASO
- Isso faz com que um total de padrões 𝑛 𝑡 influencie as atualizações dos valores de peso,
permitindo assim que as características temporais conduzam a modelagem da função aprendida.
Cada conexão entre 𝑧𝑖,𝑝 𝑡 − 𝑡′ e 𝑧𝑖,𝑝 𝑡 − 𝑡′
+ 1 tenha valor 1.
- A saída de uma TDNN é calculada a partir de:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑗=1
𝐽+1
𝑤 𝑘𝑗 𝑓𝑦 𝑗
(
𝑖=1
𝐼
𝑡=0
𝑛 𝑡
𝑣𝑗,𝑖 𝑡 𝑧𝑖,𝑝 𝑡 + 𝑧𝐼+1 𝑣𝑗,𝐼+1)
2.1.5 Redes Neurais de Cascata (CNN)
- Uma CNN é uma FFNN multicada em que todas as unidades de entrada têm conexões diretas
com todas as unidades ocultas e de saída;
- As unidades ocultas estão em cascata, ou seja, a a saída de cada unidade oculta serve como uma
entrada para todas as unidades ocultas seguintes e de saída;
- A saída de uma CNN é calculada como segue:
𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘
𝑖=1
𝐼+1
𝑢 𝑘𝑖 𝑧𝑖 +
𝑗=1
𝐽
𝑤 𝑘𝑗 𝑓𝑦 𝑗
𝑖=1
𝐼+1
𝑣𝑗𝑖 𝑧𝑖 +
𝑙=1
𝐽−1
𝑠𝑗𝑙 𝑦𝑙
ILUSTRAÇÃO DE REDE NEURAL DE CASCATA
- O treinamento de uma CNN consiste em encontrar valores de peso e o tamanho da NN;
- O treinamento começa com a arquitetura simples com apenas os pesos direros 𝐼 + 1 𝐾 entre as
unidades de entrada e saída (indicados por quadrados);
- Se a precisão da CNN é inaceitável, uma unidade oculta é adicionado, adicionando outros pesos
𝐼 + 1 𝐽 + 𝐽 − 1 + 𝐽𝐾 à rede;
- Se 𝐽 = 1, a rede inclui os pesos indicados pelos quadrados e círculos preenchidos. Quando 𝐽 =
2, os pesos marcados por triângulos preenchidos são adicionados.
REFERÊNCIAS
ENGELBRECHT, Andries P. Inteligência Computacional: Uma Introdução. África do Sul: Jhon
Whiley & Sons Ltd, 2007.
CALDEIRA, André M. [et al.]. Inteligência Computacional Aplicada à Administração, Economia e
Engenharia em Matlab®. São Paulo: Thomson Learning, 2007.
BRAGA, Antônio de Pádua. Redes Neurais Artificiais: Teoria e Aplicações. Rio de Janeiro: LTC,
2012.

Mais conteúdo relacionado

Destaque

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destaque (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Redes Neurais Artificias - Marcelo Estevão Da Silva

  • 1. UNIVERSIDADE FEDERAL DO CEARÁ – CAMPUS DE SOBRAL CURSO DE ENGENHARIA ELÉTRICA REDES NEURAIS ARTIFICIAIS MARCELO ESTEVÃO DA SILVA
  • 2. SUMÁRIO: 1. O NEURÔNIO ARTIFICIAL 1.1 CALCULO DO SINAL LÍQUIDO DE ENTRADA 1.2 FUNÇÕES DE ATIVAÇÃO 1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL 1.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL 1.4.1 Vetores Aumentados 1.4.2 Regra de Aprendizagem do Gradiente Descendente 1.4.3 Regra de Aprendizagem de Hidrow-Hoff 1.4.4 Regra de Aprendizagem Delta Generalizada 1.4.5 Regra de Aprendizagem de Erro-Correção 2. REDES NEURAIS DE APRENDIZAGEM SUPERVISIONADA 2.1 TIPOS DE REDES NEURAIS 2.1.1 Redes Neurais Feedforward 2.1.2 Redes Neurais de Link Funcional 2.1.3 Redes Neurais Recorrentes Simples 2.1.4 Redes Neurais de Tempo de Atraso 2.1.5 Redes Neurais de Cascata
  • 3. 1. O NEURÔNIO ARTIFICIAL Um neurônio artificial (AN), implementa um mapeamento não linear de ℝ𝐼 sendo normalmente: 𝑓𝐴𝑁: ℝ𝐼 → [0,1] ou 𝑓𝐴𝑁: ℝ𝐼 → [-1,1] Um AN recebe um vetor de I sinais de entrada: z = (𝑧1, 𝑧2, … , 𝑧𝐼) ou do ambiente ou outros ANs. Cada sinal de entrada 𝑧𝑖 é associado a um peso 𝑣𝑖 para fortalecer ou enfraquecer o sinal de líquido de entrada. O AN computa o sinal líquido de entrada e usa uma função de ativação 𝑓𝐴𝑁 para computer o sinal de saída, o, dada um sinal líquido de entrada. A força do sinal de saída é mais influênciada para valores mais próximo de um valor limite, θ, definido como bias.
  • 4. MODELO DE NEURÔNIO ARTIFICIAL
  • 5. 1.1 CÁLCULO DO SINAL LÍQUIDO DE ENTRADA O sinal líquido de entrada para um AN é normalmente computado como uma soma ponderada de todas os sinais de entrada: net = 𝑖=1 𝐼 𝑧𝑖 𝑣1 AN que computam o sinal líquido de entrada como soma ponderada são chamados como Unidades de Soma (SU).Outra forma de computar o sinal líquido de entrada é usando Unidades de Produto (PU), onde: net = 𝑖=1 𝐼 𝑧𝑖 𝑣 𝑖 PUs permitem combinaçõas de ordem superior de entradas, tendo a vantage de incrementar capacidade de informação.
  • 6. 1.2 FUNÇÕES DE ATIVAÇÃO A função de ativação 𝑓𝐴𝑁 recebe o sinal líquido de entrada e o bias, e determina o sinal de saída do neurônio. Em geral, funções de ativação são mapeamentos monotonicamente crescentes, onde 𝑓𝐴𝑁 −∞ = 0 ou 𝑓𝐴𝑁 −∞ = −1 e 𝑓𝐴𝑁 ∞ = 1 I) Função Linear: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝜆(𝑛𝑒𝑡 − 𝜃) Onde a constante 𝜆 é a inclinação da função.
  • 7. II) Função Degrau: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝛾1 𝑛𝑒𝑡 ≥ 𝜃 𝛾2 𝑛𝑒𝑡 < 𝜃 A função degrau produz um de dois valores escalares para a saída, dependendo do valor do limiar θ. Normalmente, uma saída binária é produzida para 𝛾1 = 1 e 𝛾2 = 0; uma saída bipolar também pode ser produzida com 𝛾1 = 1 e 𝛾2 = −1.
  • 8. III) Função Rampa: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈ 𝑛𝑒𝑡 − 𝜃, −∈< 𝑛𝑒𝑡 − 𝜃 <∈ −𝛾, 𝑛𝑒𝑡 − 𝜃 ≥∈ A função rampa é uma combinação da funções linear com a função degrau. IV) Função Sigmoide: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 1 1 + 𝑒−𝜆(𝑛𝑒𝑡−𝜃) A função sigmoide é uma versão continuada da função rampa, com 𝑓𝐴𝑁(net) ϵ (0,1). O parâmetro 𝜆 controla a inclinação da função. (normalmente 𝜆=1)
  • 9. V) Função Tangente Hiperbolica: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝑒 𝜆(𝑛𝑒𝑡−𝜃) − 𝑒−𝜆(𝑛𝑒𝑡−𝜃) 𝑒 𝜆(𝑛𝑒𝑡−𝜃) + 𝑒−𝜆(𝑛𝑒𝑡−𝜃) A saída da tangente hiperbolica tem uma variação em (− 1,1). VI) Função Gaussiana: 𝑓𝐴𝑁 𝑛𝑒𝑡 − 𝜃 = 𝑒 −(𝑛𝑒𝑡−𝜃)2 𝜎2 Onde 𝑛𝑒𝑡 − 𝜃 é a media e o 𝜎 desvio padrão da distribuição gaussiana.
  • 10.
  • 11.
  • 12.
  • 13. 1.3 GEOMETRIA DO NEURÔNIO ARTIFICIAL Neurônios simples podem ser usados para realizar funções lineares separáveis sem nenhum erro. Separabilidade linear significa que o neurônio pode separar o espaco do I-dimensional vetor de entrada produzindo uma resposta acima do limiar dos vetores que tem uma resposta abaixo do limiar no hiperplano I-dimensional. O hiperplano forma o limite entre os vetores de entrada associados aos dois valores de saída
  • 14. - Exemplo 1: Fronteira de decisão para um neurônio com função de ativação do tipo rampa. O hiperplano separa os vetores de entrada para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0 dos vetores para os quais 𝑖 𝑧𝑖 𝑣𝑖 − 𝜃 > 0.
  • 15. 2.4 APRENDIZAGEM DO NEURÔNIO ARTIFICIAL O neurônio artificial aprende o melhor valor para 𝑣𝑖 e θ a partir dos dados fornecidos. Aprendizagem consiste do ajuste dos valores dos pesos e do limiar sob certos critérios satisfeitos. Os três tipos de aprendizagem são: • Aprendizagem Supervisionada: onde é fornecido ao AN ou NN um conjunto de dados de treinamento que consiste em vetores de entrada e uma saída desejada associado a cada vetor de entrada, com o objetivo de ajustar os valores de peso de forma a minimizar o erro entre a saída real, 𝑜 = 𝑓 𝑛𝑒𝑡 − 𝜃 , e a saída desejada.
  • 16. • Aprendizagem Não-Supervisionada: onde o objetivo é descobrir padrões e características em dados de entrada sem a necessidade de uma fonte externa. Muitos algoritmos de aprendizagem não-supervisionada basicamente realizam o processo de clusterização dos padrões de treinamento. • Aprendizado por Reforço: onde o objetivo é “recompensar” o neurônio (ou partes de uma NN) por uma boa performance e penalizar por más performances. 1.4.1 Vetores Aumentados Um AN é caracterizado pelo vetor peso v, o limiar θ e pela função de ativação 𝑓𝐴𝑁. Para o vetor aumentado é incrementado o termo 𝑧𝐼+1 referenciado como bias unit. O valor de 𝑧𝐼+1 é sempre −1 e o peso 𝑣𝐼+1se torna o valor do limiar.
  • 17. Logo, o valor do sinal líquido de entrada é: 𝑛𝑒𝑡 = 𝑖=1 𝐼 𝑧𝑖 𝑣𝑖 − 𝜃 = 𝑖=1 𝐼 𝑧𝑖 𝑣𝑖 − 𝑧𝐼+1 𝑣𝐼+1 = 𝑖=1 𝐼+1 𝑧𝑖 𝑣𝑖 1.4.2 Regra de Aprendizagem do Gradiente Descendente Gradiente Descendente (GD) é usada para treinar neurônios (e NNs) e requer a definição da função erro, onde o objetivo é medir o erro e aproximar a saída real da saída desejada. A soma dos erros quadrados 𝜀 é normalmente usada, com 𝑡 𝑝 e 𝑜 𝑝 sendo a saída desejada e saída atual, respectivamente. 𝜀 = 𝑝=1 𝑃𝑡 (𝑡 𝑝−𝑜 𝑝)2
  • 19. O objetivo do GD é encontrar os valores de peso que minimizam 𝜀, que são encontrados calculando o gradiente de 𝜀. Então, dado um padrão de treinamento simples, os pesos são atualizados usando: 𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + Δ𝑣𝑖 𝑡 Com, Δ𝑣𝑖 𝑡 = 𝜂(− 𝜕𝜀 𝜕𝑣𝑖 ) Onde, 𝜕𝜀 𝜕𝑣𝑖 = −2(𝑡 𝑝−𝑜 𝑝) 𝜕𝑓 𝜕𝑛𝑒𝑡 𝑝 𝑧𝑖,𝑝 E 𝜂 é razão de aprendizagem (variação vertical na direção do gradiente). * Obs.: GD não está definido em funções descontínuas.
  • 20. 1.4.3 Regra de Aprendizagem de Widrow-Hoff Suponha 𝑓 = 𝑛𝑒𝑡 𝑝. Então, 𝜕𝑓 𝜕𝑛𝑒𝑡 𝑝 = 1. Logo, 𝜕𝜀 𝜕𝑣𝑖 = −2(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝 Então a atualização dos pesos é dado por, 𝑣𝑖 𝑡 = 𝑣𝑖 𝑡 − 1 + 2𝜂(𝑡 𝑝−𝑜 𝑝)𝑧𝑖,𝑝 Esta regra, conhecida também como least-means-square (LMS) foi o primeiro algoritmo usado para treinar redes neurais em camadas com múltiplos neurônios lineares adaptativos. (Madaline)
  • 21. 1.4.4 Regra de Aprendizado Delta Generalizada A regra de aprendizado delta generalizada é uma generalização da regra de aprendizado de Widrow-Hoff que assume funções de ativação diferenciáveis. 1.4.5 Regra de Aprendizagem de Erro-Correção Para a regra de aprendizado de correção de erros, presume-se que as funções de ativação de valor binário sejam usadas, por exemplo, a função de etapa. Os pesos só são ajustados quando o neurônio responde com erro. Isto é, somente quando (𝑡 𝑝−𝑜 𝑝) = 1 ou (𝑡 𝑝−𝑜 𝑝) = −1. Os pesos são atualizados usando a regra de Hidrow-Hoff.
  • 22. 2. REDES NEURAIS DE APRENDIZADO SUPERVISIONADO - As redes neurais multicamadas são necessárias para resolver a limitação do neurônio simples (de SU) só resolver funções linearmente independentes; - Aprendizagem supervisionada requer um treinamento que consiste de um conjunto de de vetores de entrada e um “vetor alvo” associado a cada um deles; - A NN aprendiz usa o “vetor alvo” para determiner o quão bem ele aprendeu e para orientar os ajustes nos valores de peso para reduzir seu erro geral.
  • 23. 2.1 TIPOS DE REDES NEURAIS TIPOS CARACTERÍSTICAS NN Feedforward NN Link Funcional NN de Unidade de Produto Recebem sinais externos e simplesmente propagam esses sinais por todas as camadas para obter o resultado de saída. NN Recorrente Possui conexões de feedback para modelar as características temporais do problema que está sendo aprendido. NN Atraso de Tempo (Time-Delay) Memorizam uma janela de padrões previamente observados.
  • 24. 2.1.1 Redes Neurais Feedforward (FFNN) - A NN Feedforward consiste em três tipos de camadas: entrada, oculta e saída. - FFNNs com funções diferenciáveis monotonicamente crescentes podem aproximar qualquer função contínua com uma camada oculta, desde que a camada oculta tenha neurónios escondidos suficientes; - Pode ter conexões diretas entre a camada de entrada e a de saída.
  • 25. ILUSTRAÇÃO DE REDE NEURAL FEEDFORWARD
  • 26. O vetor de saída de uma FFNN para qualquer padrão de entrada 𝑧 𝑝 é calculado com uma única “passagem” através da rede. Para cada unidade 𝑜 𝑘 de saída, temos 𝑜 𝑘 = 𝑓𝑜 𝑘 𝑛𝑒𝑡 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑛𝑒𝑡 𝑦 𝑗,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑖=1 𝐼+1 𝑣𝑗𝑖 𝑧𝑖,𝑝 *Obs.: Não é necessário ter apenas um tipo de função de ativação.
  • 27. 2.1.2 Rede Neural de Link Funcional (FLNN) - As unidades de entradas implementam uma função de ativação; - Uma FLNN é simplesmente uma FFNN com uma camada externa expandida em unidades funcionais de ordem superior. - Cada vetor de entrada é expandido para unidades funcionais ℎ1, ℎ2, … , ℎ 𝐿, com cada ℎ𝑙 sendo uma função do vetor de parâmetro de entrada (𝑧1, 𝑧2, … , 𝑧𝐼), i.e. ℎ𝑙(𝑧1, 𝑧2, … , 𝑧𝐼). - A matriz peso U entre a camada de entrada e a camada de unidades funcionais e unidade de saída 𝑜 𝑘 é: 𝑢𝑙𝑖 = 1, ℎ𝑙 𝑑𝑒𝑝𝑒𝑛𝑑𝑒 𝑑𝑒 𝑧𝑖 0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 𝑜 𝑘 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑙=1 𝐿 𝑣𝑗𝑙ℎ𝑙(𝒛 𝑝)
  • 28. ILUSTRAÇÃO DE REDE NEURAL DE LINK FUNCIONAL
  • 29. 2.1.3 Rede Neural de Unidade de Produto (PUNN) - Utilizam neurônios do tipo unidade de produto (PU) ao invés de unidade de soma (SU); - São matematicamente mais complexos; - Podem apresentar camadas mescladas com (SU) e (PU); - Para o caso específico em que apenas a camada oculta possui PUs e funções lineares para todos os AN, temos: 𝑛𝑒𝑡 𝑦 𝑗,𝑝 = 𝑖=1 𝐼 𝑧𝑖,𝑝 𝑣 𝑗𝑖 = 𝑖=1 𝐼 𝑒 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝) = 𝑒 𝑖 𝑣 𝑗𝑖ln(𝑧𝑖,𝑝) - Com o chamado fator de “distorção”, resulta: 𝑛𝑒𝑡 𝑦 𝑗,𝑝 = 𝑖=1 𝐼+1 𝑧𝑖,𝑝 𝑣 𝑗𝑖
  • 30. - O propósito do fator de distorção é modelar dinamicamente a função de ativação durante o treinamento para ajustar mais de perto a forma da função verdadeira representada pelos dados de treinamento; - O valor de saída 𝑜 𝑘 é, portanto: 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 (𝑒 𝜌 𝑗,𝑝 cos 𝜋𝜙𝑗,𝑝 ) Onde, 𝜌𝑗,𝑝 = 𝑖=1 𝐼 𝑣𝑗𝑖 𝑙𝑛 𝑧𝑖,𝑝 𝜙𝑗,𝑝 𝑖=1 𝐼 𝑣𝑗𝑖 𝐼𝑖 𝐼𝑖 = 0, 𝑠𝑒 𝑧𝑖,𝑝 > 0 1, 𝑠𝑒 𝑧𝑖,𝑝 < 0
  • 31. 2.1.4 Redes Neurais Recorrentes Simples (SRNN) - Possuem conexões de retorno; - Podem aprender características temporais do conjunto de dados; - As principais SRNN são a de Elman e Jordan (extensões de FFNN’s). • SRNN de Elman - Cópia de uma camada oculta referenciada como “camada de contexto”; - - A camada de contexto serve para armazenar o estado anterior e é uma extensão da camada de entrada, onde o vetor de entrada é: 𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽 Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐽 são as unidades do contexto.
  • 32. ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE ELMAN
  • 33. - Todas as unidades de contexto são interconectadas com todas as unidades da camada oculta; - As conexões de cada unidade oculta 𝑦𝑗 (j = 1, ..., J) para sua unidade de contexto correspondente 𝑧𝐼+1+𝑗 têm peso igual a 1. - Cada unidade de ativação é calculada como segue: 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑖=1 𝐼+1+𝐽 𝑣𝑗𝑖 𝑧𝑖,𝑝 Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐽,𝑝) = (𝑦1,𝑝 𝑡 − 1 , … , 𝑦𝐽,𝑝(𝑡 − 1)).
  • 34. • SRNN de Jordan - Cópia da camada de saída, referenciada como “camada de estado”; - O estado anterior da camada de saída também serve como entrada para a rede; - A camada de estado serve como extensão da camada de entrada, cujo vetor é: 𝑧 = 𝑧1, … , 𝑧𝐼+1, 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾 Onde 𝑧1, … , 𝑧𝐼+1 são as entradas atuais e 𝑧𝐼+2, … , 𝑧𝐼+1+𝐾 são as unidades de estado. Para cada unidade de saída, temos: 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑖=1 𝐼+1+𝐾 𝑣𝑗𝑖 𝑧𝑖,𝑝 Onde (𝑧𝐼+2,𝑝, … , 𝑧𝐼+1+𝐾,𝑝) = (𝑜1,𝑝 𝑡 − 1 , … , 𝑜 𝐾,𝑝(𝑡 − 1)).
  • 35. ILUSTRAÇÃO DE REDE NEURAL RECORRENTE SIMPLES DE JORDAN
  • 36. 2.1.5 Redes Neurais de Tempo de Atraso (TDNN) - Uma TDNN (backpropagation-through-time) é uma rede temporal com seus padrões de entrada sucessivamente atrasados no tempo; - Na rede TDNN um AN simples com 𝑛 𝑡 tempo de atraso é usado para construir uma rede feedforward TDNN; - Inicialmente só 𝑧𝑖,𝑝 𝑡 tem valor (t = 0) e 𝑧𝑖,𝑝 𝑡 − 𝑡′ é zero para todo 𝑖 = 1, … 𝐼, com 𝑡′ = 1, … , 𝑛 𝑡 (com 𝑛 𝑡 sendo o número de padrões atrasados); - Imediatamente da apresentação do primeiro padrão e antes da apresentação do segundo, temos: 𝑧𝑖,𝑝 𝑡 − 1 = 𝑧𝑖,𝑝 𝑡 - Antes da apresentação do 𝑡′ padrão e antes da apresentação do 𝑡′ + 1, para todo 𝑡 = 1, … 𝑡′, temos: 𝑧𝑖,𝑝 𝑡 − 𝑡′ = 𝑧𝑖,𝑝 𝑡 − 𝑡′ + 1
  • 37. ILUSTRAÇÃO DE NEURÔNIO SIMPLES DE REDE NEURAL DE TEMPO DE ATRASO
  • 38. - Isso faz com que um total de padrões 𝑛 𝑡 influencie as atualizações dos valores de peso, permitindo assim que as características temporais conduzam a modelagem da função aprendida. Cada conexão entre 𝑧𝑖,𝑝 𝑡 − 𝑡′ e 𝑧𝑖,𝑝 𝑡 − 𝑡′ + 1 tenha valor 1. - A saída de uma TDNN é calculada a partir de: 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑗=1 𝐽+1 𝑤 𝑘𝑗 𝑓𝑦 𝑗 ( 𝑖=1 𝐼 𝑡=0 𝑛 𝑡 𝑣𝑗,𝑖 𝑡 𝑧𝑖,𝑝 𝑡 + 𝑧𝐼+1 𝑣𝑗,𝐼+1)
  • 39. 2.1.5 Redes Neurais de Cascata (CNN) - Uma CNN é uma FFNN multicada em que todas as unidades de entrada têm conexões diretas com todas as unidades ocultas e de saída; - As unidades ocultas estão em cascata, ou seja, a a saída de cada unidade oculta serve como uma entrada para todas as unidades ocultas seguintes e de saída; - A saída de uma CNN é calculada como segue: 𝑜 𝑘,𝑝 = 𝑓𝑜 𝑘 𝑖=1 𝐼+1 𝑢 𝑘𝑖 𝑧𝑖 + 𝑗=1 𝐽 𝑤 𝑘𝑗 𝑓𝑦 𝑗 𝑖=1 𝐼+1 𝑣𝑗𝑖 𝑧𝑖 + 𝑙=1 𝐽−1 𝑠𝑗𝑙 𝑦𝑙
  • 40. ILUSTRAÇÃO DE REDE NEURAL DE CASCATA
  • 41. - O treinamento de uma CNN consiste em encontrar valores de peso e o tamanho da NN; - O treinamento começa com a arquitetura simples com apenas os pesos direros 𝐼 + 1 𝐾 entre as unidades de entrada e saída (indicados por quadrados); - Se a precisão da CNN é inaceitável, uma unidade oculta é adicionado, adicionando outros pesos 𝐼 + 1 𝐽 + 𝐽 − 1 + 𝐽𝐾 à rede; - Se 𝐽 = 1, a rede inclui os pesos indicados pelos quadrados e círculos preenchidos. Quando 𝐽 = 2, os pesos marcados por triângulos preenchidos são adicionados.
  • 42. REFERÊNCIAS ENGELBRECHT, Andries P. Inteligência Computacional: Uma Introdução. África do Sul: Jhon Whiley & Sons Ltd, 2007. CALDEIRA, André M. [et al.]. Inteligência Computacional Aplicada à Administração, Economia e Engenharia em Matlab®. São Paulo: Thomson Learning, 2007. BRAGA, Antônio de Pádua. Redes Neurais Artificiais: Teoria e Aplicações. Rio de Janeiro: LTC, 2012.