(ACH2044) Inteligência Artificial - Aula 19

Inteligência Artificial – ACH2016
Aula 19 – Redes Neurais
Norton Trevisan Roman
(norton@usp.br)
23 de maio de 2019
Norton Trevisan Roman(norton@usp.br) 23 de maio de 2019 1 / 41

Redes Neurais
Inspiração
O neurônio biológico
Fonte: AIMA. Russell & Norvig.

Redes Neurais
Inspiração
Um neurônio recebe sinais
através de inúmeros
dendritos, podendo ou
não seguir adiante

Redes Neurais
Inspiração
Se o sinal for superior a
um certo limite
(threshold), segue em
frente; caso contrário, é bloqueado

Redes Neurais
Inspiração
Se o sinal for superior a
um certo limite
(threshold), segue em
frente; caso contrário, é bloqueado
Na passagem por um neurônio, um sinal pode ser
amplificado ou atenuado, dependendo do dendrito de origem

Redes Neurais
Perceptron
Fonte: Adaptado de de ML. Mitchell.

Redes Neurais
Perceptron
É a unidade básica
da rede neural

Redes Neurais
Perceptron
da rede neural
A mais simples

Redes Neurais
Perceptron
da rede neural
A mais simples
Um nó em um grafo
dirigido (a rede neural)

Redes Neurais
Perceptron
da rede neural
A mais simples
Um nó em um grafo
Cada aresta serve para propagar a ativação de um nó a
outro na rede

Redes Neurais
Perceptron
da rede neural
A mais simples
Um nó em um grafo
Cada aresta serve para propagar a ativação de um nó a
outro na rede
Possui um peso associado, determinado a força e polaridade da
conexão

Redes Neurais
Perceptron
Cada unidade calcula a soma ponderada de suas
entradas
y =
g(y) =
Fonte: Adaptado de ML. Mitchell.

Redes Neurais
Perceptron
entradas
E aplica então uma função de ativação para obter a saı́da
y =
g(y) =

Redes Neurais
Perceptron
entradas
Função de ativação
y =
g(y) =

Redes Neurais
Perceptron
entradas
Note que já definimos uma
entrada x0 e um peso ω0 (viés)
y =
g(y) =

Redes Neurais
Perceptron
entradas
Note que já definimos uma
entrada x0 e um peso ω0 (viés)
y =
g(y) =
O aprendizado em um perceptron envolve escolher valores para os pesos

Redes Neurais
Perceptron – Função de Ativação

Redes Neurais
Deve “ativar” o neurônio (valor perto de 1) quando
as entradas corretas forem dadas

Redes Neurais
Deve “desativar” o neurônio (próximo de 0) quando as
entradas “erradas” forem dadas

Redes Neurais
Ou seja, o perceptron devolve 1 se o resultado é
maior que algum limiar e 0 (ou -1) se não

Redes Neurais
No exemplo anterior, o limiar é zero

Redes Neurais
Deve ser não-linear

Redes Neurais
Deve ser não-linear
Evitando que uma rede de neurônios resulte em uma única
função linear

Redes Neurais
Possı́veis escolhas:

Redes Neurais
Função degrau (ou threshold)
Fonte: Adaptado de Slides de AIMA. Russell & Norvig

Redes Neurais
Função sigmóide (ou logı́stica)

Redes Neurais
A sigmóide tem a vantagem de ser diferenciável

Redes Neurais
A sigmóide tem a vantagem de ser diferenciável
Importante para o algoritmo de aprendizado dos pesos

Redes Neurais
Em ambas funções há
um limiar em zero

Redes Neurais
um limiar em zero
O valor real desse
limiar é determinado pelo peso de viés ω0 dado ao
neurônio

Redes Neurais
um limiar em zero
O valor real desse
neurônio
A unidade é ativada caso a soma das entradas
“reais” (ou seja, sem x0) exceder ω0:
y =


n
X
j=1
ωj xj

 ≥ ω0

Redes Neurais
um limiar em zero
O valor real desse
neurônio
A unidade é ativada caso a soma das entradas
“reais” (ou seja, sem x0) exceder ω0:
y =


n
X
j=1
ωj xj

 ≥ ω0
Mudar o peso de viés muda a localização do limiar

Redes Neurais
Perceptron
Toda função booleana pode ser representada:

Redes Neurais
Perceptron
E
g(y) =













1,

y =
n
X
j=1
ωj xj

 ≥ ω0
0,

y =
n
X
j=1
ωj xj

 < ω0
x1 x2 y saı́da
1 1 2 1
1 0 1 0
0 1 1 0
0 0 0 0
Fonte: Adaptado de AIMA. Russell & Norvig

Redes Neurais
Perceptron
E OU
g(y) =













1,

y =
n
X
j=1
ωj xj

 ≥ ω0
0,

y =
n
X
j=1
ωj xj

 < ω0
x1 x2 y saı́da
1 1 2 1
1 0 1 0
0 1 1 0
0 0 0 0
x1 x2 y saı́da
1 1 2 1
1 0 1 1
0 1 1 1
0 0 0 0

Redes Neurais
Perceptron
E OU NÃO
g(y) =













1,

y =
n
X
j=1
ωj xj

 ≥ ω0
0,

y =
n
X
j=1
ωj xj

 < ω0
x1 x2 y saı́da
1 1 2 1
1 0 1 0
0 1 1 0
0 0 0 0
x1 x2 y saı́da
1 1 2 1
1 0 1 1
0 1 1 1
0 0 0 0
x1 y saı́da
1 -1 0
0 0 1

Redes Neurais
Perceptrons em rede
Uma rede neural é uma
rede de perceptrons
conectados
Fonte: [6]

Redes Neurais
Perceptrons em rede
rede de perceptrons
conectados
As unidades de saı́da dão
a saı́da do programa
Fonte: [6]

Redes Neurais
Perceptrons em rede
rede de perceptrons
conectados
Geralmente organizadas
em camadas
Fonte: [6]

Redes Neurais
Perceptrons em rede
rede de perceptrons
conectados
Geralmente organizadas
em camadas
Fonte: [6]
Cada unidade recebe entrada somente de unidades da
camada imediatamente anterior

Redes Neurais
Perceptrons em rede
Possuem uma ou mais
camadas de unidades
escondidas:
Fonte: [6]

Redes Neurais
Perceptrons em rede
Possuem uma ou mais
camadas de unidades
escondidas:
Unidades que não estão
conectadas à saı́da da rede
Fonte: [6]

Redes Neurais
Perceptrons em rede
Possuem uma ou mais
camadas de unidades
escondidas:
As camadas escondidas
recebem sinal da Fonte: [6]
entrada (ou de outra camada)

Redes Neurais
Perceptrons em rede
Possuem uma ou mais
camadas de unidades
escondidas:
As camadas escondidas
recebem sinal da Fonte: [6]
entrada (ou de outra camada)
Sua saı́da, contudo, não é observada (por isso escondida)

Redes Neurais
Tipos de redes

Redes Neurais
Tipos de redes
Feed-forward networks
Fonte: Slides de AIMA. Russell & Norvig

Redes Neurais
Tipos de redes
Possuem conexões em uma
única direção

Redes Neurais
Tipos de redes
única direção
Formam um grafo dirigido
acı́clico

Redes Neurais
Tipos de redes
única direção
acı́clico
Sua saı́da é uma função direta
de sua entrada
s5 = g(ω3,5s3 + ω4,5s4)
= g(ω3,5 g(ω1,3x1 + ω2,3x2)+
ω4,5 g(ω1,4x1 + ω2,4x2))

Redes Neurais
Tipos de redes
única direção
acı́clico
de sua entrada
Não há outro estado interno que
não os próprios pesos da rede
s5 = g(ω3,5s3 + ω4,5s4)
= g(ω3,5 g(ω1,3x1 + ω2,3x2)+
ω4,5 g(ω1,4x1 + ω2,4x2))

Redes Neurais
Tipos de redes
única direção
acı́clico
de sua entrada
Não há outro estado interno que
não os próprios pesos da rede
Mudando os pesos, muda a função
→ aprende
s5 = g(ω3,5s3 + ω4,5s4)
= g(ω3,5 g(ω1,3x1 + ω2,3x2)+
ω4,5 g(ω1,4x1 + ω2,4x2))

Redes Neurais
Tipos de redes
Redes recorrentes
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
Redes recorrentes
Redirecionam as saı́das de algumas
unidades à entrada de outras, formando
um ciclo
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
Redes recorrentes
um ciclo
Pode estabilizar, oscilar, ou apresentar
comportamento caótico
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
Redes recorrentes
um ciclo
Sua saı́da leva em consideração a
Fonte: ML. Mitchell
entrada atual e o que aprendeu das entradas anteriores

Redes Neurais
Tipos de redes
Redes recorrentes
um ciclo
Fonte: ML. Mitchell
A saı́da é copiada e realimentada na rede

Redes Neurais
Tipos de redes
Redes recorrentes
um ciclo
Fonte: ML. Mitchell
Aqui, c(t) é o valor de b no passo t − 1

Redes Neurais
Tipos de redes
Redes recorrentes
um ciclo
Fonte: ML. Mitchell
Aqui, c(t) é o valor de b no passo t − 1
Podem simular memória de curto prazo (como um flip-flop)

Redes Neurais
Tipos de redes
Redes recorrentes (cont.)
Podem ser vistas como se
desdobrando no tempo
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
Em que cada instante t dá o momento
em que um exemplo de treino foi
apresentado
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
apresentado
Implementam uma relação de
recorrência, na qual b representa o
histórico das entradas
Fonte: ML. Mitchell

Redes Neurais
Tipos de redes
apresentado
Implementam uma relação de
recorrência, na qual b representa o
histórico das entradas
Várias topologias podem ser usadas.
Essa é só um exemplo Fonte: ML. Mitchell

Redes Neurais
Redes de Camada Única
Cada entrada se conecta diretamente à saı́da
Unidades
de entrada
Unidades
de saı́da
ωi,j
x1
x2

Redes Neurais
Cada entrada se conecta diretamente à saı́da
Unidades
de entrada
Unidades
de saı́da
ωi,j
x1
x2
Saı́da do perceptron

Redes Neurais
Não representam todas as funções

Redes Neurais
Apenas as linearmente separáveis (pontos em que g(y) = 0
estão separados daqueles em que g(y) = 1 por uma reta)

Redes Neurais
Apenas as linearmente separáveis (pontos em que g(y) = 0
estão separados daqueles em que g(y) = 1 por uma reta)
Fonte: AIMA. Russell & Norvig

Redes Neurais
Perceptron Learning Rule

Redes Neurais
Regra para atualização dos pesos na rede, que
garantidamente converge para uma solução

Redes Neurais
Um separador linear que classifica os dados perfeitamente, se
eles forem linearmente separáveis e η pequeno

Redes Neurais
Um separador linear que classifica os dados perfeitamente, se
eles forem linearmente separáveis e η pequeno
ωi ← ωi + ∆ωi, com ∆ωi = η(t − s)xi, onde:
η – taxa de aprendizagem (learning rate)
t – saı́da desejada da rede para o exemplo corrente
s – saı́da do perceptron (g(y)) para o exemplo corrente
(t − s) – Erro
xi – cada atributo no exemplo corrente

Redes Neurais
Redes de Camada Única: Treinamento

Redes Neurais
Iniciamos com pesos aleatórios

Redes Neurais
Aplicamos o perceptron iterativamente a
cada exemplo de entrada

Redes Neurais
Mudando os pesos toda vez que ele errar

Redes Neurais
Os pesos são modificados de acordo com a regra de
treinamento do perceptron, que revisa os pesos ωi:
ωi ← ωi + ∆ωi , com ∆ωi = η(t − s)xi

Redes Neurais
Os pesos são modificados de acordo com a regra de
treinamento do perceptron, que revisa os pesos ωi:
ωi ← ωi + ∆ωi , com ∆ωi = η(t − s)xi
(aprende pelo ajuste dos pesos de modo a reduzir o erro no
conjunto de treino)

Redes Neurais
Perceptron Rule: Taxa de Aprendizagem

Redes Neurais
Modera o grau com que os pesos são mudados em
cada passo

Redes Neurais
cada passo
Geralmente baixa (0,1 por exemplo) e algumas vezes decai à
medida que o número de iterações aumenta

Redes Neurais
cada passo
Ideia básica:

Redes Neurais
cada passo
Ideia básica:
Se o resultado (s) foi abaixo do desejado (t), temos que
aumentar os pesos, pois a saı́da é proporcional à sua soma

Redes Neurais
cada passo
Ideia básica:
Fazemos ∆ωi > 0, numa tentativa que o resultado da somatória dê
maior que o threshold, gerando um 1

Redes Neurais
cada passo
Ideia básica:
Fazemos ∆ωi > 0, numa tentativa que o resultado da somatória dê
maior que o threshold, gerando um 1
η irá regular o tamanho desse aumento

Redes Neurais
Delta Rule
A Perceptron rule é válida apenas para a função
degrau

Redes Neurais
Delta Rule
degrau
Para a sigmóide, a saı́da g(y) é linear, e não binária

Redes Neurais
Delta Rule
degrau
g(y) = σ(y) =
1
1 + e−y
, com y =
n
X
i=0
ωi xi

Redes Neurais
Delta Rule
degrau
g(y) = σ(y) =
1
1 + e−y
, com y =
n
X
i=0
ωi xi
Aplicamos então a Delta Rule:
ωi ← ωi + ∆ωi , com ∆ωi = η(t − g(y))g0
(y)xi

Redes Neurais
Delta Rule
degrau
g(y) = σ(y) =
1
1 + e−y
, com y =
n
X
i=0
ωi xi
Aplicamos então a Delta Rule:
ωi ← ωi + ∆ωi , com ∆ωi = η(t − g(y))g0
(y)xi
Onde g0
(y) é a derivada da função de ativação:
g(y) =
1
1 + e−y
⇒ g0
(y) =
d
dy
g(y) = g(y)(1 − g(y))

Redes Neurais
Redes de Camada Única: Algoritmo
Função PERCEPTRON(Exemplos, Rede): rede neural
repita
para cada e ∈ Exemplos faça
y ←
n
X
j=0
ωj xj [e]
Erro ← t[e] − g(y)
ωj ← ωj + η × Erro × g0
(y) × xj [e]
até Até que algum critério de parada seja satisfeito
retorna A nova rede

Redes Neurais
Conjunto de exemplos,
cada um com entrada
~
x = {x1, . . . , xn} e saı́da ~
t
repita
y ←
n
X
j=0
ωj xj [e]
(y) × xj [e]
retorna A nova rede

Redes Neurais
rede = {ω1, ω2, . . . , ωk , g(y)},
inicialmente com ωi aleatórios
repita
y ←
n
X
j=0
ωj xj [e]
(y) × xj [e]
retorna A nova rede

Redes Neurais
xj [e] → j-ésimo atri-
buto do exemplo e
repita
y ←
n
X
j=0
ωj xj [e]
(y) × xj [e]
retorna A nova rede

Redes Neurais
Note que podemos passar várias
vezes pelo conjunto de treino
repita
y ←
n
X
j=0
ωj xj [e]
(y) × xj [e]
retorna A nova rede

Redes Neurais
A cada passada pelo con-
junto de treino damos o
nome de época (epoch)
repita
y ←
n
X
j=0
ωj xj [e]
(y) × xj [e]
retorna A nova rede

Derivação da Delta Rule

Partimos do gradiente
negativo do erro →
Gradient Descent
Fonte: ML. Mitchell.

Gradient Descent
O gradiente do erro dará
um vetor que aponta para
o sentido de maior
crescimento dessa função
no espaço Fonte: ML. Mitchell.

Gradient Descent
O gradiente do erro dará
um vetor que aponta para
o sentido de maior
crescimento dessa função
no espaço Fonte: ML. Mitchell.
Ou seja, o negativo do gradiente do erro dará o
sentido da sua maior redução

Usamos então o negativo do
gradiente do erro E(~
ω) para
atualizar os pesos, de modo a
minimizar esse erro
Fonte: ML. Mitchell.

ω) para
minimizar esse erro
(
~
ω ← ~
ω + ∆~
ω
∆~
ω = −η∇E(~
ω) Fonte: ML. Mitchell.

ω) para
minimizar esse erro
(
~
ω ← ~
ω + ∆~
ω
∆~
ω = −η∇E(~
ω) Fonte: ML. Mitchell.
Onde ∇E(~
ω) =

∂E
∂ω0
,
∂E
∂ω1
, . . . ,
∂E
∂ωn


Considere uma unidade linear com saı́da s = g(y)

Onde y =
n
X
i=0
ωi xi

Onde y =
n
X
i=0
ωi xi
Vamos aprender os ωi que minimizam o erro
quadrático:
E(~
ω) =
1
2
X
d∈D
(td − sd )2
onde sd = g(yd ) e D é o conjunto de exemplos de treino

Fator de
escala do erro
Onde y =
n
X
i=0
ωi xi
Vamos aprender os ωi que minimizam o erro
quadrático:
E(~
ω) =
1
2
X
d∈D
(td − sd )2
onde sd = g(yd ) e D é o conjunto de exemplos de treino

O gradiente do erro será
∇E(~
ω) =

∂E
∂ω0
,
∂E
∂ω1
, . . . ,
∂E
∂ωn


∇E(~
ω) =

∂E
∂ω0
,
∂E
∂ω1
, . . . ,
∂E
∂ωn

∂E
∂ωi
=
∂
∂ωi
1
2
X
d∈D
(td − sd )2
!

∇E(~
ω) =

∂E
∂ω0
,
∂E
∂ω1
, . . . ,
∂E
∂ωn

∂E
∂ωi
=
∂
∂ωi
1
2
X
d∈D
(td − sd )2
!
=
1
2
X
d∈D
∂
∂ωi
(td − sd )2

∇E(~
ω) =

∂E
∂ω0
,
∂E
∂ω1
, . . . ,
∂E
∂ωn

∂E
∂ωi
=
∂
∂ωi
1
2
X
d∈D
(td − sd )2
!
=
1
2
X
d∈D
∂
∂ωi
(td − sd )2
∂E
∂ωi
=
X
d∈D
(td − sd )
∂
∂ωi
(td − sd )

Como o valor esperado td independe de ωi, então
∂E
∂ωi
= −
X
d∈D
(td − sd )
∂
∂ωi
sd

∂E
∂ωi
= −
X
d∈D
(td − sd )
∂
∂ωi
sd
Se sd =
X
i
ωixi, então

∂E
∂ωi
= −
X
d∈D
(td − sd )
∂
∂ωi
sd
Se sd =
X
i
ωixi, então
∂
∂ωi
E = −
X
d∈D
(td − sd )xi,d

∂E
∂ωi
= −
X
d∈D
(td − sd )
∂
∂ωi
sd
Se sd =
X
i
ωixi, então
∂
∂ωi
E = −
X
d∈D
(td − sd )xi,d
e ∆ωi = η
X
d∈D
(td − sd )xi,d (perceptron rule)

Já se sd = σ(yd), então
∂sd
∂ωi
=
d sd
dy
∂y
∂ωi
= sd (1 − sd )xi

∂sd
∂ωi
=
d sd
dy
∂y
∂ωi
= sd (1 − sd )xi
∂
∂ωi
E = −
X
d∈D
(td − sd )sd (1 − sd )xi,d

∂sd
∂ωi
=
d sd
dy
∂y
∂ωi
= sd (1 − sd )xi
∂
∂ωi
E = −
X
d∈D
e ∆ωi = η
X
d∈D
(td − sd )sd (1 − sd )xi,d (delta rule)

∂sd
∂ωi
=
d sd
dy
∂y
∂ωi
= sd (1 − sd )xi
∂
∂ωi
E = −
X
d∈D
e ∆ωi = η
X
d∈D
(td − sd )sd (1 − sd )xi,d (delta rule)
Lembre que a cada iteração atualizamos os pesos:
(
~
ω ← ~
ω + ∆~
ω
∆~
ω = −η∇E(~
ω)
ou



ωi ← ωi + ∆ωi
∆ωi = −η
∂E
∂ωi

Redes Neurais
Redes Multicamadas

Redes Neurais
Redes Multicamadas
Possuem camadas em geral totalmente conectadas

Redes Neurais
Redes Multicamadas
O número de unidades escondidas é tipicamente escolhido à
mão

Redes Neurais
Redes Multicamadas
O número de unidades escondidas é tipicamente escolhido à
mão
xi
xj
xk
ωj,i
ωk,j
Unidades de saı́da
Unidades escondidas
Unidades de entrada
Fonte: Slides de AIMA. Russell Norvig.

Redes Neurais
Redes Multicamadas – E o viés?
2 possibilidades:

Redes Neurais
Redes Multicamadas – E o viés?
2 possibilidades:
Introduzido em cada célula
Fonte: Adaptado de [7]
Compartilhado na camada
Fonte: https://www.forexmt4indicators.com/
wp-content/uploads/2014/10/NN1__1.gif

Redes Multicamadas
Medindo o erro
A adição de camadas escondidas traz um problema:

Redes Multicamadas
Medindo o erro
Não sabemos qual a saı́da esperada de cada uma delas, pois
os dados de treino não nos dizem isso

Redes Multicamadas
Medindo o erro
Por conseguinte, não conseguimos medir o erro

Redes Multicamadas
Medindo o erro
Contudo, podemos retro-propagar o erro da camada
de saı́da para as escondidas

Redes Multicamadas
Medindo o erro
Calculamos a partir do gradiente de erro geral

Redes Multicamadas
Medindo o erro
Calculamos a partir do gradiente de erro geral
Processo de back-propagation

Redes Multicamadas
Back-Propagation

Redes Multicamadas
Back-Propagation
Calcule os valores de δi = g0
(yi) × (ti − g(yi)) para
as unidades de saı́da, usando o erro observado

Redes Multicamadas
Back-Propagation
Começando da camada de saı́da, repita o seguinte
processo para cada camada na rede, até que a
primeira camada escondida seja atingida

Redes Multicamadas
Back-Propagation
Propague os valores de δ para a camada anterior

Redes Multicamadas
Back-Propagation
Atualize os pesos entre as duas camadas

Redes Multicamadas
Back-Propagation
Atualize os pesos entre as duas camadas
(A maioria dos neurocientistas nega que essa propagação
ocorra no cérebro)

Redes Multicamadas
Back-Propagation: Algoritmo
Função BACKPROP(Exemplos, Rede): rede neural
repita
para cada peso ωi,j ∈ Rede faça ωi,j ← pequeno número aleatório
para cada e = (~
x,~
t) ∈ Exemplos faça
para cada nó i na camada de entrada faça ai ← xi
para c = 2 até C faça
para cada nó j na camada c faça
yj ←
X
i
ωi,j ai aj ← g(yj )
para cada nó j na camada de saı́da faça δj ← g0(yj ) × (tj − aj )
para c = C − 1 até 1 faça
para cada nó i na camada c faça
δi ← g0
(yi )
X
j
ωi,j δj
para cada peso ωi,j ∈ Rede faça ωi,j ← ωi,j + η × δj × ai
retorna a nova rede

Redes Multicamadas
Conjunto de exemplos,
cada um com entrada
~
x = {x1, . . . , xn} e saı́da ~
t
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
rede = {ωi,j , g(y)}
com C camadas
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Propaga adiante as entradas
na rede para calcular as saı́das
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
aj é a saı́da do perceptron j
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Propaga os deltas da camada
de saı́da para a de entrada
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Regra de propagação do erro
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Atualiza todos os pesos
da rede usando os deltas
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Note que ∆ωi,j = ηδj ai
repita
para cada e = (~
x,~
yj ←
X
i
δi ← g0
(yi )
X
j
ωi,j δj
retorna a nova rede

Redes Multicamadas
Back-Propagation: Visualização
Iniciamos os pesos na rede

Redes Multicamadas
Para cada exemplo de treino, entra-
mos seus atributos nos nós de entrada,
calculando a saı́da de cada unidade
nas camadas escondida e de saı́da

Redes Multicamadas
Calculamos δk ← sk(1 − sk)(tk − sk)
para cada unidade de saı́da, onde tk é o
valor-alvo da unidade e sk = g(y) sua saı́da

Redes Multicamadas
Então calculamos
δh ← sh(1 − sh)
X
ωh,kδk
para cada nó escondido

Redes Multicamadas
Ajustamos os pesos de todas as ligações
ωj,i ← ωj,i + ηδi xj , onde xj é a
ativação e η a taxa de aprendizagem

Redes Multicamadas
Quando parar?

Redes Multicamadas
Quando parar?
Parar em um certo número de iterações?

Redes Multicamadas
Quando parar?
Parar em um certo número de iterações?
Parar quando o erro for menor que um determinado
valor? (Curva de treinamento)

Redes Multicamadas
Curva de Treinamento
Mede o desempenho de
um classificador em um
conjunto de treinamento
fixo enquanto o processo
de aprendizado continua
nesse mesmo conjunto
Número de épocas
Erro
total
no
conjunto
de
treino
Fonte: AIMA. Russell Norvig.

Redes Multicamadas
Erro
total
no
conjunto
de
treino
Soma dos er-
ros quadráticos

Redes Multicamadas
Erro
total
no
conjunto
de
treino
Critério que o
back-propagation
tenta minimizar

Redes Multicamadas
Quando a soma dos erros
quadráticos em uma passada
inteira no conjunto de treino
Erro
total
no
conjunto
de
treino
Critério que o
back-propagation
tenta minimizar
(uma época) é suficientemente pequeno, podemos dizer que
a rede convergiu (para esses exemplos)

Redes Multicamadas
Curva de Treinamento: Overfitting
O back-propagation pode,
se o treinamento for
longo, se aproximar não
da função desejada, mas
sim dos exemplos
Erro
total
no
conjunto
de
treino

Redes Multicamadas
Curva de Treinamento: Overfitting
O back-propagation pode,
se o treinamento for
longo, se aproximar não
da função desejada, mas
sim dos exemplos
Os pesos acabam sendo
ajustados para representar
idiossincrasias dos exemplos
de treino que não são
representativos da
distribuição geral
Erro
total
no
conjunto
de
treino

Redes Multicamadas
Overfitting: Como contornar
Decrescer cada peso por um fator pequeno em cada
iteração, mantendo o valor dos pesos pequeno

Redes Multicamadas
Criar um conjunto de validação (melhor alternativa)

Redes Multicamadas
O algoritmo retorna a rede resultante do número de épocas
que produzisse o menor erro no conjunto de validação

Redes Multicamadas
Resolve?

Redes Multicamadas
Resolve? Às vezes... nem sempre

Redes Multicamadas
Resolve? Às vezes... nem sempre
Há o perigo dos mı́nimos locais...

Redes Multicamadas
Variação
Podemos incluir momento:

Redes Multicamadas
Variação
A atualização dos pesos na n-ésima iteração depende
parcialmente da atualização que ocorreu na (n-1)-ésima
iteração

Redes Multicamadas
Variação
iteração
Uma iteração corresponde a uma época → uma passada completa
pelo conjunto de treino

Redes Multicamadas
Variação
iteração
Usamos então uma constante 0 ≤ α ≤ 1, chamada
momento, e

Redes Multicamadas
Variação
iteração
Usamos então uma constante 0 ≤ α ≤ 1, chamada
momento, e
∆ωi,j (n) = ηδj xi + α∆ωi,j (n − 1)
δj = g0
(yj )(tj − g(yj ))

Redes Multicamadas
Exemplo (Mitchell)
Tarefa: dado o rosto de uma pessoa, dizer para que
direção olha

Redes Multicamadas
Exemplo (Mitchell)
direção olha
Usou a variação com momento

Redes Multicamadas
Exemplo (Mitchell)
direção olha
Treinou em 260 imagens com 90% de precisão

Redes Multicamadas
Exemplo (Mitchell)
direção olha
Código e detalhes em
www.cs.cmu.edu/~tom/mlbook.html

Redes Multicamadas
Exemplo (Mitchell)
direção olha
Código e detalhes em
www.cs.cmu.edu/~tom/mlbook.html
Entrada:

Redes Multicamadas
Exemplo (Mitchell)
Codificação da entrada:

Redes Multicamadas
Exemplo (Mitchell)
30 × 32 entradas (pixels)

Redes Multicamadas
Exemplo (Mitchell)
Cada pixel representado pela sua
intensidade, entre [0,1]

Redes Multicamadas
Exemplo (Mitchell)
Rede:

Redes Multicamadas
Exemplo (Mitchell)
Rede:
2 camadas: 3 unidades
escondidas e 4 de saı́da

Redes Multicamadas
Exemplo (Mitchell)
Rede:
Taxa de aprendizagem η = 0, 3

Redes Multicamadas
Exemplo (Mitchell)
Rede:
Taxa de aprendizagem η = 0, 3
Momento α = 0, 3

Redes Multicamadas
Exemplo (Mitchell)
Pesos iniciais (inclusive o
viés):

Redes Multicamadas
Exemplo (Mitchell)
viés):
Pequenos e aleatórios nas
unidades de saı́da

Redes Multicamadas
Exemplo (Mitchell)
viés):
Zero nas unidades de entrada

Redes Multicamadas
Exemplo (Mitchell)
viés):
Parada:

Redes Multicamadas
Exemplo (Mitchell)
viés):
Parada:
A cada 50 passos no gradient
descent compara com
desempenho no conjunto de
validação. Guarda os pesos do
menor erro

Redes Neurais
Representatividade
Que funções podemos representar com essas redes?

Redes Neurais
Representatividade
Booleanas: representadas exatamente com redes de 2
camadas

Redes Neurais
Representatividade
camadas
Contı́nuas: aproximadas com pequeno erro por rede com 2
camadas

Redes Neurais
Representatividade
camadas
Contı́nuas: aproximadas com pequeno erro por rede com 2
camadas
Arbitrárias: aproximadas com precisão arbitrária por rede
com 3 camadas

Referências
1 Russell, S.; Norvig P. (2010): Artificial Intelligence: A Modern Approach. Prentice
Hall. 3a ed.
1 Slides do livro: aima.eecs.berkeley.edu/slides-pdf/
2 http://ocw.mit.edu/OcwWeb/Electrical-Engineering-
and-Computer-Science/6-034Spring-2005/LectureNotes/index.htm
3 http://www.andreykurenkov.com/writing/ai/
a-brief-history-of-neural-nets-and-deep-learning/
4 https://towardsdatascience.com/
recurrent-neural-networks-and-lstm-4b601dd822a5
5 Mitchell, T.M.: Machine Learning. McGraw-Hill. 1997.
6 https://www.researchgate.net/publication/273450589_COMBINACAO_LINEAR_DE_
REDES_NEURAIS_ARTIFICIAIS_E_MAQUINAS_DE_VETORES_DE_SUPORTE_PARA_
REGRESSAO_NAS_PREVISOES_DE_VAZOES_MENSAIS_NO_POSTO_266-ITAIPU
7 Kemp, R.; Macaulay, C.; Palcic, B.(1997): Opening the Black Box: the Relationship
between Neural Networks and Linear Discriminant Functions. Analytical Cellular
Pathology, 14(1):19-30.

(ACH2044) Inteligência Artificial - Aula 19

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Norton Trevisan Roman

Mais de Norton Trevisan Roman (20)

Último

Último (20)

(ACH2044) Inteligência Artificial - Aula 19