(ACH2044) Inteligência Artificial - Aula 20

Inteligência Artificial – ACH2016
Aula20 – Redes Neurais Profundas
Aprendizado Baseado em Instâncias
Norton Trevisan Roman
(norton@usp.br)
28 de maio de 2019
Norton Trevisan Roman(norton@usp.br) 28 de maio de 2019 1 / 43

Redes Neurais Profundas
Representação da entrada
Às vezes, é difı́cil saber que caracterı́sticas extrair
A escolha da representação tem um grande efeito no
desempenho de algoritmos de aprendizado

Ex: separar 2 categorias de forma linear
Fonte: DL. Goodfellow et al.

Ex: separar 2 categorias de forma linear
A escolha da repre-
sentação determina
se um perceptron irá
ou não dar resultados

Solução: usar o algoritmo para também aprender a
representação
Aprendizado de representação (representation learning)

representação
O objetivo passa também a ser separar os fatores de
variação que explicam os dados observados
As fontes (mesmo não observáveis) que influenciam os dados

representação
O objetivo passa também a ser separar os fatores de
variação que explicam os dados observados
As fontes (mesmo não observáveis) que influenciam os dados
O problema é que muitos fatores de variação
influenciam o conjunto de dados inteiro
Obter uma representação pode ser tão difı́cil quanto resolver
o problema original

Deep learning
busca então resolver
esse problema
Introduzindo
representações que são
expressas em termos
de outras mais simples
Conceitos complexos
são assim construı́dos
a partir de conceitos
mais simples

Deep learning
busca então resolver
esse problema
Introduzindo
representações que são
expressas em termos
de outras mais simples
Conceitos complexos
são assim construı́dos
a partir de conceitos
mais simples Fonte: DL. Goodfellow et al.

Tipos comuns
Feedforward
Profunda
Ou Perceptron
Multicamadas

Tipos comuns
Feedforward
Profunda
Ou Perceptron
Multicamadas
Uma rede
feedforward mais
profunda que a
normalmente usada Fonte: DL. Goodfellow et al.

Tipos comuns
Recorrente
Especializada no
processamento de
dados sequenciais
Fonte: [1]

Tipos comuns
Recorrente
Especializada no
processamento de
dados sequenciais
Problema:
Leva em conta toda a
sequência de entrada
Fonte: [1]

Tipos comuns
Recorrente
Especializada no
processamento de
dados sequenciais
Problema:
Fonte: [1]
Podemos não precisar saber isso → seria interessante usar janelas
menores

Tipos comuns
Recorrente
Especializada no
processamento de
dados sequenciais
Problema:
Fonte: [1]
Podemos não precisar saber isso → seria interessante usar janelas
menores
Os gradientes propagados por muitos estágios tendem a dissipar ou
explodir (raramente)

Tipos comuns
LSTM
Long Short-Term
Memory
Fonte: [2]

Tipos comuns
LSTM
Long Short-Term
Memory
Variação da rede
recorrente
Fonte: [2]

Tipos comuns
LSTM
Long Short-Term
Memory
Variação da rede
recorrente
Solução para o
problema da
dissipação do
gradiente
Fonte: [2]
Permite que a rede continue a aprender ao longo de mais
passos

Tipos comuns
Convolucional
Especializada no processamento de grades de valores
Ex: imagens
Fonte: [4]

Tipos comuns: Convolucional
Camada de Convolução
Varre a entrada, aplicando um filtro k × k a partes dela
Executando operações de modo a reduzir a entrada
Fonte: [4]

Tipos comuns: Convolucional
Camada de Pooling
Busca reduzir ainda mais o tamanho do espaço convolvido
Reduzindo os valores dentro de sub-áreas a seu máximo ou média
Fonte: [4]

Google TensorFlow Playground
Simulador de
redes feedforward
profundas
Permite ver, dentre
outras coisas, a
saı́da de cada
neurônio
Fonte: https://playground.tensorflow.org/

Aprendizado Baseado
em Instâncias

Modelos Paramétricos
Usam os dados de treinamento para estimar um
conjunto fixo de parâmetros
Ex: Os pesos ωi de uma rede neural
Os exemplos são então resumidos pelos parâmetros
aprendidos
Após o treinamento não precisamos mais dos dados, pois
aprendemos seu padrão de formação
O número de parâmetros é fixo

Modelos Não Paramétricos
Não são caracterizados por um conjunto limitado de
parâmetros
Estes podem crescer com o número de exemplos vistos

Modelos Não Paramétricos
Não são caracterizados por um conjunto limitado de
parâmetros
Estes podem crescer com o número de exemplos vistos
Enfoque conhecido como Aprendizado Baseado
em Instâncias (por Exemplos)
Classificam exemplos não vistos por semelhança com o que
já conhece
Toda vez que uma instância deve ser classificada, sua
relação com os exemplos armazenados é examinada, de
modo a dar um valor-alvo para essa instância

Não buscam construir uma função alvo geral a
partir do treinamento
Aprender consiste de simplesmente armazenar os exemplos
de treino

de treino
Vantagens: Fácil e rápido

de treino
Vantagens: Fácil e rápido
Desvantagens:
Tipicamente considera todos os atributos das instâncias
quando tentam buscar exemplos similares na memória
Se o conceito alvo depender de uns poucos atributos, então
instâncias que são mais similares podem ser descartadas

Vizinho Mais Próximo

Armazene todos os
exemplos de treino
Fonte: [4].

Armazene todos os
exemplos de treino
Quando alguém fizer
uma pergunta:
Fonte: [4].

Armazene todos os
exemplos de treino
uma pergunta:
Encontre o exemplo
conhecido mais próximo
Fonte: [4].

Armazene todos os
exemplos de treino
uma pergunta:
Encontre o exemplo
conhecido mais próximo
Retorne a resposta
associada a ele
Fonte: [4].

Ideia básica:
É provável que as propriedades de qualquer entrada
particular x sejam similares às dos pontos na vizinhança de x

Ideia básica:
É provável que as propriedades de qualquer entrada
particular x sejam similares às dos pontos na vizinhança de x
O que significa “ser o vizinho mais próximo”?
Tipicamente, envolve distância euclidiana
x = {a1(x), a2(x), . . . , an(x)}, onde ai (x) são atributos de x
d(xi , xj ) =
v
u
u
t
n
X
r=1
(ar (xi ) − ar (xj ))2

Vizinho Mais Próximo: Problema
Distância euclidiana nem sempre é a melhor
E se quisermos prever o consumo de um carro?

Variáveis:
Peso (em Kg) e número de cilindros
A primeira varia na ordem de centenas ou milhares
A segunda, em unidades

Variáveis:
Peso (em Kg) e número de cilindros
A primeira varia na ordem de centenas ou milhares
A segunda, em unidades
Por mais que aumentemos o número de cilindros, a variação
na distância Euclidiana é pequena
Não corresponde ao fato real

Vizinho Mais Próximo: Solução
Pode-se mudar a escala:
Normalização linear
Para cada atributo aj , faça a0
j =
aj − min(aj )
max(aj ) − min(aj )
Onde min(aj ) é o valor mı́nimo já observado para esse atributo
Contudo, max(aj ) − min(aj ) pode ainda ser muito grande

Pode-se mudar a escala:
Normalização linear
Para cada atributo aj , faça a0
j =
aj − min(aj )
max(aj ) − min(aj )
Onde min(aj ) é o valor mı́nimo já observado para esse atributo
Contudo, max(aj ) − min(aj ) pode ainda ser muito grande
Normalização por desvio padrão:
Mudar a escala da entrada de modo a ter média x̄ = 0 e variância
σ2
x = 1
x0
=
x − x̄
σx

A mudança de escala coloca os atributos em um
mesmo patamar
De modo que influenciem igualmente

A mudança de escala coloca os atributos em um
mesmo patamar
De modo que influenciem igualmente
Contudo, algumas vezes sabemos que algumas
caracterı́sticas são mais importantes, e não
queremos perder essa informação
Multiplique os valores para essa caracterı́stica por um peso,
aumentando sua influência

Exemplo – Falência
A G F
3 0,2 N
1 0,3 N
4 0,5 N
2 0,7 N
0 1,0 N
1 1,2 N
1 1,7 N
6 0,2 S
7 0,3 S
6 0,7 S
3 1,1 S
2 1,5 S
4 1,7 S
2 1,9 S
A = no
de pagamentos atrasados / ano
G = despesas / receitas
F = Falência
Fonte: Adaptado de [4]

Suponha que decidimos que
G deveria ser multiplicado
por 5 para ser
apropriadamente comparado
com A

por 5 para ser
com A
Então usamos a distância
euclidiana com G multiplicado
por 5
d(xi , xj ) =
p
(Ai − Aj )2 + 5(Gi − Gj )2

por 5 para ser
com A
Então usamos a distância
euclidiana com G multiplicado
por 5
Suponha que temos o ponto
(2, 0.3)
Qual seu valor para F?
d(xi , xj ) =
p
(Ai − Aj )2 + 5(Gi − Gj )2

Buscamos o ponto mais
próximo
Note que no gráfico os
eixos estão em escala
diferente, por isso o
cı́rculo

Buscamos o ponto mais
próximo
Note que no gráfico os
eixos estão em escala
diferente, por isso o
cı́rculo
Como o ponto é vermelho,
nossa resposta é “não”

Vejamos outro ponto:

Vejamos outro ponto:
Resposta = Sim

Qual é a hipótese aprendida?
Diferente dos demais algoritmos, não constrói
explicitamente uma descrição da hipótese com base
nos dados que vê
Apenas acha seu valor

Qual é a hipótese aprendida?
Diferente dos demais algoritmos, não constrói
explicitamente uma descrição da hipótese com base
nos dados que vê
Apenas acha seu valor
Partição de Voronoi
Dado um conjunto de pontos (referências), podemos
dividir o espaço em regiões poligonais convexas
Uma para cada referência, representando o conjunto dos
pontos no espaço que estão mais próximos daquela
referência que de qualquer outra

A hipótese será representada pelas arestas na
partição de Voronoi que separam a região de pontos
positivos da com pontos negativos
Nunca calculamos esse limite. Ele surge do processo em si

Problemas
Como temos que “lembrar” de todos os dados,
podemos ficar sem memória

Problemas
Apague os pontos que estão longe do limite da partição de
Voronoi

Problemas
Voronoi
Ruido:
Ocorre quando não há como fazer uma partição de Voronoi
perfeita. Nesse caso:

Problemas
Voronoi
Ruido:
Ou assumimos que não é ruido, ou seja, que há algum fator válido
que gera esse ponto

Problemas
Voronoi
Ruido:
Ou assumimos que não é ruido, ou seja, que há algum fator válido
que gera esse ponto
Ou dizemos que esse ponto é uma anomalia (outlier) → Representa
um caso incomum que preferimos ignorar, não incorporando à
hipótese

Ruido

Ruido
E se quisermos saber
o valor de um ponto
próximo a esse ponto?

Ruido
Encontramos o vizinho
mais próximo

Ruido
mais próximo

Ruido
mais próximo
Resposta = sim

Ruido
mais próximo
Resposta = sim
Consistente com a
primeira visão: o ponto
representa alguma
propriedade importante do
problema Fonte: Adaptado de [4]

Ruido
Se acharmos que pode
ser ruı́do (uma
anomalia), devemos
mudar o algoritmo de
modo a ignorá-lo

Ruido
ser ruı́do (uma
anomalia), devemos
modo a ignorá-lo
Encontre os k pontos
mais próximos

Ruido
ser ruı́do (uma
anomalia), devemos
modo a ignorá-lo
Encontre os k pontos
mais próximos
Seus k-vizinhos

K-Vizinhos Mais Próximos
K-nearest neighbours
Define a vizinhança de um ponto como sendo algo
grande o suficiente para incluir k pontos
k deve ser grande o suficiente para garantir uma estimativa
significativa

K-nearest neighbours
Define a vizinhança de um ponto como sendo algo
grande o suficiente para incluir k pontos
k deve ser grande o suficiente para garantir uma estimativa
significativa
Funciona idêntico ao Vizinho mais Próximo
Exceto que quando queremos saber o valor de um ponto,
buscamos os k pontos mais próximos a ele
Damos, como resposta, a resposta associada à maioria
desses k elementos

K-Vizinhos Mais Próximo
Problema
Para k fixo, o tamanho
da vizinhança varia
Grande quando os dados
são esparsos
Pequena para dados
densos
Fonte: AIMA (2a ed.). R&N

Escolha do K
Nada óbvia

Escolha do K
Nada óbvia
Quanto menor, mais a hipótese será sensı́vel a ruido
Maior o risco de overfitting

Escolha do K
Nada óbvia
Quanto maior, mais obscura será
No limite, associarı́amos a resposta da maioria dos pontos
no conjunto
Arriscamos não sermos capazes de expressar a hipótese

Escolha do K
Nada óbvia
Quanto maior, mais obscura será
No limite, associarı́amos a resposta da maioria dos pontos
no conjunto
Arriscamos não sermos capazes de expressar a hipótese
É comum escolher k por meio de validação cruzada
Veremos mais adiante

Função-alvo
A função-alvo (o que se pretende definir) pode ser
discreta ou contı́nua

Função-alvo
Função-alvo discreta:
O resultado será o valor mais comum dentre os k exemplos
de treino mais próximos do ponto-alvo

Função-alvo
Função-alvo discreta:
O resultado será o valor mais comum dentre os k exemplos
de treino mais próximos do ponto-alvo
Sejam:
f : Rn
→ V a função-alvo a ser aprendida
V = {v1, . . . , vs} os valores possı́veis para f
ˆ
f a hipótese, definida pelo algoritmo, da função-alvo f (ou seja, a
estimativa feita pelo algoritmo)

Função-alvo discreta – Algoritmo
Treinamento
Para cada exemplo de treino hx, f (x)i, adicione o exemplo à
lista Exemplos
Classificação
Dada uma nova instância xq a ser classificada:
Sejam x1, . . . , xk as k instâncias de Exemplos que estão mais perto
de xq
Retorne ˆ
f (xq) ← O valor mais comum f (xi ) dentre seus k-vizinhos xi

Função-alvo contı́nua
f : Rn
→ R

Função-alvo contı́nua
f : Rn
→ R
Em vez de calcularmos o valor mais comum,
calculamos a média dos k exemplos mais próximos
ˆ
f (xq) ←
k
X
i=1
f (xi )
k

Refinamento: K-vizinhos com pesos

Damos pesos ωi à contribuição de cada vizinho, de
acordo com sua distância ao ponto de interesse xq
Vizinhos mais próximos terão peso maior

Damos pesos ωi à contribuição de cada vizinho, de
acordo com sua distância ao ponto de interesse xq
Vizinhos mais próximos terão peso maior
Para o caso discreto, fazemos o peso proporcional
ao quadrado inverso da distância entre o ponto e xq
ˆ
f (xq) ← argmax
v∈V
k
X
i=1
ωi δ(v, f (xi )), onde ωi =
1
d(xq, xi )2
Para os casos em que d(xq, xi ) = 0, fazemos ˆ
f (xq) = f (xi )
Se houver vários casos assim, ˆ
f (xq) será o valor da maioria
deles

Para o caso contı́nuo, fazemos
ˆ
f (xq) ←
k
X
i=1
ωi f (xi )
k
X
i=1
ωi
Note que
Pk
i=1 ωi é uma constante que normaliza as
contribuições dos vários pesos

A Maldição da Dimensionalidade
Vizinho mais próximo e k-vizinhos funcionam muito
bem para baixas dimensões
Porém, na medida em que aumentam as dimensões, quase
todos os pontos estão longe uns dos outros

A Maldição da Dimensionalidade
Vizinho mais próximo e k-vizinhos funcionam muito
bem para baixas dimensões
Porém, na medida em que aumentam as dimensões, quase
todos os pontos estão longe uns dos outros
Maldição da dimensionalidade:
Ocorre quando a distância entre vizinhos é dominada por um
grande número de atributos irrelevantes
Lembre que a distância é medida com base em todos os atributos
Se um ponto necessitar de poucos atributos para a classificação, ele
pode ser classificado erroneamente, pela proximidade dos outros
atributos (irrelevantes), a outros exemplos

A Maldição da Dimensionalidade: como evitar
Podemos dar pesos diferentes a cada atributo
quando do cálculo da distância
Estes terão que ser determinados via tentativa e erro no
conjunto de treino

A Maldição da Dimensionalidade: como evitar
Podemos dar pesos diferentes a cada atributo
quando do cálculo da distância
Estes terão que ser determinados via tentativa e erro no
conjunto de treino
Podemos eliminar os atributos menos relevantes do
espaço de instâncias
Reduzimos o problema a um de menor dimensionalidade
Seleção de caracterı́sticas (feature selection)
Ex: Principal Component Analysis (PCA), análise fatorial etc

Referências
1 Russell, S.; Norvig P. (2010): Artificial Intelligence: A Modern Approach.
Prentice Hall. 2a e 3a ed.
1 Slides do livro: aima.eecs.berkeley.edu/slides-pdf/
2 Mitchell, T.M.: Machine Learning. McGraw-Hill. 1997.
3 Goodfellow, I.; Bengio, Y.; Courville, A. (2016): Deep Learning. MIT
Press.
4 http://ocw.mit.edu/OcwWeb/Electrical-Engineering-
and-Computer-Science/6-034Spring-2005/LectureNotes/index.
htm
5 https://www.codingame.com/playgrounds/243/
voronoi-diagrams/what-are-voronoi-diagrams
6 http://mathworld.wolfram.com/VoronoiDiagram.html

Referências
7 https://en.wikipedia.org/wiki/Voronoi_diagram
8 https://www.analyticsvidhya.com/blog/2018/08/
dimensionality-reduction-techniques-python/
9 https://towardsdatascience.com/
deep-learning-feedforward-neural-network-26a6705dbdc7
10 https://towardsdatascience.com/a-comprehensive-guide-to-
convolutional-neural-networks-the-eli5-way-3bd2b1164a53
recurrent-neural-networks-d4642c9bc7ce
recurrent-neural-networks-and-lstm-4b601dd822a5

Referências
13 https://medium.com/@curiousily/making-a-predictive-
keyboard-using-recurrent-neural-networks-tensorflow-for-
hackers-part-v-3f238d824218
animated-rnn-lstm-and-gru-ef124d06cf45
15 https://skymind.ai/wiki/lstm
16 https://towardsdatascience.com/a-comprehensive-guide-to-
convolutional-neural-networks-the-eli5-way-3bd2b1164a53
17 https://skymind.ai/wiki/convolutional-network
18 http://cs231n.github.io/convolutional-networks/

(ACH2044) Inteligência Artificial - Aula 20

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (7)

Semelhante a (ACH2044) Inteligência Artificial - Aula 20

Semelhante a (ACH2044) Inteligência Artificial - Aula 20 (20)

Mais de Norton Trevisan Roman

Mais de Norton Trevisan Roman (15)

Último

Último (20)

(ACH2044) Inteligência Artificial - Aula 20