Introdução a Deep Learning

Pontif´ıcia Universidade Católica do Rio de Janeiro
Departamento de Engenharia Elétrica (DEE)
2016 - I
ESTUDO ORIENTADO
DEEP LEARNING
Aluno: Cristian Muñoz Villalobos
Matricula: 1521847
Orientador: Prof. Ricardo Tanscheit
Co-orientador: Prof. Leonardo Mendoza

Sumário
1 Introdução 3
1.1 Deep Learning e Redes Neurais . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Porque arquiteturas Deep? . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Aprendizagem de Representações (features) 4
2.1 Modelos tradicionais de aprendizagem . . . . . . . . . . . . . . . . . . . 5
2.2 Modelos de Aprendizagem de representações (Deep Learning) . . . . . . 6
2.3 Tipos de arquiteturas e protocolos de treinamento . . . . . . . . . . . . . 8
2.4 Complexidade da teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Considerações nos algoritmos apresentados neste trabalho 9
3.1 Modelos Analisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Método da gradiente descendente . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Backpropagation: Casos Gerais . . . . . . . . . . . . . . . . . . . . . . . 11
4 Redes Neurais Convolutivas (Convnets) 12
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Contexto Histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Arquitetura da rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.1 Camada Convolutiva . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.2 Camada de Amostragem (Max Pooling) . . . . . . . . . . . . . . 15
5 Redes Neurais Recorrentes (Deep LSTM) 16
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Modelo de um neurônio de uma rede LSTM . . . . . . . . . . . . . . . . 17
5.3 Modelo de uma Deep LSTM . . . . . . . . . . . . . . . . . . . . . . . . 18
5.4 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6 Restricted Boltzmann Machine (RBM) 19
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2 Modelo de uma RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.3 Divergência Contrastiva e Treinamento . . . . . . . . . . . . . . . . . . . 21
7 Deep Belief Networks (DBN) 22

7.1 Introduc¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.2 Modelo de uma DBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.3 Algoritmos de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . 23
7.3.1 Wake - Sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7.3.2 Greedily Layer-Wise Training . . . . . . . . . . . . . . . . . . . 24
7.3.3 Up-Down . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8 Stacked Autoencoders 26
8.1 Modelo do Stacked Autoencoders . . . . . . . . . . . . . . . . . . . . . 26
8.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2

Deep Learning
Cristian Muñoz1
, Ricardo Tanscheit1
, Leonardo Medoza Forero1
1
Departamento de Engenharia Elétrica
Pontif´ıcia Universidade Católica do Rio de Janeiro (PUC-RJ)
RJ, Brazil
{crismunoz,ricardo,mendonza}@ele.puc-rio.br
Resumo. Deep Learning é um subcampo de Machine Learning que têm rece-
bido uma atenção significativa nos últimos anos. O interesse aumentou drasti-
camente com a aquisição da DeepMind (empresa britânica de inteligência arti-
ficial) pelo Google em 2014, que faz uso principalmente de algoritmos de Deep
Learning. Sua popularidade se deve a sua capacidade de atingir maior acurácia
do que os algoritmos convencionais de Machine Learning e suas aplicações
abrangem reconhecimento de voz, processamento de imagem e processamento
de linguagem natural, por exemplo. No mundo dos negócios, os algoritmos de
Deep Learning ainda estão em uma etapa inicial, mas têm o potencial de mudar
profundamente a maneira e a velocidade com que dados são tratados.
1. Introdução
1.1. Deep Learning e Redes Neurais
Deep learning começo como uma necessidade em Machine Learning de interpretar n´ıveis
de maior complexidade do mundo perceptual e criar sistemas perceptivos que possam
aprender essas interpretações olhando seu ambiente . A literatura coloca o Deep Learning
como um subcampo de redes neurais artificiais. O treinamento de redes neurais profun-
das (Deep Neural Networks) com base em backpropagation apresentou dificuldades ao
ser colocado em prática pelo final dos anos 1980. Assim, tal treinamento tornou-se um
assunto de pesquisa no in´ıcio da década de 1990, levando ao desenvolvimento de novas
metodologias de treinamento. Finalmente, nos anos 2000, houve um aperfeiçoamento da
aprendizagem supervisionada utilizando puramente Deep Learning [1].
Os algoritmos de Deep Learning dependem de unidades de processamento não
lineares estruturadas em múltiplas camadas em cascata (mais camadas do que os algorit-
mos convencionais – Shallow Learning) [2]. Estas unidades são geralmente compostas
por redes neurais artificiais, cujos parâmetros são estimados através do treinamento, e são
utilizadas para a extração de caracter´ısticas e transformação dos sinais. Os algoritmos
incluem variáveis latentes organizadas ”Layer-Wise”(treina-se uma camada de cada vez),
também utilizadas em Deep Belief Networks e em Deep Boltzmann Machines[3].
Finalmente, os algoritmos de Deep Learning requerem uma grande quantidade
de poder computacional e uma quantidade significativa de tempo para treinamento. Em
compensação, os algoritmos de treinamento e de inferência de arquiteturas de Deep Lear-
ning apresentam um maior paralelismo [4].

1.2. Porque arquiteturas Deep?
Com Lippman [5] e Cybenko [6], mostrou-se que 2 camadas escondidas são suficientes
para representar regiões de qualquer tipo. Porem, alguns casos pode ser extremamente
dif´ıcil de descrever com modelos simples, nestes casos são necessários sistemas de maior
ordem. Em Deep learning podemos dizer que a ”profundidade”e o ”ordem de complexi-
dade”são sinônimos. Como também a largura de uma função é definido pelo número de
neurônios numa transformação [7] .
Figura 1. Representaç ão de regiões em funç ão ao número de camadas
Existe evidencia empirica e teorica que MLP não pode implementar tarefas de
reconhecimento visual invariantes eficientemente. [8]. Deep Learning é mais eficiente
para representar algumas classes de funções ”Trocando amplitude por profundidade”, ou
utilizar um maior número de camadas. Por exemplo, para modelar um circuito detectores
de paridade, precisa-se de N-1 portas XOR num arvore de profundidade log(N), mas
precisa-se de um número exponencial de portas para conseguir estruturar em 2 camadas.
2. Aprendizagem de Representações (features)
O desempenho dos métodos de Machine Learning está fortemente ligado a engenharia
de atributos (pre-processamento), o que requer boa parte do esforço real ao momento de
implementar o algoritmo e conseguir um aprendizagem eficaz.
Figura 2. Cortex Visual em mam´ıferos é hierárquica
4

Um dos melhores exemplos de aprendizagem de representações é nossa memoria.
Diferentes áreas de estudo como neurociência, biologia pesquisam a forma em que apren-
demos carater´ısticas ou hierarquias de carater´ısticas do mundo perceptivo. Por exemplo,
como a cortex visual dos mam´ıferos (Figura 2) consegue perceber? como a memoria
aprende os conceitos mais abstratos desde os n´ıveis mais baixos?. A via ventral (de re-
conhecimento) no córtex visual tem múltiplas etapas de representação intermediarias:
Retina-LGN-V1-V4-PIT-AIT, cada uma detecta desde bordas (nos n´ıveis primários), for-
mas geométricas, grupos, até descrever objetos mais complexos como rostos ou obje-
tos [9]. Yoshua Bengio [10] propor alguns fatores gerais que podem definir uma boa
representação, são apresentados os principais:
• Suavidade (Smoothness): É um conceito básico presente na maioria de algoritmos
de Machine Learning, mas é uma problema com o aumento da dimensionalidade
da função a ser aprendida.
• Multiples fatores explicativos (featrures) : Os dados de uma distribuição podem
ser gerado por um conjunto de fatores explicativos e na maior parte, o que aprende
sobre um fator, é generalizado na configuração dos outros fatores.
• Estrutura Hierarquica de Representações: As representações que percebemos em
torno nós pode ser definida em termo de outras representações (features), estrutu-
rando uma hierarquia onde os conceitos mais abstratos ou mais elevados estão em
função dos conceitos menos abstratos.
• Manifolds: Probabilidade de concentrar a massa de dados em regiões que tem
uma dimensionalidade muito menor do que o espaço original. Este é explorado
em algoritmos como por exemplo os Autoencoders.
• Simplicidade na dependências de Representações: Uma boa representação de alto
n´ıvel está relacionados com outras representações através de dependências sim-
ples, normalmente lineares.
Finalmente, Deep Learning se baseia no aprendizagem de Representações. Mu-
dando a forma do modelagem de Machine Learning que desde finais dos 50s até a década
passada não tinha sido mudada em essência.
2.1. Modelos tradicionais de aprendizagem
O modelo tradicional de aprendizagem de Representações era realizado principalmente
em 2 processos, representado pelos 2 blocos na Figura 3. O bloco da esquerda representa
a engenharia de atributos (Feature Extractor) que até a década passada era realizada por
um especialista nos dados.
Figura 3. Modelo Tradicional: Engenharia de atributos + Classificador
Esta engenharia requer um cuidado significativo e um dom´ınio considerável
para projetar a extração de caracter´ısticas transformando os dados brutos em uma
representação interna adequada para ser classificados treinando um classificador simples
5

(bloco direita Figura 3). Até o ano 2011 o estado de arte em reconhecimento de voz
mantida essa estrutura tradicional [11]. Por exemplo, na Figura 4 se mostra o modelo
tradicional de um sistema de reconhecimento de voz.
Figura 4. Modelo Tradicional: Reconhecimento de voz (90’s - 2011)
A sinal passa por um método fixo (não treinável), neste caso MFCC, que estrai os
coeficientes para a representação da fala que são baseados na percepção auditiva humana.
As sa´ıdas deste bloco fixo são tratados por métodos não supervisionado, no caso da
Figura 4 Mix of Gaussians o qual representara subpopulações dentro da população total
(todos os dados), realizando uma inferência sobre as propriedades das sub-populações
dado só observações da população agrupada. Finalmente esta sa´ıda são entrada para um
classificador quem termina o processo.
Em reconhecimento de objetos até o ano 2012, o modelamento não muda muito
[12]. Eram estruturado por 4 processos principais para conseguir extrair as principais
carater´ısticas antes de entrar no classificador. Um segundo exemplo de um modelo tradi-
cional é mostrado na Figura 5.
Figura 5. Modelo Tradicional: Reconhecimento de objetos (2006 - 2012)
As imagens são filtradas por métodos fixos (não treináveis) como SIFT ou HoG
que extraem carater´ısticas básicas da imagem (SIFT: Detector de carater´ısticas locais
(keypoint), HoG: Descreve carater´ısticas como histograma de orientação de gradientes).
Esta informação passa por um algoritmo não supervisionado como K-means, Sparse Co-
ding, etc., sendo agrupadas carater´ısticas de n´ıvel médio e passando por um processo de
polling antes de ingressar finalmente ao classificador treinável.
2.2. Modelos de Aprendizagem de representações (Deep Learning)
Uma proposta que mudo o modelamento clássico de aprendizagem em ML foi: Porque
não podemos fazer todos os módulos treináveis (engenharia de atributos + classificação)?.
O aprendizagem de representações aglomera um conjunto de métodos que permitem pro-
cessar os dados automaticamente e encontrar as representações necessárias para detecção
ou classificação. Especificamente, Deep Learning (um subconjunto de métodos de apren-
dizagem de representações) aborda esse problema modelando hierarquias de features ou
kernels treináveis não lineais (Feature transform), transformando cada representação de
6

um n´ıvel (começando pelos dados brutos) a uma de maior n´ıvel, atingindo assim n´ıveis
de abstração maiores [1].
Figura 6. Feature (ou kernel) treináveis + Classificador Treinável
A proposta de ter módulos treináveis tanto na aprendizagem de representações e na
classificação (Figura 7) são os aspectos mais importante de Deep Learning. Um algoritmo
é considerado Deep se utiliza mais de um n´ıvel de representação. Essas representações
são aprendidas desde os dados utilizando um procedimento de aprendizagem de propósito
geral.
Figura 7. Feature(ou kernel) treináveis + Classificador Treinável
Na Figura 7 se mostra uma estrutura hierárquica de 3 n´ıveis de representação.
A entrada, o primeiro n´ıvel de representação são os pixeis da imagem (a foto mesma),
no primeiro feature transform (Baixo N´ıvel) são detetados tipicamente a presencia ou
ausência de bordas com também orientação especifica e locação ma imagem. O segundo
feature transform (Médio N´ıvel) extrai as partes de um objeto e o terceiro feature trans-
form (Alto N´ıvel) detecta objeto ou combinação das partes. Os feature maps de Alto N´ıvel
são mais globais e invariantes. Os Feature maps de Baixo N´ıvel são compartilhados entre
os diferentes Feature maps das camadas posteriores.
Figura 8. Hierarquias de representaç ões incrementam o n´ıvel de abstraç ão
7

Yann LeCun [13], apresenta exemplos de hierarquia de representações de algumas
áreas de pesquisa importantes na comunidade de Machine Learning , são apresentadas na
Figura 8.
2.3. Tipos de arquiteturas e protocolos de treinamento
Atualmente existem três tipos de arquiteturas de Deep Learning. Como se mostra na
Figura 9, a primeira arquitetura é Feed-Forward, utilizado em Multilayer neural nets,
convolutional nets. A segunda, Feed-Back, utilizadas em Stacked Sparse Coding, Des-
convolutional nets. A terceira, Bi-Directional, utilizada em Deep boltzmann machines,
Stacked Auto-Encoders.
Figura 9. Tipos de arquiteturas em Deep Learning
Estas arquiteturas tem diferentes formas de treinamento, baseando nos treina-
mento supervisionados e não supervisionados, podem utilizar alguns dos seguintes proto-
colos de treinamento:
• Puramente supervisionado: A inicialização de parâmetros aleatória. Este trei-
namento utiliza tipicamente o método da gradiente descendente, utilizando Back-
propagation para calcular as gradientes.
• Não supervisionado + classificador supervisionado no topo: O treinamento é
realizada em cada camada não supervisionada, uma depois da outra. Depois as
camadas supervisionada são treinadas, mantendo as outras camadas fixas.
• Não supervisionado + sintonização global supervisionada: O treinamento é
realizada em cada camada não supervisionada, uma depois da outra. Se adiciona
uma camada classificadora (opcional) e retreina-se supervisionadamente toda a
arquitetura.
2.4. Complexidade da teoria
Deep learning atualmente tem vários tópico discut´ıveis, como metodologia de vanguarda,
Yann LeCun [13] menciona alguns aspeitos importantes.
• Não convexidade: Muitos dos algoritmos em Machine Learning tem limitações
para resolver problemas em que a função de custo é não convexa (linear regres-
sion/ Ridge regression, SVM, etc.). Frequentemente, o custo por insistir em con-
vexidade é um insuportável incremento no tamanho do modelo, ou o escalamento
de propriedades do algoritmo de otimização (O(n2
), O(n3
), ...).
8

Muitos outros algoritmos não tem limitações com problemas de otimização não
convexa, por exemplo os Modelo Oculto de Markov e sistemas baseados em
Graph-Transformer-Network (em reconhecimento de escrita), assim como os Mo-
delos ocultos de Markov discriminativos (em reconhecimento de voz) são sistemas
não convexo.
Para lidiar com as mais complexas e interessantes tarefas de aprendizagem (visão,
voz, escrita), Deep learning implementa sistemas de arquitetura profunda (Deep),
para o aprendizagem de representações hierárquicas (carater´ısticas baixo n´ıvel,
representações de n´ıvel médio, conceitos de alto n´ıvel). Estas arquiteturas lidam
inevitavelmente função de custo não convexa.
• Não tem limite de Generalização: Segun Yann Lecun, não existe uma métrica
que quantifique o limite a generalização dos algoritmos de Deep Learning. O
melhor referencia até agora é o VC-Bound, o número de VC que da uma referencia
do nivel de generalização do algoritmo. Se ela for infinita, o algoritmo pode cair
em overfitting. Em Deep learning, a maioria de algoritmos tem um valor de VC-
dimension finita. Atualmente dada o pouco fundamento matemático da teoria, é
dif´ıcil provar qualquer coisa sobre sistemas Deep Learning.
3. Considerações nos algoritmos apresentados neste trabalho
3.1. Modelos Analisados
Na Figura 10 mostra-se on esquema classificando os algoritmos de arquitetura Deep e não
Deep. Agrupando também pelo tipo de modelo (redes neurais ou probabil´ısticos) e tipo
de aprendizagem. Podemos observar que existem algoritmos de Deep Learning do tipo
supervisionado e não supervisionado, e h´ıbridos entre os modelos probabil´ıstico e redes
neurais.
Figura 10. Contexto histórico em Deep Learning
9

Neste trabalho os algoritmos com base em redes neurais puros e misturado com
modelos probabil´ısticos serão descrita desde a seção 4. Os algoritmos do Deep Learning
podem ser estruturados em base a o modelamento com redes neurais e modelos proba-
bil´ısticos. Os algoritmos apresentados neste trabalho são os seguintes:
• Deep Learning
– Redes Neurais
∗ Convolutional Neural Networks (Convnets)
∗ Recurrent Neural Network (RNN)
– Redes Neurais + Modelos Probabil´ısticos
∗ Restricted Boltzmann Machine (RBM)
∗ Deep Belief Networks (DBN)
∗ Stacked Autoencoders (D-AE)
Todos os algoritmos apresentados neste trabalho utilizam o método da gradiente
descendente no processo de aprendizagem. A rede Restricted Boltzmann Machine é apre-
sentada mesmo que ela não pertença neste grupo de algoritmos, dado que é o modulo
principal para descrever os posteriores algoritmos. Antes de apresentar os algoritmos, va-
mos descrever alguns hiperparametros utilizados na configuração do método da gradiente
descendente e o método de backpropation para casos gerais.
3.2. Método da gradiente descendente
Em um sistema de aprendizagem supervisionado. Seja o conjunto de pares de entradas
e sa´ıdas (x, y), definimos a função de perda l(ˆy, y) como a medida do custo de inferir ˆy
quando a reposta real é y e selecionamos uma fam´ılia F de funções fw(x) parametrizado
pelo vetor de pesos w. Se procura a função f ∈ F que minimiza a função l(ˆy, y). A
teoria de aprendizagem estat´ıstico justifica a minimização do rico emp´ırico (En) que mede
o desempenho dos dados de treinamento en vez da esperança do rico (E) que mede o
desempenho geral (intratável), ambos funções estão definidas na Eq. 1.
E(f) = l(f(x), y)dP(x, y) En(f) =
1
n
n
i=1
l(f(x), y) (1)
A minimização do risco emp´ırico é realizado utilizando o método da gradiente
descendente se baseia na atualização dos parâmetros de uma camada na direção negativa
da gradiente do risco emp´ırico. A equação de atualização dos parâmetros é mostrada na
Eq. 2.
wt ← wt − nt(t).gt gt = wEn(f) (2)
O método tem alguns hiperparâmetros que ajudam na performance do método.
Na tabela 1 são apresentados os principais. Vários já conhecidos no treinamento de redes
neurais regulares, como a taxa de decaimento do aprendizagem, momentum e a capaci-
dade de controle, o qual diminui o valor dos parâmetros em cada atualização, evitando o
crescimento e instabilidade.
10

Tabela 1. Hiperparametros do método da Gradiente Descendente
Taxa de
decaimento
Ajusta a taxa de aprendizagem
no tempo.
n(t) = α
(β+t)γ
Momentum
Ajuda com o m´ınimo local,
lida com oscilações
m ← (1 − λ)mt−1 + λ.gt
w ← wt − nt.gt − ñt.mt
Minibatch
Reduze a variância em
gradientes. Melhor vetorização
em GPU.
Capacidade de
Controle
Prevenir a divergência
dos parâmetros (instabilidade
numérica - weight decay)
wt ← (1 − λ)wt−1 + nt.gt
Dropout
Evita a sensibilidade
nos parâmetros
Pr(ξti = π−1
) = π
Pr(ξti = 0) = 1 − π
yti = ξti.yti
Alguns novos parâmetros, produto do treinamento com grandes bases de dados
como o ”minibatch”, ele referencia a quantidade de elementos num subconjunto do con-
junto total de dados para o calculo da gradiente e atualização dos parâmetros. Outro
parâmetro importante é ”Dropout”, encarregado desligar um porcentagem das conexões
dos neurônios de forma uniforme e aleatória, este processo é realizado com a intenção de
evitar a sensibilidade de um neurônio na resposta total.
3.3. Backpropagation: Casos Gerais
O método Backpropagation para casos gerais foi formulado para estruturar diferentes
tipo de camadas de redes neurais numa estrutura unificada, com a condição que todas as
camadas utilizem o algoritmo backpropagation na atualização de seus parâmetros. Estas
camadas devem cumprir 2 condições:
”A função de ativação do neurônio deve ser derivável respeito a variável de entrada e
também respeito os parâmetros do neurônio.”
O método está composto por 4 passos, antes de mostrar o procedimento, definire-
mos a nomenclaturas dos variáveis utilizadas.
x : Entrada da rede neural.
θ : Conjunto dos parâmetros na função de ativação do neurônio.
hθ : Sa´ıda da rede neural utilizando os conjunto de parâmetros θ.
f(l)
: Função de ativação da camada l.
δ : Erro de retro propagação (backpropagation).
g(l)
J : Gradiente do função de custo.
Passo 1: Descompor as operações das camadas da rede neural em funções cuja
11

derivada w.r.t. entrada é conhecida simbolicamente.
hθ(x) = (flmax
◦ ... ◦ f(l)
◦ ... ◦ f(1)
)(x), onde f1
= x, hθ(x) e ∀l : ∂fl+1
∂fl é conhecido
Passo 2: Calcular o erro de retro propagação correspondente à derivada da função
de custo computada numericamente.
δ(l)
= ∂J(θ;x,y)
∂f(l) = ∂J
∂f(l+1)
∂f(l+1)
∂f(l) = δ(l+1)
.∂f(l+1)
∂f(l) , onde δ(lmax)
= ∂J
∂f(lmax) é conhecido
Passo 3: Utilizar o erro de retro propagação para calcular a gradiente w.r.t.
parâmetros.
g(l)
J(θ; x, y) = ∂J(θ;x,y)
∂θ(l) = ∂J
∂f(l) .∂f(l)
∂θ(l) = δ(l+1)
.∂f(l+1)
∂θ(l) , onde ∂f(l)
∂θ(l)
é conhecido
Passo 4: Somar as gradientes geradas sobre todas as amostras para obter a
gradiente total.
g(l)
J(θ) =
m
i=1
g(l)
J(θ; x(i)
, y(j)
)
4. Redes Neurais Convolutivas (Convnets)
4.1. Introdução
As redes neurais convolutivas são redes do tipo Feedforward na qual cada camada aprende
representações hierárquicas em vários n´ıveis de abstração. Esta rede se baseia em alguns
princ´ıpios ou ideias básicas em sua arquitetura:
• Conexões Locais.
• Compartilhamento de parâmetros.
• Camadas de amostragem.
Nesta seção se apresentara o contexto histórico, a arquitetura da rede e processo
de aprendizagem.
4.2. Contexto Histórico
Em 1960, Hubel e Wiesel [14] analisaram a arquitetura funcional no cortex visual de um
gato, encontrando principalmente 2 tipos de células, células simples (S-Cell) e complexas
(C-Cell). Estas células são ativadas em resposta a certas propriedades de entradas sen-
soriais visuais como a orientação de bordas. As células simples detectam caracter´ısticas
locais; as células complexas sintetizam (“pool)” as sa´ıdas das células simples dentro de
uma vizinhança retinotópica.
Em 1979, Fukushima [15] cria a primeira rede neural que incorporar as ideias neurofisi-
ologia, chamada “Neocognitron”. Assim, introduze o conceito de redes neurais convo-
lutivas (CNNs ou Conv. Net) onde o campo receptivo de uma unidade convolutiva é um
12

vetor de pesos (filtro) e é deslocado passo a passo através de uma matriz de 2 dimensões
(a variável de entrada) como os pixels de uma imagem. Cabe indicar que a rede de Fu-
kushima era não supervisionada mais se considerando como o inicio das CNNs.
Em 1990, Yan LeCun [16] cria LeNet e reinventou as redes convolutivas utilizando o
Backpropagation para a atualização dos pesos, assim como posteriormente o comparti-
mento de peso e camadas de redes neurais convolutivas com conexões adaptativas. Im-
plementaram as primeiras aplicações bem-sucedidas de rede neurais convolutivas, sendo
utilizadas para leitura de códigos zip, d´ıgitos, etc.
Em 1992, Weng [17] cria o Cresceptron que adapta seu topologia durante seu treinamento.
O Cresceptron usa uma camada Max-Pooling (MP). Aqui uma camada de 2 dimensões
ou matriz de unidade de ativações é particionada em matrizes retangulares menores. Cada
partição ao passar pela camada MP é substitu´ıdo pela ativação da unidade maximamente
ativa. Posteriormente foi integrada às CNNs.
Em 2006, Chellapilla [18] apresentou as primeiras redes neurais convolutivas implemen-
tadas em GPU, com um speedup maior a 4 que a CNN baseada em CPU.
4.3. Arquitetura da rede
As Convnets estão estruturadas principalmente por 3 tipos de camadas:
• Camada Convolutiva (Convolutive Layer)
• Camada de Amostragem (Polling Layer)
• Camada Full Connected (Full Connected Layer)
As duas primeiras se encontram normalmente entre as primeiras camadas da rede, e vão
sendo intercaladas (convolutiva-amostragem-convolutiva-...), este grupos de camadas ex-
traem as principais carater´ısticas para classificar as imagens, ativando neurônios para cada
classe. Finalmente, a ultima camada full connected conecta todos os neurônios da camada
anterior e liga à sa´ıda do classificação. Na Figura 11 é apresentado uma rede convolutiva
a qual a camada convolutiva recebe os dados de entrada, extrai um conjunto de features
(valores de sa´ıda da camada), os quais entram na camada de amostragem (max polling),
ao sair desta camada a dimensão dados foi reduzido a pelo menos num 75% de seu di-
mensão ao entrar na camada. este processo é potencialmente beneficioso para a rede dado
que reduze em 75% a probabilidade de ativação dos neurônios, evitando o overfitting.
Figura 11. Estrutura da camadas da rede convnets
O funcionamento de cada camada é descrita a continuação:
13

4.3.1. Camada Convolutiva
Uma carater´ıstica básica numa camada convolutiva é que cada neurônio não está ligado a
todas as entrada da rede, só com um subconjunto local. O fato de ligar cada neurônio a
todas as entradas incrementaria drasticamente o número de conexões na rede, assim como
sua dificuldade de otimizar cada um desses parâmetros. Uma rede convolutiva dedica
vários neurônios para conseguir mapear toda a entrada (conetar com todas a dimensão da
entrada). Na Figura 12, se tem uma feature de 3 dimensões (e.g. uma imagem de 3 canais
RGB), cada um mapeando uma região local.
Figura 12. Conexões locais numa camada Convolutiva
As redes convnets consideram o seguinte critério: Se o conjunto pesos de um
neurônio (kernel) podem descrever bem uma região da imagem, provavelmente esses
mesmo pesos possam descrever bem outra região. Essa ideia é chamada de comparti-
lhamento de parâmetros. Na Figura 13 (a) se mostra um grupo de neurônios que compar-
tilham pesos, a sa´ıdas destes neurônios são chamados de ”receptive fields”. A conexão de
todos destes ”receptive fields”numa unidade é um ”feature map”.
Figura 13. Compartilhamento de pesos (a) e parâmetros (b) de uma camada Con-
volutiva
A rede convolutiva utiliza o método de aprendizagem descrito na seção 3. Na
Figura 13 (b) se apresenta todos os parâmetros involucrados no calcula da gradiente. De-
14

finimos: i, j, f os ´ındices do feature de entrada nas 3 dimensões, i , j , f os ´ındices
dos neurônios da camada convolutiva (f simboliza o número de feature maps na sa´ıda),
i , j , f , f os ´ındices do kernel do neurônio. Pode-se observar que tanto o kernel como
o feature de entrada tem o mesmo ´ındice na profundidade f . o kernel tem mais um ´ındice
f que referencia ao feature map que pertence. A dimensão do kernel de cada neurônio é
Hf ×Lf ×F e o valor de cada ´ındice do kernel esta representado pela variável θi ,j ,f ,f .
Se a profundidade do feature de entrada é F, então podemos definir a ativação do neurônio
com a Eq. 3:
yi ,j ,f =
Hf
i =1
Lf
j =1
F
f =1
xi,j,f .θi ,j ,f ,f (3)
É importante considerar a relação entre os ´ındices das entidades involucradas na ativação
do neurônio: i = i + i − 1 ou i = i − i + 1. Utilizando o passo 2 da subsecção 3.3, se
calcula o erro de retro propagação, onde f(l)
representa o feature map referente à camada
l. Então, f(l+1)
= yi ,j ,f e f(l)
= xi,j,f . Se calcula o erro de retro propagação da camada
l na Eq. 4:
δ(l)
= δ(l+1)
.
∂f(l+1)
∂f(l)
=⇒ δl
ijf =
i j f
δl+1
i j f .θi−i − ,j−j +1,f,f (4)
∂E
∂θi ,j ,f
= δ(l+1)
.
∂f(l+1)
∂θ(l)
=⇒
∂E
∂θi ,j ,f
=
i j f
δl+1
i j f .xi,j,f (5)
θi j f ← θi j f − ni j f (t).gi j f (6)
Para obter a gradiente do erro realizamos o passo 3 da subsecção 3.3, onde f(l+1)
= yi ,j ,f
e θ(l)
= θi ,j ,f . Se calcula a gradiente do erro na Eq. 5. Finalmente. na Eq. 6 se realiza
a atualização dos parâmetros da rede.
4.3.2. Camada de Amostragem (Max Pooling)
Na literatura de Hubel e Wiesel, as células complexas no cortex visual dos mam´ıferos,
estão encarregadas de sintetizar as sa´ıdas das células simples; a camada de amostragem
realiza um processo similar com os features de entrada. Reduze uma vizinhança do
feature em uma unidade (pegando o valor máximo), ao realizar este procedimento varias
vezes reduze as varianças da representação do feature.
Na Figura 14, a região vermelha (matriz de 2x2) é escolhido o máximo valor e ele
passa como unidade representativa de toda a região. Ao eliminar seus outras 3 alternativas,
reduze a probabilidade de ativar neurônios num 75%.
15

Figura 14. Camada de Amostragem ou Max Pooling
A função de ativação da camada de amostragem está definida na equação 7. Uma
detalhe importante é indicar que o processo de Max Pooling não contem parâmetros
para otimizar, então não existe equações de correção dos parâmetros. O erro de retro
propagação deve passar para a seguinte camada (Eq. 8). Passando completamente só para
o neurônio ativado na etapa de inferência (Eq. 7).
yi ,j = max
ij∈Ω(i j )
xij (7)
δl
i j =
i j
δl+1
i j .
∂fi j (x)
∂xij
=⇒ δl
i j = δl
i j .Iij=argi j maxi j ∈Ω(i j ) xi j
(8)
5. Redes Neurais Recorrentes (Deep LSTM)
5.1. Introdução
A memoria não começa seus pensamentos desde zero cada segundo, existe persistência
nos eventos acontecidos anteriormente. As redes neurais recorrentes abrangem este tipo
de questões. Eles tem laços de conexão que permitem a persistência da informação. Na
figura 15 (a), A recebe uma entrada xt e emita uma sa´ıda ht. O laço permite à informação
passar de um estado da rede para o seguinte. Uma rede neural recorrente pode ser conce-
bido como multiples copias da mesma rede, cada uma passando alguma informação a seu
sucessor (Figura 15 (b)).
Figura 15. Redes Neurais Recorrentes desdobrada
Atualmente as redes neurais recorrentes tem sido eficientes numa variedade de
problemas: reconhecimento de voz, modelamento do linguagem, tradução, etc. A estru-
tura de uma rede neural recorrentes tradicional é apresentada na Figura 16 (a).
16

Figura 16. Neurônio de uma RNN tradicional e uma rede LSTM
A rede LSTMs é um tipo especial de rede neural recorrente que trabalha muito
melhor que as versões tradicionais. As redes recorrentes associam eventos passados (me-
morizam), fornecendo uma sa´ıda para a entrada atual em função dessa memorização. Na
Figura 17 (a) pode-se observar que os eventos x0 e x1 são estados ativados que são me-
morizados em uma posterior ativação na entrada de x3.
Figura 17. Dependência de eventos passados nas Redes Neurais Recorrentes
A estrutura de uma rede neural recorrentes tradicional é apresentada na Figura 18
(a). Embora, quando tem passado um longo per´ıodo entre os eventos passados e a entrada
atual, as redes neurais recorrentes tradicionais tem problemas para conseguir associar
estes eventos (Figura 17 (b)). A rede LSTM resolve este problema, ele é um tipo especial
de rede neural recorrente com a capacidade de aprender a memorizar dependências entre
longos per´ıodos.
5.2. Modelo de um neurônio de uma rede LSTM
LSTM consegue memorizar entre longos lapsos de eventos utilizando blocos de memoria
e 3 unidades multiplicativas: as entrada it, a sa´ıda ht e ”Constant Error Carousel”(CEC)
Ct. Está arquitetura foi criada analisando o problema do fluxo do erro de retro propagado
que explodia ou decaia exponencialmente. Um conjunto de passos são apresentados
explicando o processo de inferência da LSTM representado na Figura 18.
17

Figura 18. Descriç ão do funcionamento de um Neurônio de uma rede LSTM
O primeiro passo é saber que informação tenho que esquecer em meu CEC, essa
decisão é tomada por uma chave de esquecimento representada por ft que observa ht−1 e
xt e retorna um valor entre 0 e 1 definidos pela equação 9. O segundo passo é saber qual
informação tem que ser memorizada no CEC. Para este processo temos 2 elementos: it
chamado chave de entrada (Eq. 10), que define os valores que serão atualizados e o novo
vetor candidato ˜Ct (Eq. 11).
ft = σ(Wf .[ht−1, xt] + bf ) (9)
it = σ(Wi.[ht−1, xt] + bi) (10)
˜Ct = tanh(WC, [ht−1, xt] + bC) (11)
Ct = ft Ct−1 + it
˜Ct (12)
ot = σ(Wo.[ht−1, xt] + bo) (13)
ht = ot tanh(Ct) (14)
ht = Lt(ht−1, xt) (15)
O terceiro passo é atualizar o CEC, conetando com a chave de esquecimento ft e
somando a informação a memorizar it Ct, este processo está definido pela equação 12.
Finalmente processamos a sa´ıda ht esta baseado em CEC é filtrado por ot pela Eq. 13 e
Eq. 14. Para fines práticos de notação definimos a inferência no neurônio em função de
seus parâmetros de entrada na Eq. 15, considerando Ct uma variável de estado interna do
neurônio, atualizando L.
5.3. Modelo de uma Deep LSTM
Definimos N como o número de camadas da rede, e ˆst nossa sa´ıda. Se realiza o seguinte
processo iterativo:
h0
t = xt; (16)
h
(n)
t = L
(n)
t (h
(n−1)
t−1 , h
(n)
t−1) (17)
ˆst = W(N)(N+1)
hN
t + b(N+1)
(18)
Para n=1,...,N e h
(n)
t denota a sa´ıda no tempo t da camada n. Aqui e posterior-
mente, W(n),(n+1)
denota os pesos de conexão desde a camada n para a seguinte camada
18

(n=0: camada de entrada, n=N:camada de sa´ıda), e W(n),(n)
, n > 0 contem os pesos de
conexão de recurrência na estrutura; b é o vetor de bias. Definimos na Eq. 19 e 20 as
equações da chave de sa´ıda e CEC para um neurônio na camada n:
h
(n)
t = o
(n)
t tanh(C
(n)
t ) (19)
C
(n)
t = f
(n)
t C
(n)
t−1 + i
(n)
t
˜C
(n)
t (20)
˜C
(n)
t = tanh(W(n−1),(n)
h
(n−1)
t + W(n),(n)
h
(n)
t−1 + b
(n)
C ) (21)
Os pesos WC na Eq. 11 foram separados na Eq. 21 para denotar os pesos de conexão
com a camada anterior W(n−1),(n)
e os pesos conexão de recurrência W(n),(n)
. Existem
variantes do algoritmos LSTM, uma das mais importantes é LSTM Bidirecional [19].
5.4. Treinamento
A soma de quadrados dos error entre ˆst e a referencia certa st é usada como função de
erro. O algoritmo original de LSTM e Deep LSTM utilizam a gradiente do erro calculado
com a combinação de RTRL (Real Time Recurrent Learning) e BPTT (Backpropagation
Throught Time). O Backpropagation é truncado após uma iteração porque noto-se que as
longas dependências seria tratadas pelos blocos de memoria e não pela gradiente de retro
propagação. Um analise detalhado no calculo da gradiente pode ser encontrado em [20]
e [21].
6. Restricted Boltzmann Machine (RBM)
6.1. Introdução
Uma RBM é um caso especial de uma Bolltzmann Machine (BM) sem conexões entre
neurônios da mesma camada. O modelo de uma RBM é uma rede neural de duas camadas:
oculta e vis´ıvel, com uma sinapses não direcionada. Utiliza variáveis latentes (geralmente
binário) para modelar a distribuição de uma entrada. Smolensky [22], inventou a RBM e
deu um primeiro nome de Harmonium, posteriormente começo ser popular quando Hin-
ton [23] invento o algoritmo de aprendizagem rápido para Deep Belief Networks. RBM
tem sido usada como modelo gerador de varias tipos de dados como janelas de coeficien-
tes cepstrais de freqüência Mel que representam a fala, bolsas de palavras que representam
documentos e avaliações de filmes pelo usuário . Seu uso mais importante é como modulo
de aprendizagem para construir uma Deep Belief Networks. A rede RBM geralmente são
treinados utilizando o procedimento de aprendizagem divergência contrastive [24].
6.2. Modelo de uma RBM
RBM está composto por 2 camadas: a camada vis´ıvel e camada oculta representada na
Figura 19 por neurônios chamados unidades binarias estocásticas. Na camada vis´ıvel, se
encontra as entradas binarias as quais são ligadas com feature detectors binários utilizando
pesos de conexão.
19

Figura 19. Rede Neural RBM
É chamado camada vis´ıvel porque são observados pelos feature detector que se
encontram na camada oculta. As duas camadas são representadas pelas vetores aleatórios
v (vis´ıvel) e h (oculta), onde a configuração conjunta (v, h) definida pela distribuição de
Gibbs tem uma energia dada por:
E(v,h) = −
i∈vis´ıvel
aivi −
j∈oculto
bjhj −
i,j
vihjwij (22)
Onde vi e hj são os estados (valores) das unidades binarias estocásticas vis´ıvel i
e oculta j respetivamente. A rede atribui a probabilidade definida na Eq. 23 de todo par
vetor vis´ıvel e oculto (v, h) em função de sua energia conjunta, onde Z é dado pela so-
matória de todos as poss´ıveis pares dos vetores (v, h). Na pratica o valor de Z é intratável.
p(v, h) =
1
Z
e−E(v,h)
, Z =
v,h
e−E(v,h)
(23)
A probabilidade que a rede atribui ao vetor vis´ıvel v, definido na Eq. 24, é dado
pela somatória de todos os poss´ıveis vetores ocultos h.
p(v) =
1
Z h
e−E(v,h)
(24)
A probabilidade que a rede atribui aos dados de entrada de treinamento pode ser
aumentado ajustando os pesos para baixar a energia da configuração da rede e aumentar
a energia de outros dados, em especial aqueles dados que têm baixas energias e, portanto,
fazem uma grande contribuição na p(v). A derivada da probabilidade log do vetor v em
relação a seus pesos pode ser computada como segue na Eq. 25.
∂log(p(v))
∂wij
=< vihj >data − < vihj >model (25)
Onde ”<>”são usados para denotar a Esperança (Expectation) sob a distribuição
especificada pelos ´ındices indicados. Para resolver a equação 25 se utiliza a regra de
aprendizagem (método da gradiente) na equação 26.
∆wij = (< vihj >data − < vihj >model) (26)
20

Para calcular < vihj >data selecionamos aleatoriamente um dado binário de en-
trada v e calculamos o valor de h dada a probabilidade do neurônio na equação 27.
p(hj = 1|v) = σ(bj +
i
viwij) (27)
Onde σ(x) é a função log´ıstica sigmoide 1/(1+exp(−x)). Assim tendo o valor de
h, como a rede e bidirecional podemos realizar o processo de reconstrução de v passando
pela função de probabilidade do neurônio.
p(vi = 1|h) = σ(bi +
i
hjwij) (28)
Porem, calcular o valor de < vihj >data é mais complicado. Precisa-se inici-
ando um estado aleatório e alternar amostragem de Gibbs por um longo per´ıodo. Uma
iteração de alternar amostragem de Gibbs consiste em atualizar todas as unidades ocultas
em paralelo utilizando a equação 27, logo atualizar todas as unidades vis´ıveis em paralelo
utilizando a equação 28, este método é chamado de Divergência Contrastiva.
6.3. Divergência Contrastiva e Treinamento
Hinton [25] apresento um método Divergencia Contrastiva (DC), que minimiza uma
função que aproximadamente segue à gradiente da diferença entre duas divergências
Kullback-Leibler, mas ignora um termo complicado nesta função objectivo por isso não
é exatamente essa gradiente . Com efeito, Sutskever e Tielemen demonstraram que não
segue a gradiente de nenhuma função [26]. No entanto, tem funcionado com sucesso em
muitas aplicações significativas. Na Figura 20 se representa o método DC iterando ate
chegar a calcular < vihj >modelo.
Figura 20. Divergência Contrastiva
Uma processo de aprendizagem muito mais rápido foi proposto por ????. Limi-
tando a equação a um número aceitável de iterações mostrado na equação 29. Algumas
literaturas propor um número de iterações (DC-k) onde k=1 ou um número aceitável com-
putacionalmente, sendo quando k aumenta a aproximação da gradiente da probabilidade
dos dados de treinamento, mais aumenta seu custo computacional.
21

∆wij = (< vihj >data − < vihj >recon) (29)
Basicamente é uma versão simplificada da regra de aprendizagem em 26. O al-
goritmo trabalha vem mesmo que aproxima vagamente a gradiente da probabilidade log
dos dados de treinamento. O passos do algoritmo de treinamento de uma RBM pode-se
simplificar em:
1. Para cada mostra de treinamento v(t)
na camada vis´ıvel
(a) Gerar < vihj >recon utilizando k iterações de amostras de Gibbs,
començando em v(t)
(DC).
(b) Atualizar os parâmetros.
∆wij = (< vihj >data − < vihj >recon) (30)
2. Retornar para (1) até o critério de parada.
Existem variações do método de divergência contrastiva, por exemplo para DC-k
a divergência contrastiva persistente que basicamente mantem o ultimo estado de vi e hi
de < vihj >modelo e armazena o valor para inicializar a DC na seguinte iteração após da
atualização os parâmetros da rede.
7. Deep Belief Networks (DBN)
7.1. Introdução
Uma RBM está limitado nos dados que ele pode representar. Seu verdadeiro poder apa-
rece quando são estruturados concatenadamente formando uma Deep Belief Network.
DBN é um modelo generativo probabil´ıstico formado por varias camadas de variáveis la-
tentes estocásticas [27]. Seu objetivo é aprender n´ıveis mais abstratos representação da
distribuição dos dados de entrada. Neste trabalho São apresentados 3 métodos de apren-
dizagem: Algoritmo wake-sleep’, ’Greedily Training’, e ’Up-Down’ ( um hibrido dos 2
primeiros algoritmos).
7.2. Modelo de uma DBM
Numa DBN, cada camada compreende um conjunto de entradas binarias ou reais. Na
Figura 21 o modelo de DBN está composta por 1 camada vis´ıvel e 3 camadas ocultas.
As duas camadas superiores da DBN com distribuição p(h(2)
, h(3)
) formam uma RBM
com conexões não direcionadas, as camadas inferiores são chamadas de Sigmoid Belief
Networks (SBN) dado que são conexões direcionadas. DBN pode ser considera como
uma estrutura de simples módulos de aprendizagem RBM, que contem uma camada de
unidades vis´ıvel que representam os dados, e uma camada de unidades oculta que apren-
dem a representações (features) que capturam uma correlações de ordem superior dos
dados. Na Figura ?? as camadas SBN tem pesos direcionados,de reconhecimento (ver-
melho) e generativos (verde).
22

Figura 21. Rede Deeb Belief Networks
As probabilidades condicionais das camadas ocultas na direção h(2)
→ h(1)
e
h(1)
→ dados são definidas na Eq. 31 e Eq. 32.
p(h
(1)
j = 1|h(2)
) = σ(b(1)
+ (W(2)
) h(2)
) (31)
p(vi = 1|h(1)
) = σ(b(0)
+ (W(1)
) h(1)
) (32)
As equações das probabilidades das unidades binarias estocásticas e da configuração do
sistema de uma RBM se podem generalizar para modelar uma DBM. A Figura 21 mostra
uma estrutura de DBN modelado na equação (Eq. 33).
p(v, h(1)
, h(2)
, h(3)
) = p(h(2)
, h(3)
)p(h(1)
|h(2)
)p(v|h(1)
) (33)
p(v, h(1)
, h(2)
, h(3)
) ∝ e−E
= e(h(2)W(3)h(3)+(b(2)) h(2)+(b(3)) h(3))
(34)
Onde a distribuição de p(v, h(1)
, h(2)
, h(3)
) dada pela energia da configuração, se
mostra na Eq. 34. As probabilidades condicionais p(h(1)
|h(2)
) e p(v|h(1)
) é igual ao
produto da probabilidade condicional de cada unidade estocástica do vetor h(1)
e v.
p(h(1)
|h(2)
) =
j
p(h
(1)
j |h(2)
) (35)
p(v|h(1)
) =
i
p(vi|h(1)
) (36)
7.3. Algoritmos de aprendizagem
7.3.1. Wake - Sleep
Nas camadas SBN na Figura 31, é fácil melhorar os pesos generativos se a rede já tem
um bom conjunto de pesos de reconhecimento. Para cada vetor de dados de treinamento
23

os pesos de reconhecimento (wij)reco são usados em propagação bottom-up e estocasti-
camente selecionamos os estados binários de cada unidade oculta. Aplicando a regra de
aprendizagem da Eq. 37, seguira a gradiente de uma variacional ligado a quão bem a rede
gera os dados de treinamento [28]. É uma simples regra de aprendizagem aproximada
que funciona bem na pratica.
∆(wij)reco ∝ hj(hi − ˆhi) (37)
Agora, se começamos a gerar valores desde o modelo utilizando os pesos generativos num
pase Top-down, se conhece os valores verdadeiros em cada camada, então se pode compa-
rar os valores reais com os estimados pelo gerador, e ajustar os pesos de reconhecimento
(wij)gen, para maximizar a probabilidade que o preditor este certo Eq. 38.
∆(wij)gen ∝ hi(hj − σ(
i
hi(wij)gen)) (38)
7.3.2. Greedily Layer-Wise Training
DBN são treinados uma camada por vez, tratando os valores das variáveis latentes de uma
camada (que foram inferidos pela entrada de dados) como os dados para treinar a camada
seguinte.
Hinton [23] propor um método eficiente para treinar uma Deep Belief Network,
chamado Greedily Layer-Wise Training, mostrando que se as ativações da camada oculta
produzidas a partir dos dados de treinamento são tratadas como dados de treinamento para
a próxima RBM (seguinte par conjunto de camadas) melhora a variação do limite inferior
da probabilidade dos dados de treinamento sob o modelo composto. Este processo funci-
ona bem na pratica. Posteriormente se pode realizar um ajuste fino dos pesos resultantes
utilizando o método da gradiente descendente.
Os passos do algoritmo são apresentados:
1. Treinar a primeira camada oculta (camada de carater´ısticas) que recebe direta-
mente os dados de entrada. Considerar uma RBM entre a camada de entrada (v) e
a primeira camada oculta (h(1)
). Nesta RBM a maximização da probabilidade da
variave v está dada por:
p(v) =
h(1)
p(v|h(1)
) (39)
2. Tratar a ativação de h(1)
como se for a entrada para a RBM entre as camadas
ocultas h(1)
e h(2)
.Dado que os pesos W(1)
treinados na primeira camada ficam
fixos a função de probabilidade que sera maximizada nesta RBM é:
p(v, h(1)
) = p(v|h(1)
)
h(2)
p(h(1)
, h(2)
) (40)
3. O treinamento como RBM para as camadas inferiores são só para inicializar os
pesos. As camadas não só bidirecionais. A camada superior sim é uma RBM que
utiliza ativação da camada h(2)
para gerar amostras de Gibbs.
p(h(1)
, h(2)
) = p(h(1)|h(2)
)
h(3)
p(h(2)
, h(3)
) (41)
24

7.3.3. Up-Down
Algumas carater´ısticas importantes deste algoritmo:
• Utiliza o algoritmo Greedily Training que pode encontrar uns bons conjuntos de
parâmetros rapidamente.
• O aprendizagem é não supervisionado mas pode-se colocar classes a cada lado
do modulo superior de RBM para criar um modelo que gere ambas a classe e os
dados.
• O algoritmo de aprendizagem é local: ajuste dos pesos depende só dos estados de
entrada e saida.
• A comunicação é simples: neurônio só precisam comunicar seus estados binários
estocásticos.
O algoritmo Greedily Training é uma forma relativamente rápida e eficaz de aprender os
pesos da DBN, mas não garante necessariamente pesos de alta qualidade.Parar obter me-
lhores pesos foi proposto o método ”up-down”; que é uma versão contrastiva do método
”wake-sleep”mas sem algumas das desvantagens. A ideia é que, depois de pesos foram
aprendidas de tal maneira que as unidades estocásticas na sa´ıda de cada camada deve-
se aproximar com uma distribuição fatorial dos valores da camada anterior. Os pesos
ascendentes de reconhecimento (cor vermelho na Figura 22) estão liberados dos pesos
descendentes geradores (cor verde na Figura 22). Em seguida, os pesos de n´ıvel mais alto
podem ser utilizados para influenciar a os de n´ıvel mais baixo.
Cada ”up-pass”consiste em usar os pesos de reconhecimento para escolher esto-
casticamente estados para cada variável oculta, e depois ajustar os pesos geradores com a
regra de aprendizagem Eq. 37.
O ”down-pass”é semelhante na medida em que itera através das camadas e ajuste
de peso, embora a iteração começa nas camadas superiores e se propaga ao longo das
conexões geradoras de cima para baixo, e os pesos de reconhecimento são modificados
de baixo para cima com a regra de aprendizagem Eq. 38.
Figura 22. Camada h(2)
- h(3)
da DBN
25

Na Figura 22 se mostra o modelo de um classificador utilizado para reconhe-
cimento de d´ıgitos realizado por Hinton, o modelo treinado pode-ser testado no site
http://www.cs.toronto.edu/ hinton/adi/index.htm.
8. Stacked Autoencoders
8.1. Modelo do Stacked Autoencoders
Os Stacked Autoencoders são outro tipo de estrutura em base a módulos de RBM, os quais
são muito utilizados em redução da dimensão não lineal para dados de alta dimensão [29].
Stacked Autoencoders são uma rede neural com uma pequena camada na intermediaria
que divide à rede en 2 partes simétricas na estrutura das camadas: Encoder-Decoder. A
parte do Encoder são blocos de RBM que vão reduzindo o número de neurônios em cada
camada até chegar à camada central (de menor dimensão em toda a rede).
Figura 23. Rede Neural Autoencoder
8.2. Treinamento
Cada bloco é treinado como uma RBM calculando os valores dos pesos W em cada ca-
mada. Ao chegar a camada central, se cria o Decoder desenrolando as camadas do Enco-
der e utilizando a transposta dos pesos do Encoder W como os novos pesos das camas do
Decoder. Finalmente, o método da gradiente descendente pode ser utilizado para afinar
os pesos [30]. Na Figura 23 se pode observar um exemplo de compressor de imagem,
onde uma imagem de dimensão 28x28 pixels é reduzidos até chegar a 30 unidades na ca-
mada centra, posterior mente, a rede tem que reconstruir a imagem com essas 30 unidades
lineais [29].
26

Referências
[1] Jürgen Schmidhuber. Deep learning in neural networks: An overview. Neural Networks,
61:85–117, 2015.
[2] Yann LeCun and M Ranzato. Deep learning tutorial. In Tutorials in International Confe-
rence on Machine Learning (ICML’13). Citeseer, 2013.
[3] Yoshua Bengio, Pascal Lamblin, Dan Popovici, Hugo Larochelle, et al. Greedy layer-
wise training of deep networks. Advances in neural information processing systems,
19:153, 2007.
[4] Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan
Catanzaro, and Evan Shelhamer. cudnn: Efficient primitives for deep learning. arXiv
preprint arXiv:1410.0759, 2014.
[5] Richard Lippmann. An introduction to computing with neural nets. IEEE Assp magazine,
4(2):4–22, 1987.
[6] G Gybenko. Approximation by superposition of sigmoidal functions. Mathematics of
Control, Signals and Systems, 2(4):303–314, 1989.
[7] Eric J Humphrey, Juan P Bello, and Yann LeCun. Feature learning and deep architectures:
new directions for music informatics. Journal of Intelligent Information Systems,
41(3):461–481, 2013.
[8] Yoshua Bengio, Yann LeCun, et al. Scaling learning algorithms towards ai. Large-scale
kernel machines, 34(5), 2007.
[9] Simon J Thorpe and Michèle Fabre-Thorpe. Seeking categories in the brain. Science,
291(5502):260–263, 2001.
[10] Yoshua Bengio, Aaron Courville, and Pascal Vincent. Representation learning: A review
and new perspectives. IEEE transactions on pattern analysis and machine intelli-
gence, 35(8):1798–1828, 2013.
[11] Moataz El Ayadi, Mohamed S Kamel, and Fakhri Karray. Survey on speech emotion
recognition: Features, classification schemes, and databases. Pattern Recognition,
44(3):572–587, 2011.
[12] Kristen Grauman and Bastian Leibe. Visual object recognition. Synthesis lectures on
artificial intelligence and machine learning, 5(2):1–181, 2011.
[13] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. Nature,
521(7553):436–444, 2015.
[14] David H Hubel and Torsten N Wiesel. Receptive fields, binocular interaction and functi-
onal architecture in the cat’s visual cortex. The Journal of physiology, 160(1):106–
154, 1962.
[15] Kunihiko Fukushima. Neural network model for a mechanism of pattern recognition
unaffected by shift in position- neocognitron. ELECTRON. & COMMUN. JAPAN,
62(10):11–18, 1979.
[16] B Boser Le Cun, John S Denker, D Henderson, Richard E Howard, W Hubbard, and
Lawrence D Jackel. Handwritten digit recognition with a back-propagation network.
In Advances in neural information processing systems. Citeseer, 1990.
27

[17] Juyang Weng, Narendra Ahuja, and Thomas S Huang. Cresceptron: a self-organizing
neural network which grows adaptively. In Neural Networks, 1992. IJCNN., Inter-
national Joint Conference on, volume 1, pages 576–581. IEEE, 1992.
[18] Kumar Chellapilla, Sidd Puri, and Patrice Simard. High performance convolutional neural
networks for document processing. In Tenth International Workshop on Frontiers in
Handwriting Recognition. Suvisoft, 2006.
[19] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. Speech recognition with
deep recurrent neural networks. In 2013 IEEE international conference on acoustics,
speech and signal processing, pages 6645–6649. IEEE, 2013.
[20] Alex Graves and Jürgen Schmidhuber. Framewise phoneme classification with bidirecti-
onal lstm and other neural network architectures. Neural Networks, 18(5):602–610,
2005.
[21] Felix A Gers, Nicol N Schraudolph, and Jürgen Schmidhuber. Learning precise timing
with lstm recurrent networks. Journal of machine learning research, 3(Aug):115–
143, 2002.
[22] Paul Smolensky. Information processing in dynamical systems: Foundations of harmony
theory. Technical report, DTIC Document, 1986.
[23] Geoffrey E Hinton, Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for
deep belief nets. Neural computation, 18(7):1527–1554, 2006.
[24] Geoffrey Hinton. A practical guide to training restricted boltzmann machines. Momen-
tum, 9(1):926, 2010.
[25] Geoffrey E Hinton. Training products of experts by minimizing contrastive divergence.
Neural computation, 14(8):1771–1800, 2002.
[26] Ilya Sutskever and Tijmen Tieleman. On the convergence properties of contrastive diver-
gence. In AISTATS, volume 9, pages 789–795, 2010.
[27] Geoffrey E Hinton. Deep belief networks. Scholarpedia, 4(5):5947, 2009.
[28] Geoffrey E Hinton. Learning multiple layers of representation. Trends in cognitive scien-
ces, 11(10):428–434, 2007.
[29] Geoffrey Hinton. Deep belief nets. In Encyclopedia of Machine Learning, pages 267–
269. Springer, 2011.
[30] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing the dimensionality of data
with neural networks. Science, 313(5786):504–507, 2006.
28

Introdução a Deep Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Introdução a Deep Learning

Semelhante a Introdução a Deep Learning (20)

Último

Último (8)

Introdução a Deep Learning