Redes Neurais Recorrentes para Processamento de Sinais

Visitando a literatura em Redes Neurais
Recorrentes
Mestrado – ECOMP
Diógenes Ricardo Freitas de Oliveira
drfo@ecomp.poli.br

Roteiro
• Introdução
– Redes Neurais
– Redes Recorrentes
– Recorrente Bidirecionais
• Long Short Term Memory
– Framewise Phoneme Classification
– Hidden Markov Model Hybrids
• Multidimensional Recurrent Neural Networks
• Nossa proposta.

Introdução
• Redes Neurais.
– Redes feedforward (MLP - (1988));
– Redes Recorrentes (Reservoir computing, MLP, LSTM, etc);

Redes Recorrentes (1990)
• Inspirada nas NN para dados sequenciais. Uma vez que são
sensíveis ao contexto anterior. (Como?)
• Mais robustos a deformações no tempo do que NN não
recursivas.(Por que?)
• Por exemplo, no reconhecimento de face o
sistema deve ser robusto para atender diferenças
De perspectivas e distancias

Redes Recorrentes (1990)
• Vantagem
– Uma MLP limita-se a mapear vetores de entrada em vetores de saída
enquanto uma RNN é capaz de usar toda a história de entradas
passadas para fazer o mapeamento para saída.
– Mais fáceis de implementar
• Menos camadas;
• Menos interações

Redes Recorrentes
• Funcionamento
– Quanto ao treinamento as RNN possuem assim como NN os
algoritmos de forward e backward, no caso do backpropagation.

Redes Recorrentes Bidirecionais (1997)

Redes Recorrentes Bidirecionais (1997)
• Vantagens
– Utilizada com sucesso em predição de estrutura de proteínas (Baldi et al.,
2001; Chen and Chaudhari,2004), processamento de fala (Schuster, 1999;
Fukada et al., 1999).
– Graves (2008) com rotulamento de sequências de tarefas do mundo real,
como escrita e os modelos de linguagem para reconhecimento de fala.
– Domina a área de bioinformática.
• Desvantagens
– Domínios onde há casualidades, por exemplo, predição financeira,
navegação de robôs.

Redes Recorrentes Bidirecionais
• Conclusão
• Um Modelo Oculto de Markov com processo de Redes Neurais
pra distribuir os pesos/probabilidades.
• O problema é que o efeito de um dado de entrada na camada
escondida, e por conseguinte, a saída da rede, ou decaimentos
ou funde-se exponencialmente, uma vez que os ciclos de
repetição em ligações da rede

Redes Recorrentes Bidirecionais

Redes LSTM (1997)
• Tutorial http://www.idsia.ch/~juergen/lstm/
• O que é?
– Uma rede "inteligente", que pode se lembrar de um valor por um
período arbitrário de tempo. Um bloco LSTM contém portões que
determinam quando a entrada é significativo o suficiente para se
lembrar, quando se deve continuar a lembrar ou esquecer o valor, e
quando deve exibir o valor.

Redes LSTM
• Vantagem: Informação contextual.
• O range das informações contextuais são limitados, ou seja, o
conhecido problema da dissipação do gradiente (vanishing
gradient problem)
• Falha para encontrar as dependências de longo prazo.

Redes LSTM
• Activation of the Input Gate
• Um portão de entrada é introduzido para proteger o conteúdo
da memória de perturbações irrelevantes

Redes LSTM
• Activation of the Output Gate
• Um portão de saída é introduzido para proteger outras
unidades de conteúdo irrelevante da memória.
Ruído

Redes LSTM
• No ano 2001 foi adaptada surgindo um novo “portão”
• Problema:
– Quando os dados de treinamento eram grandes ou contínuos,
obrigando a dividir os dados para um treinamento apropriado.
– Normalmente em séries temporais.

Redes LSTM
• A arquitetura LSTM consiste de um conjunto de sub-redes
conectadas recorrentemente.

Redes LSTM – Aplicações
• Robot control[6]
• Time series prediction[7]
• Speech recognition[8][9]
• Rhythm learning[10]
• Music composition[11]
• Grammar learning[12][13][14]
• Handwriting recognition[15][16]
• Human action recognition[17]
• Protein Homology Detection[18]

Gostei dessa rede! E agora?
• Alex Graves - Rnnlib

Framewise Phoneme Classification
• O problema de dissipação de gradiente afeta diretamente a
longo prazo as dependencias entre os fonemas.
• RNN tradicionais não estão capazes de descobrir as
probabilidades das sequencias das palavras
• Mesmo em curto prazo, as deformações naturais dos fonemas
acabavam atrapalhando os limites.
• LSTM procura resolver esses problemas que RNNs tradicionais
enfrentam.

• A LSTM RNN mapeia todos os frames de um sinal de voz acústico
em um conjunto fonemas.
• O treinamento envolve o uso de um conjunto de dados de
rotulados.
• Dois RNNs LSTM são usadas:
– Estima-se a probabilidade de um fonema de nível frame,
– Calcula-se um mapeamento das previsões dos fonemas em palavras, ou
seja, quando a rede é treinada, prevê sequências de palavras a partir de
sequências de telefones que foram obtidos a partir da primeira rede.

Hidden Markov Model Hybrids
• Boa parte dos modelos híbridos são com MLP.
• A idéia básica é usar HMM para modelar a estrutura de longos range
seqüencias dos dados e redes neurais para fornecer classificações
localizadas.

Multidimensional Recurrent Neural Networks
• RNN são eficazes para atividades de aprendizagem de tarefas que
onde os dados estão fortemente correlacionados em uma
dimensão, normalmente o tempo, no entanto, são pouco
adaptadas aos dados multidimensionais.
• Propostas são levantadas com HMM multidimensionais
– Aumento do custo computacional com o Algoritmo de Viterbi
– As probabilidades de transição crescer exponencialmente com as
dimensões
– Algumas propostas também abordam essas limitações, mas que acabam
não explorando a multidimensionalidade completa dos dados

• Como assim multidimensional?
• Por exemplo, uma imagem binaria é uma sequência
bidimensional, um vídeo é uma sequência de três dimensões, e
uma série de exames cerebrais de ressonância magnética é
uma sequência quadridimensional.

• Uma diferença dessa abordagem é que ao invés de uma única
conexão recorrente, existem tantas ligações recorrentes
quanto existe dimensões nos dados.

Vou ter que implementar isso?
Eu fiz e tá na net, pode
pegar, usar, modificar,
fique a vontade, mas é
GNU General Public
License

Nossa proposta
Extração de Características Modelo Acústico
Modelo de Linguagem
Sistema de
combinação
Sinal da fala Sequência
de palavras
Sistema LVCSR

Nossa proposta
– Modelo acústico
– A palavra “cela” e “sela” terão o mesmo valor (e agora?)
P(Palavras|Sinal)

Nossa proposta
• Modelo de linguagem
P(Palavras)
• A probabilidade acima é chamado de modelo de linguagem,
nele especifica-se a probabilidade a priori de encontrar uma
determinada palavra
• Com esse modelo definimos que “cela trancada” é mais
provável que “sela trancada”.

Nossa proposta
• É utilizar modelos de RNN bidirecionais, para classificar os
fonemas, uma vez que o treinamento destas redes não mais
rápidos e tem se mostrado mais eficazes na distribuição dos
pesos na rede.

Referências
[7] H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural
Networks. Advanced Robotics, 22/13–14, pp. 1521–1537, 2008.
[8] J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th
International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853–858, 2005.
[9] A. Graves and J. Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks 18:5–6,
pp. 602–610, 2005.
[10] S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural
Networks ICANN'07, 2007.
[11] F. Gers, N. Schraudolph, J. Schmidhuber. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3:115–143, 2002.
[12] D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks
ICANN'02, Madrid, pages 284–289, Springer, Berlin, 2002.
[13] J. Schmidhuber, F. Gers, D. Eck. J. Schmidhuber, F. Gers, D. Eck. Learning nonregular languages: A comparison of simple recurrent networks and LSTM.
Neural Computation 14(9):2039–2041, 2002.
[14] F. A. Gers and J. Schmidhuber. LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks
12(6):1333–1340, 2001.
[15] J. A. Perez-Ortiz, F. A. Gers, D. Eck, J. Schmidhuber. Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets.
Neural Networks 16(2):241–250, 2003.
[16] A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing
Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009.
[17] A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in
Neural Information Processing Systems 21, NIPS'21, pp 577–584, 2008, MIT Press, Cambridge, MA, 2008.
[18] M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human
Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29–39. Lecture Notes in Computer Science 7065. Springer. 2011
[19] S. Hochreiter, M. Heusel and K. Obermayer. Fast model-based protein homology detection without alignment. Bioinformatics, 23 (14): 1728–1736, 2007.

Redes Neurais Recorrentes para Processamento de Sinais

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (14)

Semelhante a Redes Neurais Recorrentes para Processamento de Sinais

Semelhante a Redes Neurais Recorrentes para Processamento de Sinais (20)

Mais de Diogenes Freitas

Mais de Diogenes Freitas (12)

Redes Neurais Recorrentes para Processamento de Sinais

Notas do Editor