Juan Gabriel ColonnaOrientador: Eduardo F. NakamuraCo-orientadora: Eulanda M. dos Santos                Uma Abordagem Para...
Uma Abordagem Para Classificação de     Anuros Baseada em Vocalizações• Por que anuros e Ciência da Computação?• Qual é a ...
Introdução - Motivação Ambiental• O estudo das condições ambientais é de interesse social para   • manter a qualidade de v...
Introdução - Motivação Ambiental• As mudanças em populações de anfíbios se relacionam com poluição,  desmatamento, urbaniz...
Introdução - Motivação Ambiental• Desta forma, monitorar e classificar anuros é uma ferramenta  importante para preservar ...
Introdução - Contexto• A tarefa de monitoramento de anuros, implica no desafio de  desenvolver um método que não precise i...
Introdução - Cenários                        Vantagens                DesvantagensI                  • Permite recuperar o...
Introdução - Objetivos      Classificar espécies de anuros das florestas tropicais      baseando-se nas vocalizações.*Nest...
Introdução – Objetivos Específicos•   Espectros de frequências.•   Extrair e selecionar as características.•   Definir a t...
Trabalhos RelacionadosAutor                  Animal          Características    Classificador   Resultados   RSSFTaylor et...
Os problemas identificados nos trabalhos1)   Métodos desenvolvidos de forma isolada e projetados para cada     espécie.2) ...
Modelo            Figura: Parametrização das vocalizações.  Figura: Sistema geral de reconhecimento de fala humana, figura...
Nossa abordagem                  13
Espécies e vocalizações                          14
Espécies e vocalizaçõesEspécie                          Banda de            Pitch   Std (ms)                              ...
Descrição do pré-processamento1) Segmentação    2) Pré-ênfase      3) Janelamento                                         ...
Considerações do pré-processamento                                             SílabasEspécie                  Indivíduos ...
Obtenção das características          Figura: Extração das características.                                               ...
Obtenção das características• Transformada discreta de Fourier (DFT).                     O(N2) [Duhamel & Vetterli, 1990]...
Obtenção das características• A transformada Wavelet contínua (CWT).           [Morettin, 1999]                           ...
Obtenção das características• Mel-frequency cepstral coefficient (MFCCs).                        [Rabiner & Schafer, 2007]...
Resumo das características                   Ordem de       Custo Características                   complexidade   computa...
Métodos          23
Comparação entre características        temporais e espectrais• IG representa a quantidade de informação que o atributo Y ...
Comparação entre características        temporais e espectrais• IG representa a quantidade de informação que o atributo Y ...
Comparação entre características        temporais e espectrais• IG representa a quantidade de informação que o atributo Y ...
Comparação entre característicastemporais e espectrais                                           k-NN       Característica...
Comparação entre características        temporais e espectrais   Matriz de confusão                                       ...
Estudo de casoPara simular uma situação real quantizamos os áudios uniformemente em 256 níveis (8bits) e diminuímos a fs a...
Estudo de caso     fs = 44,1kHz   fs = 11kHz      fs = 8kHz     fs = 5,5kHz   30
Comparação entre características       Conclusões•   Os MFCCs possuem baixo custo e elevada taxa de acerto.•   Os MFCCs ma...
Comparação entre MFCCs e Wavelet1. Extração das características formando dois grupos e geração das   bases de dados para o...
Comparação entre MFCCs e Wavelet                                                            k-NN     Características      ...
Comparação entre MFCCs e Wavelet• Vetor de características Wavelet:                      d     d      d     d      a     a...
Comparação entre MFCCs e Wavelet                    Classificação   Cruzamento 50%        Taxa de      Cruzamento 60%     ...
Estudo de caso entre MFCCs e Wavelet     fs = 44,1kHz          fs = 11kHz     fs = 8kHz              fs = 5,5kHz   36
Reconhecimento de grupo• Amostragem estratificada E0=0,05           1                N   n0           L       n     n0    ...
Reconhecimento de grupo• Combinações: duas espécies 36 novas classes; e três espécies 84 novas  classes                   ...
Conclusões• Da comparação dos quatro métodos de extração de  características, provenientes da literatura, indicamos como m...
Publicações e trabalhos futuros• Os resultados das comparações entre características temporais e espectrais  foram publica...
Perguntas?             Agradecimentos                              41
Próximos SlideShares
Carregando em…5
×

UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES

412 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
412
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES

  1. 1. Juan Gabriel ColonnaOrientador: Eduardo F. NakamuraCo-orientadora: Eulanda M. dos Santos Uma Abordagem Para Classificação de Anuros Baseada em VocalizaçõesInstituto de Computação (IComp)Universidade Federal do Amazonas (UFAM)
  2. 2. Uma Abordagem Para Classificação de Anuros Baseada em Vocalizações• Por que anuros e Ciência da Computação?• Qual é a relação entre RSSF, aprendizagem de máquina e anuros?• Qual é a abordagem proposta?• Que conclusões obtivemos? 2
  3. 3. Introdução - Motivação Ambiental• O estudo das condições ambientais é de interesse social para • manter a qualidade de vida, e • para conservar as espécies.• A perda das espécies é um processo irreversível.• A variação das populações das espécies possibilita: • Avaliar problemas ecológicos em estágios iniciais. • Estabelecer estratégias de conservação da diversidade biológica. 3
  4. 4. Introdução - Motivação Ambiental• As mudanças em populações de anfíbios se relacionam com poluição, desmatamento, urbanização, etc.• Os anuros podem ser usados como indicadores para detectar estresse ecológico.• Relação intima com o ecossistema. Figura: Porcentagem de espécies ameaçadas na lista vermelha. Figura adaptada de [Stuart et al., 2004]. 4
  5. 5. Introdução - Motivação Ambiental• Desta forma, monitorar e classificar anuros é uma ferramenta importante para preservar as espécies e cuidar de nossa qualidade de vida. Figura: Densidade global da biodiversidade de espécies de anfíbios. 5
  6. 6. Introdução - Contexto• A tarefa de monitoramento de anuros, implica no desafio de desenvolver um método que não precise intervenção humana.• Atualmente, o processo é realizado de forma manual. • Muito tempo, dependendo da quantidade de amostras necessárias • Fica sujeita à experiência da pessoa que realiza esta tarefa. Como melhorar o método de monitoramento? 6
  7. 7. Introdução - Cenários Vantagens DesvantagensI • Permite recuperar o • Elevada memória de áudio. armazenamento. • Baixo custo de • Elevado custo de processamento. transmissão.II • Redução de informação • Eleva o processamento. 98,86% • Não é possível recuperar • Diminui o custo de o áudio. transmissão. • Confunde ruídos de • Poupa memória. outras espécies.III • Redução de informação • Eleva ainda mais 99,98% processamento. • Diminui o custo de • Não é possível recuperar transmissão. o áudio. • Poupa memória. • Confunde ruídos de outras espécies.
  8. 8. Introdução - Objetivos Classificar espécies de anuros das florestas tropicais baseando-se nas vocalizações.*Neste trabalho: II• definimos a abordagem• combinando as características• junto com técnicas de aprendizagem de máquina• maximizar a relação custo-benefício. * Consideração: Restrições do hardware. 8
  9. 9. Introdução – Objetivos Específicos• Espectros de frequências.• Extrair e selecionar as características.• Definir a técnica de classificação.• Obter o conjunto mínimo de características.• Obter o custo de processamento das características.• Correlacionar o custo de processamento e taxa de acerto.• Identificar uma ou mais espécies. 9
  10. 10. Trabalhos RelacionadosAutor Animal Características Classificador Resultados RSSFTaylor et al. [1996] Bufo marinus Spectrograma C4.5 60% NãoHu et al. [2005] Bufo marinus Spectrograma C4.5 60% SimYen & Fu [2002]* 4 anuros Wavelet MLP 71% Não Fisher’sClemins [2005] Elefantes MFCCs HMM 69% Não PLP DTW 73%Cai et al. [2007] 14 pássaros MFCCs ANN 81% - 86% SimHuang et al. [2009]* 5 anuros S - B - ZC k-NN 83% - 100% Não SVM 82% - 100%Vaca-Castaño & 10 pássaros MFCCs k-NN 86% SimRodriguez [2010]* 20 anuros PCA 91%Han et al. [2011]* 9 anuros S - Hs - Hr k-NN 83% - 100% Não* Trabalhos implementados e utilizados nas comparações. 10
  11. 11. Os problemas identificados nos trabalhos1) Métodos desenvolvidos de forma isolada e projetados para cada espécie.2) Cada método utiliza características e técnicas de classificação diferentes.3) Estudo comparativo extremamente difícil.4) Carência de um método padrão.5) Não existe análise do impacto de custo em RSSF. 11
  12. 12. Modelo Figura: Parametrização das vocalizações. Figura: Sistema geral de reconhecimento de fala humana, figura adaptada de Campbell [1997]. 12
  13. 13. Nossa abordagem 13
  14. 14. Espécies e vocalizações 14
  15. 15. Espécies e vocalizaçõesEspécie Banda de Pitch Std (ms) frequências (kHz)(a) Adenomera andreae 2,10∼3,00 0,511 0,3 4,00∼6,92(b) Ameerega trivittata 2,00∼3,00 0,220 0,1 5,50∼7,00(c) Hyla minuta 1,50∼2,50 0,404 0,1 3,50∼5,00(d) Hypsiboas cinerascens 1,40∼1,80 0,638 0,1 3,00∼3,50(e) Leptodactylus fuscus 1,00∼3,50 0,089 0,1 6,50∼7,74(f) Osteocephalus oophagus 1,50∼3,00 0,914 2,0(g) Rhinella granulosa 1,70∼3,20 0,022 0,2(h) Scinax ruber 1,10∼4,15 0,043 0,01(i) Hylaedactylus 1,50∼2,50 0,466 0,1 3,50∼4,50 * Bandas de frequências sobrepostas. 15
  16. 16. Descrição do pré-processamento1) Segmentação 2) Pré-ênfase 3) Janelamento 16
  17. 17. Considerações do pré-processamento SílabasEspécie Indivíduos 0,4 0,5 0,6Adenomera andreae 8 686 528 442Ameerega trivittata 5 673 572 339Hyla minuta 11 300 261 225Hypsiboas cinerascens 2 3364 3176 2898Leptodactylus fuscus 4 315 252 233Osteocephalus oophagus 4 130 103 84Rhinella granulosa 3 1791 1684 1458Scinax ruber 4 238 193 170Hylaedactylus 8 358 326 249Total 49 7855 7095 6098 17
  18. 18. Obtenção das características Figura: Extração das características. 18
  19. 19. Obtenção das características• Transformada discreta de Fourier (DFT). O(N2) [Duhamel & Vetterli, 1990] N 1 i 2 kn N X k xne ,k 0 ,1 , 2 ,.. N 1 n 0• Transformada rápida de Fourier (FFT). O(N log2N) [Cooley & Tukey,1965] Figura: sílaba da espécie Hylaedactylus Figura: espectro da sílaba 19
  20. 20. Obtenção das características• A transformada Wavelet contínua (CWT). [Morettin, 1999] * (s, ) f (t ) s, ( t ) dt• Transformada Wavelet discreta mediante Lifting Scheme. O(L) [Rein & Reisslein, 2011] Figura: Função Haar Figura: Função Daubechies Figura: Lift Scheme 20
  21. 21. Obtenção das características• Mel-frequency cepstral coefficient (MFCCs). [Rabiner & Schafer, 2007] R f Hz 1 2 1 f mel 1127 ln 1 mfcc m log M r cos r m 700 R r 1 R 2• Pitch. [Peeters, 2004; Plack et al., 2005] 21
  22. 22. Resumo das características Ordem de Custo Características complexidade computacional Pitch O(L) 3L − 1 B O(Nlog(N)) 2M + 2M + Nlog(N) 12 MFCC’s O(Nlog(N)) Nlog(N) + N + mR S O(Nlog(N)) 2M + Nlog(N) H1 O(L) L+i H2 O(L) L+i ZC O(L) L E O(L) L Pw O(L) L 22
  23. 23. Métodos 23
  24. 24. Comparação entre características temporais e espectrais• IG representa a quantidade de informação que o atributo Y fornece para adeterminação da classe X. [Leite et al., 2006] 24
  25. 25. Comparação entre características temporais e espectrais• IG representa a quantidade de informação que o atributo Y fornece para adeterminação da classe X. [Leite et al., 2006] 25
  26. 26. Comparação entre características temporais e espectrais• IG representa a quantidade de informação que o atributo Y fornece para adeterminação da classe X. [Leite et al., 2006] 26
  27. 27. Comparação entre característicastemporais e espectrais k-NN Características 0,4 0,5 0,6 ZCSBEPitchPwH1H2-MFCCs 99,35%(1)* 99,57%(1)* 99,54%(1)* ZCSBEPitchPw-MFCCs 99,27%(1)* 99,47%(1)* 99,45%(1)* ZCSBEPitch-MFCCs 99,26%(1)* 99,52%(1)* 99,49%(1)* ZCSBPitch-MFCCs 99,26%(1)* 99,53%(1)* 99,49%(1)* ZCSBEPitch 93,07%(4) 95,19%(3) 96,08%(1) ZCSBE-MFCCs 99,26%(1)* 99,54%(1)* 99,55%(2)* ZCSB-MFCCs 99,26%(1)* 99,56%(1)* 99,26%(1)* ZCSBE 92,47%(4)* 94,77%(3) 95,40%(1) SH1H2 82,71%(9) 87,02%(11) 87,07%(7) ZCSBPitch 90,69%(6) 93,51%(6)* 94,67%(3) ZCEPPw 79,54%(11) 84,32%(11) 79,54%(11) Pitch-MFCCs 99,22%(1)* 99,37%(1)* 99,22%(1)* ZCSB 88,63%(7) 91,71%(5) 92,85%(3) Pitch 74,18%(1) 77,26%(1) 74,18%(1) ZC-MFCCs 99,24%(1)* 99,45%(1)* 99,24%(1)* E-MFCCs 99,27%(1)* 99,49%(2)* 99,27%(1)* B-MFCCs 99,33%(1)* 99,54%(1)* 99,33%(1)* S-MFCCs 99,21%(1)* 99,42%(1)* 99,21%(1)* MFCCs 99,19%(9)* 99,36%(2)* 99,19%(1)* 27
  28. 28. Comparação entre características temporais e espectrais Matriz de confusão k-NN, k=5 Espécie a b c d e f g h i a 484 34 0 8 1 1 0 0 0 b 10 554 1 0 0 0 4 0 3 c 4 12 191 0 0 0 1 0 53 d 13 0 0 299 1 6 4 2 1 e 3 2 0 3 194 1 30 5 14 f 5 0 0 27 1 60 4 6 0 g 2 18 2 1 7 1 1580 5 68 h 1 7 0 9 8 9 55 95 9 i 1 3 6 5 7 1 95 8 3050Tabela: apresenta a matriz para o conjunto de características ZCSB e alpha 0,5. Pode-seobservar que as espécies mais confundidas são Hylaedactylus com Rhinella granulosa,devido à proximidade entre as características sonoras. 28
  29. 29. Estudo de casoPara simular uma situação real quantizamos os áudios uniformemente em 256 níveis (8bits) e diminuímos a fs a 11kHz, a 8kHz e a 5,5kHz, produzindo uma diminuição naquantidade de informação adquirida pelos sensores de 75%, 81% e 87% . Classificação com k-NN, k = 2 Características 32 bits 8 bits 8 bits 8 bits 44,1 kHz 11 kHz 8 kHz 5,5 kHz ZCSBEPwPitch-MFCCs 99,47% 99,55% 98,83% 97,41% ZCSB-MFCCs 99,56% 99,52% 98,90% 97,31% ZCEPwPitch 84,32% 85,06% 81,04% 85,06% SH1H2 87,02% 83,76% 86,11% 83,76% ZCSB 91,71% 87,81% 89,03% 86,35% MFCCs 99,36% 99,42% 98,51% 99,42% S V max Ruído de quantização: 1, 76 6 , 02 n 20 log 49 dB Nq V 29
  30. 30. Estudo de caso fs = 44,1kHz fs = 11kHz fs = 8kHz fs = 5,5kHz 30
  31. 31. Comparação entre características Conclusões• Os MFCCs possuem baixo custo e elevada taxa de acerto.• Os MFCCs mantém o custo e a taxa de acerto independente do hardware.• MFCCs mais imunes aos ruídos ambientais.• MFCCs imunes ao ruído de quantização.• MFCCs maximizam a relação custo-benefício. 31
  32. 32. Comparação entre MFCCs e Wavelet1. Extração das características formando dois grupos e geração das bases de dados para o classificador;2. Aplicação do algoritmo genético (GA) para selecionar os melhores subconjuntos de características para cada grupo;3. Avaliação do impacto na classificação dos subconjuntos resultantes do GA; e4. Simulação de situações reais, avaliando o impacto da quantização e a frequência de amostragem na taxa de classificação. 32
  33. 33. Comparação entre MFCCs e Wavelet k-NN Características 0,4 0,5 0,6 Características Wavelet 96,35%(3) 97,86%(1) 98,22%(1) Transformada Daubechies Características Wavelet 96,70%(1) 97,90%(1) 98,38%(1) Transformada Haar MFCCs 99,19%(9) 99,36%(2) 99,19%(1) Tabela : Taxa de cclassificação em relação a alpha, usando validação cruzada fold = 10• Do teste Wilcoxon, com nível de significância 95% (α = 0.5), concluímos que os MFCCspossuem melhor desempenho. 33
  34. 34. Comparação entre MFCCs e Wavelet• Vetor de características Wavelet: d d d d a a a a [ P , W E , W Pw , W P , W ZC , W E , W Pw , W P , W ZC ] espécie• Objetivo: determinar o subconjunto ótimo de características aplicando GA. 34
  35. 35. Comparação entre MFCCs e Wavelet Classificação Cruzamento 50% Taxa de Cruzamento 60% Taxa deCaracterísticas antes do GA Mutação 40% classificação Mutação 20% classificação9 características 97,86%(1) 1,2,3,5 93,73% 1,2,3,4,5,6,8,9 96,83%utilizando Db9 características 97,90%(1)* 2,3,4,5,6,8,9 96,47% 1,2,3,4,5,6,7,8,9 97,90%*utilizando Haar 1,2,3,4,5,6,7,8,912 MFCCs 99,36%(2)* 1,2,3,4,5,6,7,11 99,08% 99,33%* 11,12 35
  36. 36. Estudo de caso entre MFCCs e Wavelet fs = 44,1kHz fs = 11kHz fs = 8kHz fs = 5,5kHz 36
  37. 37. Reconhecimento de grupo• Amostragem estratificada E0=0,05 1 N n0 L n n0 , n , s E0 N n0 N Estratos Total de sílabas Amostragem Adenomera andreae 528 28 Ameerega trivittata 572 31 Hyla minuta 261 14 Hypsiboas cinerascens 3176 169 Leptodactylus fuscus 252 13 Osteocephalus oophagus 103 5 Rhinella granulosa 1684 90 Scinax ruber 193 10 Hylaedactylus 326 17 Total 7095 377 37
  38. 38. Reconhecimento de grupo• Combinações: duas espécies 36 novas classes; e três espécies 84 novas classes N! C K !( N K )! Figura: Adenomera andreae - Hyla minuta Figura: Scinax ruber - Hylaedactylus• Resultados utilizando k-NN e os MFCCs: • Duas espécies 77,74% • Três espécies 22,57% 38
  39. 39. Conclusões• Da comparação dos quatro métodos de extração de características, provenientes da literatura, indicamos como melhor escolha os 12 MFCCs.• É possível otimizar os custos utilizando 8 MFCCs, embora o método perca generalidade.• Os MFFCs possuem: • Melhor taxa de acerto; • Custo constante, independente do hardware; e • Imunidade aos ruídos ambientais e de quantização.Nossa contribuição: Framework para classificação de anuros com RSSFUtilizando: Pré-processamento 12 MFCCs k-NN 39
  40. 40. Publicações e trabalhos futuros• Os resultados das comparações entre características temporais e espectrais foram publicadas no III Simpósio Brasileiro de Computação Ubíqua e Pervasiva (SBCUP) (melhor artigo 2º lugar).• Os resultados das comparações entre Wavelet e MFCCs e otimizações dos conjuntos de características foram aceitos para publicação no International Joint Conference on Neural Networks (IJCNN - IEEE).Trabalhos futuros• Aperfeiçoar a técnica de segmentação.• Avaliar o desempenho do método acrescentando mais espécies de anuros ou de outros animais.• Melhorar a abordagem de classificação de grupo de espécies utilizando um classificador multi-nível ou técnicas de separação de áudios.• Utilização com compressive sensing e detecção de eventos em RSSF.• Aplicação real e determinação da densidade populacional em um região específica. 40
  41. 41. Perguntas? Agradecimentos 41

×