SlideShare una empresa de Scribd logo
1 de 34
ANÁLISIS DE LAS PRESTACIONES
DE DISTINTAS TÉCNICAS DE PREPROCESADO
         EN AUDIO FINGERPRINTING


           José Serradilla Arellano
                 Mayo 2007
Índice

• Audio Fingerprinting: Generalidades
• Uso de Audio Fingerprinting para
  Identificación
• El sistema de Philips
• Mejoras propuestas en preprocesado:
  – Filtrado
  – Algoritmo DDA
Generalidades

• Concepto: Firma compacta basada en el
  contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en
  particular no se le añade ninguna información
  adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un
  proceso de “Audio Fingerprinting” es la
  selección de las características a investigar.
Generalidades: Propiedades


• La huella debería ser:

  – Un resumen perceptual de la grabación
  – Invariante a las distorsiones
  – Compacta
  – Fácilmente computable
Generalidades: Modos de Uso




•   Identificación (para lo que se usará en este proyecto)
•   Verificación de la integridad
•   Apoyo al “Watermarking”
•   Recuperación y procesamiento de audio basados en el
    contenido
Generalidades: Aplicaciones


• Monitorización y Seguimiento del contenido de
  audio
• Servicios de valor añadido
• Sistemas de verificación de Integridad

  La mayoría de ellos son casos particulares del
  modo de uso de identificación
Generalidades: Watermarking

• La idea básica consiste en añadir una señal, la marca de agua, a la
  señal original de audio.

• Ambas metodologías tienen muchas aplicaciones en común y
  también muchas específicas de cada una:

   – “audio watermarking” aunque en un principio estaba pensado para
     protección de copyright, también es útil para otros muchos propósitos,
     particularmente para transporte de información de propósito general

   – “audio fingerprinting” se usa sobre todo para identificar señales de
     audio, no solo en aplicaciones de copyright, sino también en
     reconocimiento de anuncios, por ejemplo.
Identificación




• 3 procesos principales
  – Extracción de Huellas
  – Algoritmo de búsqueda de coincidencias.
  – Comprobación de Hipótesis
Identificación: Extracción

             • Dos partes:
                – Front-End: Convierte
                  una señal de audio en
                  una secuencia de
                  características
                  relevantes.
                – Bloque de modelado
                  de huellas: define la
                  representación final de
                  la huella
Id.: Extracción: Front-End

• Distintos bloques, no todos obligatorios:

  –   Preprocesado
  –   Framing & Overlap ( y enventanado)
  –   Tranformaciones lineales: Estimaciones espectrales
  –   Extracción de características
  –   Post-Procesado
Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características
  calculados teniendo en cuenta todas las tramas una por una y
  explota redundancias entre tramas vecinas

• Varias opciones:

   – Huella como resumen de las secuencias de vectores
     multidimensionales de una canción completa (o de una parte de ella) en
     un vector simple.
   – Huella como secuencias de vectores binarios
   – Secuencia de vectores aproximada por un libro de código
   – Huella como secuencias de índices a un conjunto de clases de sonidos
     representativo de una colección de elementos de audio
Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente
  realiza las comparaciones entre el audio y
  millones de huellas
• Fuerza bruta inviable, otras opciones:
  – Pre-computar distancias offline
  – Filtrado de candidatos improbables con una medida
    de similaridad simple
  – Indexado de archivos inverso
  – Reducción de candidatos
  – Otros enfoques
El Sistema de Philips

• Se usarán características no semánticas
• Huella como cadena de unos pocos miles
  de bits
• Segmentación en tramas, cada trama ->
sub-huella
• Bloques de 256 sub-huellas
El Sistema de Philips: Algoritmo

Tramas 0,37 sg
Overlap 31/32
32 bits en 11,6 ms
256x32 en 3 sg.




33 bandas no solapadas              1, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) > 0
                         F (n, m) = 
300 y 2000 Hz                       0, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) ≤ 0
Log. espaciadas
El Sistema de Philips: Algoritmo




                 Esta va a ser la medida
                       de similaridad
Sist. de Philips: Análisis falso positivo

• Falso positivo: BER entre dos trozos distintos < umbral
  T=0.35
• Teóricamente FPR del orden de 10-20, habrá que
  estimarla estadísticamente
• Distribución de la BER:
                                            N orm al P robability P lot




                   0.999
                   0.997
                   0.99
                   0.98
                   0.95
                   0.90
                   0.75
                                                                                        NORMAL
    P robability




                   0.50

                   0.25
                   0.10
                   0.05
                   0.02
                   0.01
                   0.003
                   0.001




                           0.44   0.46   0.48        0.5         0.52     0.54   0.56
                                                      D ata
Sist. de Philips: Análisis falso positivo

• BER distribuida [0,∞)       Usamos una
  lognormal




                                 FPR=3.82612e-30
Sist. de Philips: Análisis de robustez

• BER entre un trozo de audio y su versión
  distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe
  Audition
Sist. de Philips: Análisis de robustez

• Se ha trabajado con 4
  canciones y estos
  han sido los
  resultados:
Mejoras propuestas en preprocesado

• En general lo que haremos es:




• Vamos a trabajar con 3 esquemas
  distintos
Mejoras preprocesado: Filtrado

• La señal pasa por el filtro:
                                      1

                                     0.9

                                     0.8

                                     0.7
                             −1
                       1− z
    H ( z ) = 0.99                   0.6

                     1 − 0.98 z −1   0.5

                                     0.4

                                     0.3

                                     0.2

                                     0.1

                                       0
                                      -0.5   -0.4   -0.3   -0.2   -0.1   0   0.1   0.2   0.3   0.4   0.5
Mejoras preprocesado: Filtrado

• Respecto al falso positivo:


                                  FPR’= 3.80196e-30
Mejoras preprocesado: Filtrado

• Respecto a la robustez:
Mejoras preprocesado: Filtrado

                                  Pictures                                                                 Beatles

0,6                                                                      0,5
                                                                        0,45
0,5                                                                      0,4
0,4                                                                     0,35
                                                                         0,3
                                                         Sin preproc                                                               Sin preproc
0,3                                                                     0,25
                                                         Con preproc.    0,2                                                       Con preproc.
0,2                                                                     0,15
0,1                                                                      0,1
                                                                        0,05
 0                                                                         0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                         1   2   3   4   5   6   7    8   9 10 11 12 13 14




                                  Jimmy                                                                    Vangelis

0,6                                                                     0,6

0,5                                                                     0,5

0,4                                                                     0,4
                                                         Sin preproc                                                               Sin preproc
0,3                                                                     0,3
                                                         Con preproc.                                                              Con preproc.
0,2                                                                     0,2

0,1                                                                     0,1

 0                                                                       0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                         1   2   3   4   5   6   7   8    9 10 11 12 13 14
Mejoras preprocesado: DDA

• DDA: Sistema distinto al de Philips. Lo
  que haremos es mezclar su preprocesado
  con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en
  tramas de 372 ms que se superponen por
  la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado
Mejoras preprocesado: DDA (1er paso)


• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado
• Resultado x(i):


            spect (i ) − A(i )   si spect(i) - A(i) > 0
    x(i ) = 
                   0                      e.o.c
Mejoras preprocesado: DDA (1er paso)

• Respecto al falso positivo:


                                 FPR’= 8.1111e-27
Mejoras preprocesado: DDA (1er paso)

• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)

                                  Pictures                                                                 Beatles

0,6                                                                      0,5
                                                                        0,45
0,5                                                                      0,4
0,4                                                                     0,35
                                                                         0,3
                                                         Sin preproc                                                               Sin preproc
0,3                                                                     0,25
                                                         Con preproc.    0,2                                                       Con preproc.
0,2                                                                     0,15
0,1                                                                      0,1
                                                                        0,05
 0                                                                         0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                         1   2   3   4   5   6   7    8   9 10 11 12 13 14




                                  Jimmy                                                                    Vangelis

0,6                                                                     0,6

0,5                                                                     0,5

0,4                                                                     0,4
                                                         Sin preproc                                                               Sin preproc
0,3                                                                     0,3
                                                         Con preproc.                                                              Con preproc.
0,2                                                                     0,2

0,1                                                                     0,1

 0                                                                       0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                         1   2   3   4   5   6   7   8    9 10 11 12 13 14
Mejoras preprocesado: DDA (2º paso)


• Se genera un umbral auditivo dependiente de
  la frecuencia
• thr: umbral auditivo en dB
• Resultado x(i):

            spect (i ) − thr (i )   si spect(i) - thr(i) > 0
    x(i ) = 
                      0                      e.o.c
Mejoras preprocesado: DDA (2º paso)

• Respecto al falso positivo:


                                 FPR’= 5.03071e-29
Mejoras preprocesado: DDA (1er paso)

• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)

                                  Pictures                                                                  Beatles

0,6                                                                       0,5
                                                                         0,45
0,5                                                                       0,4
0,4                                                                      0,35
                                                         Sin preproc      0,3                                                      Sin preproc
0,3                                                      Con preproc.1   0,25                                                      Con preproc.1
                                                         Con preproc.2    0,2                                                      Con preproc.2
0,2                                                                      0,15
0,1                                                                       0,1
                                                                         0,05
 0                                                                          0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                          1   2   3   4   5   6   7   8   9 10 11 12 13 14




                                  Jimmy                                                                     Vangelis

0,6                                                                      0,6

0,5                                                                      0,5

0,4                                                                      0,4
                                                         Sin preproc                                                               Sin preproc
0,3                                                      Con preproc.1   0,3                                                       Con preproc.1
                                                         Con preproc.2                                                             Con preproc.2
0,2                                                                      0,2

0,1                                                                      0,1

 0                                                                        0
      1   2   3   4   5   6   7   8   9 10 11 12 13 14                          1   2   3   4   5   6   7   8   9 10 11 12 13 14
Conclusiones
• Se puede decir que los resultados no han
  sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y
  tipos de archivos concretos, pero no
  generales
• ¿Motivos?

Más contenido relacionado

Destacado

Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...José Ramón Cerquides Bueno
 
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamDecodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamJosé Ramón Cerquides Bueno
 
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorCampaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorJosé Ramón Cerquides Bueno
 
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculoJosé Ramón Cerquides Bueno
 
Optimización de un sistema de audio fingerprinting para la detección de anunc...
Optimización de un sistema de audio fingerprinting para la detección de anunc...Optimización de un sistema de audio fingerprinting para la detección de anunc...
Optimización de un sistema de audio fingerprinting para la detección de anunc...José Ramón Cerquides Bueno
 
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...José Ramón Cerquides Bueno
 
Control de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareControl de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareJosé Ramón Cerquides Bueno
 
Diseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeDiseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeJosé Ramón Cerquides Bueno
 
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaPlataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaJosé Ramón Cerquides Bueno
 
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dDiseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dJosé Ramón Cerquides Bueno
 
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...José Ramón Cerquides Bueno
 
Sistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónSistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónJosé Ramón Cerquides Bueno
 

Destacado (15)

Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
 
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamDecodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
 
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorCampaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
 
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
 
Optimización de un sistema de audio fingerprinting para la detección de anunc...
Optimización de un sistema de audio fingerprinting para la detección de anunc...Optimización de un sistema de audio fingerprinting para la detección de anunc...
Optimización de un sistema de audio fingerprinting para la detección de anunc...
 
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
 
Control de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareControl de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiware
 
Diseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeDiseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology college
 
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaPlataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
 
Desarrollo de un simulador dvb t2 en simulink
Desarrollo de un simulador dvb t2 en simulinkDesarrollo de un simulador dvb t2 en simulink
Desarrollo de un simulador dvb t2 en simulink
 
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dDiseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
 
Presentación pfc susana carrasco perez v2
Presentación pfc susana carrasco perez v2Presentación pfc susana carrasco perez v2
Presentación pfc susana carrasco perez v2
 
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
 
Sistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónSistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de Televisión
 
Presentacion carmenppt
Presentacion carmenpptPresentacion carmenppt
Presentacion carmenppt
 

Similar a Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Matriz de datos
Matriz de datosMatriz de datos
Matriz de datosoaca54
 
Matriz de datos
Matriz de datosMatriz de datos
Matriz de datosoaca54
 
¿Por qué facebook tiene 'me gusta' y Google +1?
¿Por qué facebook tiene 'me gusta' y Google +1?¿Por qué facebook tiene 'me gusta' y Google +1?
¿Por qué facebook tiene 'me gusta' y Google +1?Miguel Rebollo
 
Calculo de malla tierra
Calculo de malla tierraCalculo de malla tierra
Calculo de malla tierrarolandjvp2
 
Analisis espectral sondaje electrico
Analisis espectral sondaje electricoAnalisis espectral sondaje electrico
Analisis espectral sondaje electricoErnesto Febres Bedía
 
Qué es la simulación
Qué es la simulaciónQué es la simulación
Qué es la simulaciónHenry Abreu
 
Simulacin io2-100430132307-phpapp02
Simulacin io2-100430132307-phpapp02Simulacin io2-100430132307-phpapp02
Simulacin io2-100430132307-phpapp02Andy O. Buitron
 

Similar a Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting (8)

Matriz de datos
Matriz de datosMatriz de datos
Matriz de datos
 
Matriz de datos
Matriz de datosMatriz de datos
Matriz de datos
 
¿Por qué facebook tiene 'me gusta' y Google +1?
¿Por qué facebook tiene 'me gusta' y Google +1?¿Por qué facebook tiene 'me gusta' y Google +1?
¿Por qué facebook tiene 'me gusta' y Google +1?
 
Tema1
Tema1Tema1
Tema1
 
Calculo de malla tierra
Calculo de malla tierraCalculo de malla tierra
Calculo de malla tierra
 
Analisis espectral sondaje electrico
Analisis espectral sondaje electricoAnalisis espectral sondaje electrico
Analisis espectral sondaje electrico
 
Qué es la simulación
Qué es la simulaciónQué es la simulación
Qué es la simulación
 
Simulacin io2-100430132307-phpapp02
Simulacin io2-100430132307-phpapp02Simulacin io2-100430132307-phpapp02
Simulacin io2-100430132307-phpapp02
 

Más de José Ramón Cerquides Bueno

Desarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoDesarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoJosé Ramón Cerquides Bueno
 
Sistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosSistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosJosé Ramón Cerquides Bueno
 
Tema 2 teoría de la información y capacidad de canal
Tema 2   teoría de la información y capacidad de canalTema 2   teoría de la información y capacidad de canal
Tema 2 teoría de la información y capacidad de canalJosé Ramón Cerquides Bueno
 
Un breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegUn breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegJosé Ramón Cerquides Bueno
 
Implantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaImplantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaJosé Ramón Cerquides Bueno
 
Situación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaSituación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaJosé Ramón Cerquides Bueno
 
Detección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realDetección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realJosé Ramón Cerquides Bueno
 

Más de José Ramón Cerquides Bueno (16)

Desarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoDesarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeo
 
Sistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosSistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivos
 
Medidas de calidad en vídeo
Medidas de calidad en vídeoMedidas de calidad en vídeo
Medidas de calidad en vídeo
 
Presentacion hbbtv
Presentacion hbbtvPresentacion hbbtv
Presentacion hbbtv
 
Sira tv
Sira tvSira tv
Sira tv
 
Intensificación
IntensificaciónIntensificación
Intensificación
 
Tema 3 ecualizacion de-canal
Tema 3 ecualizacion de-canalTema 3 ecualizacion de-canal
Tema 3 ecualizacion de-canal
 
Tema 2 teoría de la información y capacidad de canal
Tema 2   teoría de la información y capacidad de canalTema 2   teoría de la información y capacidad de canal
Tema 2 teoría de la información y capacidad de canal
 
Tema 1 canales en comunicaciones digitales
Tema 1   canales en comunicaciones digitalesTema 1   canales en comunicaciones digitales
Tema 1 canales en comunicaciones digitales
 
Tema 0 presentación transmisión digital
Tema 0   presentación transmisión digitalTema 0   presentación transmisión digital
Tema 0 presentación transmisión digital
 
Tema 4 codificación de canal
Tema 4   codificación de canalTema 4   codificación de canal
Tema 4 codificación de canal
 
Un breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegUn breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpeg
 
Implantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaImplantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignatura
 
Situación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaSituación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españa
 
WiNG: Hacia las Unidades Móviles Virtuales
WiNG: Hacia las Unidades Móviles VirtualesWiNG: Hacia las Unidades Móviles Virtuales
WiNG: Hacia las Unidades Móviles Virtuales
 
Detección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realDetección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo real
 

Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

  • 1. ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO EN AUDIO FINGERPRINTING José Serradilla Arellano Mayo 2007
  • 2. Índice • Audio Fingerprinting: Generalidades • Uso de Audio Fingerprinting para Identificación • El sistema de Philips • Mejoras propuestas en preprocesado: – Filtrado – Algoritmo DDA
  • 3. Generalidades • Concepto: Firma compacta basada en el contenido que resume una grabación de audio. • La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking). • El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.
  • 4. Generalidades: Propiedades • La huella debería ser: – Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta – Fácilmente computable
  • 5. Generalidades: Modos de Uso • Identificación (para lo que se usará en este proyecto) • Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados en el contenido
  • 6. Generalidades: Aplicaciones • Monitorización y Seguimiento del contenido de audio • Servicios de valor añadido • Sistemas de verificación de Integridad La mayoría de ellos son casos particulares del modo de uso de identificación
  • 7. Generalidades: Watermarking • La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio. • Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una: – “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general – “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.
  • 8. Identificación • 3 procesos principales – Extracción de Huellas – Algoritmo de búsqueda de coincidencias. – Comprobación de Hipótesis
  • 9. Identificación: Extracción • Dos partes: – Front-End: Convierte una señal de audio en una secuencia de características relevantes. – Bloque de modelado de huellas: define la representación final de la huella
  • 10. Id.: Extracción: Front-End • Distintos bloques, no todos obligatorios: – Preprocesado – Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones espectrales – Extracción de características – Post-Procesado
  • 11. Id.: Extracción: Modelado • Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas • Varias opciones: – Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple. – Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código – Huella como secuencias de índices a un conjunto de clases de sonidos representativo de una colección de elementos de audio
  • 12. Id.: Métodos de búsqueda • Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas • Fuerza bruta inviable, otras opciones: – Pre-computar distancias offline – Filtrado de candidatos improbables con una medida de similaridad simple – Indexado de archivos inverso – Reducción de candidatos – Otros enfoques
  • 13. El Sistema de Philips • Se usarán características no semánticas • Huella como cadena de unos pocos miles de bits • Segmentación en tramas, cada trama -> sub-huella • Bloques de 256 sub-huellas
  • 14. El Sistema de Philips: Algoritmo Tramas 0,37 sg Overlap 31/32 32 bits en 11,6 ms 256x32 en 3 sg. 33 bandas no solapadas 1, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) > 0 F (n, m) =  300 y 2000 Hz 0, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) ≤ 0 Log. espaciadas
  • 15. El Sistema de Philips: Algoritmo Esta va a ser la medida de similaridad
  • 16. Sist. de Philips: Análisis falso positivo • Falso positivo: BER entre dos trozos distintos < umbral T=0.35 • Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente • Distribución de la BER: N orm al P robability P lot 0.999 0.997 0.99 0.98 0.95 0.90 0.75 NORMAL P robability 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 0.44 0.46 0.48 0.5 0.52 0.54 0.56 D ata
  • 17. Sist. de Philips: Análisis falso positivo • BER distribuida [0,∞) Usamos una lognormal FPR=3.82612e-30
  • 18. Sist. de Philips: Análisis de robustez • BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35 • Las distorsiones las aplicamos con Adobe Audition
  • 19. Sist. de Philips: Análisis de robustez • Se ha trabajado con 4 canciones y estos han sido los resultados:
  • 20. Mejoras propuestas en preprocesado • En general lo que haremos es: • Vamos a trabajar con 3 esquemas distintos
  • 21. Mejoras preprocesado: Filtrado • La señal pasa por el filtro: 1 0.9 0.8 0.7 −1 1− z H ( z ) = 0.99 0.6 1 − 0.98 z −1 0.5 0.4 0.3 0.2 0.1 0 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
  • 22. Mejoras preprocesado: Filtrado • Respecto al falso positivo: FPR’= 3.80196e-30
  • 23. Mejoras preprocesado: Filtrado • Respecto a la robustez:
  • 24. Mejoras preprocesado: Filtrado Pictures Beatles 0,6 0,5 0,45 0,5 0,4 0,4 0,35 0,3 Sin preproc Sin preproc 0,3 0,25 Con preproc. 0,2 Con preproc. 0,2 0,15 0,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis 0,6 0,6 0,5 0,5 0,4 0,4 Sin preproc Sin preproc 0,3 0,3 Con preproc. Con preproc. 0,2 0,2 0,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  • 25. Mejoras preprocesado: DDA • DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema. • Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama • Y ahora se aplican 2 pasos por separado
  • 26. Mejoras preprocesado: DDA (1er paso) • Filtrado paso bajo del espectro logarítmico • A: espectro filtrado • Resultado x(i): spect (i ) − A(i ) si spect(i) - A(i) > 0 x(i ) =   0 e.o.c
  • 27. Mejoras preprocesado: DDA (1er paso) • Respecto al falso positivo: FPR’= 8.1111e-27
  • 28. Mejoras preprocesado: DDA (1er paso) • Respecto a la robustez:
  • 29. Mejoras preprocesado: DDA (1er paso) Pictures Beatles 0,6 0,5 0,45 0,5 0,4 0,4 0,35 0,3 Sin preproc Sin preproc 0,3 0,25 Con preproc. 0,2 Con preproc. 0,2 0,15 0,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis 0,6 0,6 0,5 0,5 0,4 0,4 Sin preproc Sin preproc 0,3 0,3 Con preproc. Con preproc. 0,2 0,2 0,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  • 30. Mejoras preprocesado: DDA (2º paso) • Se genera un umbral auditivo dependiente de la frecuencia • thr: umbral auditivo en dB • Resultado x(i): spect (i ) − thr (i ) si spect(i) - thr(i) > 0 x(i ) =   0 e.o.c
  • 31. Mejoras preprocesado: DDA (2º paso) • Respecto al falso positivo: FPR’= 5.03071e-29
  • 32. Mejoras preprocesado: DDA (1er paso) • Respecto a la robustez:
  • 33. Mejoras preprocesado: DDA (1er paso) Pictures Beatles 0,6 0,5 0,45 0,5 0,4 0,4 0,35 Sin preproc 0,3 Sin preproc 0,3 Con preproc.1 0,25 Con preproc.1 Con preproc.2 0,2 Con preproc.2 0,2 0,15 0,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis 0,6 0,6 0,5 0,5 0,4 0,4 Sin preproc Sin preproc 0,3 Con preproc.1 0,3 Con preproc.1 Con preproc.2 Con preproc.2 0,2 0,2 0,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  • 34. Conclusiones • Se puede decir que los resultados no han sido completamente satisfactorios • Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales • ¿Motivos?