Detección automática multicanal de anuncios en tv en tiempo real
Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting
1. ANÁLISIS DE LAS PRESTACIONES
DE DISTINTAS TÉCNICAS DE PREPROCESADO
EN AUDIO FINGERPRINTING
José Serradilla Arellano
Mayo 2007
2. Índice
• Audio Fingerprinting: Generalidades
• Uso de Audio Fingerprinting para
Identificación
• El sistema de Philips
• Mejoras propuestas en preprocesado:
– Filtrado
– Algoritmo DDA
3. Generalidades
• Concepto: Firma compacta basada en el
contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en
particular no se le añade ninguna información
adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un
proceso de “Audio Fingerprinting” es la
selección de las características a investigar.
4. Generalidades: Propiedades
• La huella debería ser:
– Un resumen perceptual de la grabación
– Invariante a las distorsiones
– Compacta
– Fácilmente computable
5. Generalidades: Modos de Uso
• Identificación (para lo que se usará en este proyecto)
• Verificación de la integridad
• Apoyo al “Watermarking”
• Recuperación y procesamiento de audio basados en el
contenido
6. Generalidades: Aplicaciones
• Monitorización y Seguimiento del contenido de
audio
• Servicios de valor añadido
• Sistemas de verificación de Integridad
La mayoría de ellos son casos particulares del
modo de uso de identificación
7. Generalidades: Watermarking
• La idea básica consiste en añadir una señal, la marca de agua, a la
señal original de audio.
• Ambas metodologías tienen muchas aplicaciones en común y
también muchas específicas de cada una:
– “audio watermarking” aunque en un principio estaba pensado para
protección de copyright, también es útil para otros muchos propósitos,
particularmente para transporte de información de propósito general
– “audio fingerprinting” se usa sobre todo para identificar señales de
audio, no solo en aplicaciones de copyright, sino también en
reconocimiento de anuncios, por ejemplo.
8. Identificación
• 3 procesos principales
– Extracción de Huellas
– Algoritmo de búsqueda de coincidencias.
– Comprobación de Hipótesis
9. Identificación: Extracción
• Dos partes:
– Front-End: Convierte
una señal de audio en
una secuencia de
características
relevantes.
– Bloque de modelado
de huellas: define la
representación final de
la huella
10. Id.: Extracción: Front-End
• Distintos bloques, no todos obligatorios:
– Preprocesado
– Framing & Overlap ( y enventanado)
– Tranformaciones lineales: Estimaciones espectrales
– Extracción de características
– Post-Procesado
11. Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características
calculados teniendo en cuenta todas las tramas una por una y
explota redundancias entre tramas vecinas
• Varias opciones:
– Huella como resumen de las secuencias de vectores
multidimensionales de una canción completa (o de una parte de ella) en
un vector simple.
– Huella como secuencias de vectores binarios
– Secuencia de vectores aproximada por un libro de código
– Huella como secuencias de índices a un conjunto de clases de sonidos
representativo de una colección de elementos de audio
12. Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente
realiza las comparaciones entre el audio y
millones de huellas
• Fuerza bruta inviable, otras opciones:
– Pre-computar distancias offline
– Filtrado de candidatos improbables con una medida
de similaridad simple
– Indexado de archivos inverso
– Reducción de candidatos
– Otros enfoques
13. El Sistema de Philips
• Se usarán características no semánticas
• Huella como cadena de unos pocos miles
de bits
• Segmentación en tramas, cada trama ->
sub-huella
• Bloques de 256 sub-huellas
14. El Sistema de Philips: Algoritmo
Tramas 0,37 sg
Overlap 31/32
32 bits en 11,6 ms
256x32 en 3 sg.
33 bandas no solapadas 1, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) > 0
F (n, m) =
300 y 2000 Hz 0, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) ≤ 0
Log. espaciadas
15. El Sistema de Philips: Algoritmo
Esta va a ser la medida
de similaridad
16. Sist. de Philips: Análisis falso positivo
• Falso positivo: BER entre dos trozos distintos < umbral
T=0.35
• Teóricamente FPR del orden de 10-20, habrá que
estimarla estadísticamente
• Distribución de la BER:
N orm al P robability P lot
0.999
0.997
0.99
0.98
0.95
0.90
0.75
NORMAL
P robability
0.50
0.25
0.10
0.05
0.02
0.01
0.003
0.001
0.44 0.46 0.48 0.5 0.52 0.54 0.56
D ata
17. Sist. de Philips: Análisis falso positivo
• BER distribuida [0,∞) Usamos una
lognormal
FPR=3.82612e-30
18. Sist. de Philips: Análisis de robustez
• BER entre un trozo de audio y su versión
distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe
Audition
19. Sist. de Philips: Análisis de robustez
• Se ha trabajado con 4
canciones y estos
han sido los
resultados:
20. Mejoras propuestas en preprocesado
• En general lo que haremos es:
• Vamos a trabajar con 3 esquemas
distintos
21. Mejoras preprocesado: Filtrado
• La señal pasa por el filtro:
1
0.9
0.8
0.7
−1
1− z
H ( z ) = 0.99 0.6
1 − 0.98 z −1 0.5
0.4
0.3
0.2
0.1
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
25. Mejoras preprocesado: DDA
• DDA: Sistema distinto al de Philips. Lo
que haremos es mezclar su preprocesado
con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en
tramas de 372 ms que se superponen por
la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado
26. Mejoras preprocesado: DDA (1er paso)
• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado
• Resultado x(i):
spect (i ) − A(i ) si spect(i) - A(i) > 0
x(i ) =
0 e.o.c
30. Mejoras preprocesado: DDA (2º paso)
• Se genera un umbral auditivo dependiente de
la frecuencia
• thr: umbral auditivo en dB
• Resultado x(i):
spect (i ) − thr (i ) si spect(i) - thr(i) > 0
x(i ) =
0 e.o.c
33. Mejoras preprocesado: DDA (1er paso)
Pictures Beatles
0,6 0,5
0,45
0,5 0,4
0,4 0,35
Sin preproc 0,3 Sin preproc
0,3 Con preproc.1 0,25 Con preproc.1
Con preproc.2 0,2 Con preproc.2
0,2 0,15
0,1 0,1
0,05
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Jimmy Vangelis
0,6 0,6
0,5 0,5
0,4 0,4
Sin preproc Sin preproc
0,3 Con preproc.1 0,3 Con preproc.1
Con preproc.2 Con preproc.2
0,2 0,2
0,1 0,1
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
34. Conclusiones
• Se puede decir que los resultados no han
sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y
tipos de archivos concretos, pero no
generales
• ¿Motivos?