Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

ANÁLISIS DE LAS PRESTACIONES
DE DISTINTAS TÉCNICAS DE PREPROCESADO
EN AUDIO FINGERPRINTING

José Serradilla Arellano
Mayo 2007

Índice

• Audio Fingerprinting: Generalidades
• Uso de Audio Fingerprinting para
Identificación
• El sistema de Philips
• Mejoras propuestas en preprocesado:
– Filtrado
– Algoritmo DDA

Generalidades

• Concepto: Firma compacta basada en el
contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en
particular no se le añade ninguna información
adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un
proceso de “Audio Fingerprinting” es la
selección de las características a investigar.

Generalidades: Propiedades

• La huella debería ser:

– Un resumen perceptual de la grabación
– Invariante a las distorsiones
– Compacta
– Fácilmente computable

Generalidades: Modos de Uso

• Identificación (para lo que se usará en este proyecto)
• Verificación de la integridad
• Apoyo al “Watermarking”
• Recuperación y procesamiento de audio basados en el
contenido

Generalidades: Aplicaciones

• Monitorización y Seguimiento del contenido de
audio
• Servicios de valor añadido
• Sistemas de verificación de Integridad

La mayoría de ellos son casos particulares del
modo de uso de identificación

Generalidades: Watermarking

• La idea básica consiste en añadir una señal, la marca de agua, a la
señal original de audio.

• Ambas metodologías tienen muchas aplicaciones en común y
también muchas específicas de cada una:

– “audio watermarking” aunque en un principio estaba pensado para
protección de copyright, también es útil para otros muchos propósitos,
particularmente para transporte de información de propósito general

– “audio fingerprinting” se usa sobre todo para identificar señales de
audio, no solo en aplicaciones de copyright, sino también en
reconocimiento de anuncios, por ejemplo.

Identificación

• 3 procesos principales
– Extracción de Huellas
– Algoritmo de búsqueda de coincidencias.
– Comprobación de Hipótesis

Identificación: Extracción

• Dos partes:
– Front-End: Convierte
una señal de audio en
una secuencia de
características
relevantes.
– Bloque de modelado
de huellas: define la
representación final de
la huella

Id.: Extracción: Front-End

• Distintos bloques, no todos obligatorios:

– Preprocesado
– Framing & Overlap ( y enventanado)
– Tranformaciones lineales: Estimaciones espectrales
– Extracción de características
– Post-Procesado

Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características
calculados teniendo en cuenta todas las tramas una por una y
explota redundancias entre tramas vecinas

• Varias opciones:

– Huella como resumen de las secuencias de vectores
multidimensionales de una canción completa (o de una parte de ella) en
un vector simple.
– Huella como secuencias de vectores binarios
– Secuencia de vectores aproximada por un libro de código
– Huella como secuencias de índices a un conjunto de clases de sonidos
representativo de una colección de elementos de audio

Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente
realiza las comparaciones entre el audio y
millones de huellas
• Fuerza bruta inviable, otras opciones:
– Pre-computar distancias offline
– Filtrado de candidatos improbables con una medida
de similaridad simple
– Indexado de archivos inverso
– Reducción de candidatos
– Otros enfoques

El Sistema de Philips

• Se usarán características no semánticas
• Huella como cadena de unos pocos miles
de bits
• Segmentación en tramas, cada trama ->
sub-huella
• Bloques de 256 sub-huellas

El Sistema de Philips: Algoritmo

Tramas 0,37 sg
Overlap 31/32
32 bits en 11,6 ms
256x32 en 3 sg.

33 bandas no solapadas 1, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) > 0
F (n, m) = 
300 y 2000 Hz 0, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) ≤ 0
Log. espaciadas

El Sistema de Philips: Algoritmo

Esta va a ser la medida
de similaridad

Sist. de Philips: Análisis falso positivo

• Falso positivo: BER entre dos trozos distintos < umbral
T=0.35
• Teóricamente FPR del orden de 10-20, habrá que
estimarla estadísticamente
• Distribución de la BER:
N orm al P robability P lot

0.999
0.997
0.99
0.98
0.95
0.90
0.75
NORMAL
P robability

0.50

0.25
0.10
0.05
0.02
0.01
0.003
0.001

0.44 0.46 0.48 0.5 0.52 0.54 0.56
D ata

Sist. de Philips: Análisis falso positivo

• BER distribuida [0,∞) Usamos una
lognormal

FPR=3.82612e-30

Sist. de Philips: Análisis de robustez

• BER entre un trozo de audio y su versión
distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe
Audition

Sist. de Philips: Análisis de robustez

• Se ha trabajado con 4
canciones y estos
han sido los
resultados:

Mejoras propuestas en preprocesado

• En general lo que haremos es:

• Vamos a trabajar con 3 esquemas
distintos

Mejoras preprocesado: Filtrado

• La señal pasa por el filtro:
1

0.9

0.8

0.7
−1
1− z
H ( z ) = 0.99 0.6

1 − 0.98 z −1 0.5

0.4

0.3

0.2

0.1

0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5


• Respecto al falso positivo:

FPR’= 3.80196e-30


• Respecto a la robustez:


Pictures Beatles

0,6 0,5
0,45
0,5 0,4
0,4 0,35
0,3
Sin preproc Sin preproc
0,3 0,25
Con preproc. 0,2 Con preproc.
0,2 0,15
0,1 0,1
0,05
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Jimmy Vangelis

0,6 0,6

0,5 0,5

0,4 0,4
0,3 0,3
Con preproc. Con preproc.
0,2 0,2

0,1 0,1

0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Mejoras preprocesado: DDA

• DDA: Sistema distinto al de Philips. Lo
que haremos es mezclar su preprocesado
con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en
tramas de 372 ms que se superponen por
la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado

Mejoras preprocesado: DDA (1er paso)

• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado
• Resultado x(i):

spect (i ) − A(i ) si spect(i) - A(i) > 0
x(i ) = 
 0 e.o.c



FPR’= 8.1111e-27


• Respecto a la robustez:


Pictures Beatles

0,6 0,5
0,45
0,5 0,4
0,4 0,35
0,3
0,3 0,25
Con preproc. 0,2 Con preproc.
0,2 0,15
0,1 0,1
0,05
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Jimmy Vangelis

0,6 0,6

0,5 0,5

0,4 0,4
0,3 0,3
Con preproc. Con preproc.
0,2 0,2

0,1 0,1

0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Mejoras preprocesado: DDA (2º paso)

• Se genera un umbral auditivo dependiente de
la frecuencia
• thr: umbral auditivo en dB
• Resultado x(i):

spect (i ) − thr (i ) si spect(i) - thr(i) > 0
x(i ) = 
 0 e.o.c

Mejoras preprocesado: DDA (2º paso)


FPR’= 5.03071e-29


Pictures Beatles

0,6 0,5
0,45
0,5 0,4
0,4 0,35
Sin preproc 0,3 Sin preproc
0,3 Con preproc.1 0,25 Con preproc.1
Con preproc.2 0,2 Con preproc.2
0,2 0,15
0,1 0,1
0,05
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Jimmy Vangelis

0,6 0,6

0,5 0,5

0,4 0,4
0,3 Con preproc.1 0,3 Con preproc.1
Con preproc.2 Con preproc.2
0,2 0,2

0,1 0,1

0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Conclusiones
• Se puede decir que los resultados no han
sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y
tipos de archivos concretos, pero no
generales
• ¿Motivos?

Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (15)

Similar a Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Similar a Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting (8)

Más de José Ramón Cerquides Bueno

Más de José Ramón Cerquides Bueno (16)

Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting