Este trabajo se centra en el estudio de las métricas que se utilizan para evaluar la calidad de secuencias de vídeo. En el capítulo 2 veremos que los métodos para evaluar la calidad de una secuencia pueden clasificarse en subjetivos y objetivos. Los subjetivos son precisos pero costosos en tiempo y recursos, los objetivos son imprecisos pero automatizables. Nos centraremos en éstos últimos, cuyo objetivó será lograr una precisión lo más cercana posible a la de los subjetivos. En el capítulo 3 se describirán diez métricas objetivas de calidad, en términos generales, y se proponen implementaciones en lenguaje Matlab de cada algoritmo. En el cuarto capítulo, compararemos la eficacia de los métodos vistos en el capítulo 3. Por último, el quinto capítulo corresponde a las conclusiones finales.
2. 1. Introducción
• En el año 2015, más del 60% del tráfico sobre redes IP correspondió a contenido
de vídeo. Se espera que para el año 2020 alcance el 80%
276,48 Mbps Más de 2GB por minuto
• Ejemplo: formato YUV 4:2:0 720p 25 fps
• Necesitamos comprimir la señal para poder
transmitirla.
• Transmitir vídeo en bruto supone un volumen
de datos excesivo.
3. Algoritmos de compresión
• Algoritmos sin pérdidas: tasa de compresión 1/3 (insuficiente)
• Algoritmos con pérdidas: tasa de compresión 1/100
• La compresión con pérdidas distorsiona la señal, introduce
artefactos que merman la calidad del vídeo, especialmente
cuanto más se comprime.
• El propio proceso de transmisión también degrada la calidad
de la señal, debido a posibles errores.
4. 2. Métodos de evaluación de calidad de
vídeo
Métodos subjetivos
Basados en el criterio humano
de varios observadores que
puntúan las secuencias.
Ventaja: precisión
Inconveniente: coste (tiempo y
recursos humanos)
Métodos objetivos
Procedimientos algorítmicos, se
pueden implementar en software
o hardware. Acostumbran a usar
modelos matemáticos del HVS.
Ventaja: ejecución automática
Inconveniente: fiabilidad variable
• Necesarios para controlar cuánto se distorsiona la señal al comprimirla y/o
transmitirla.
6. PSNR (Peak Signal to Noise Ratio)
• Definición:
• Medida tradicional y simple.
SSIM (Structural Similarity Index)
• Basado en información estructural (dependencias entre píxeles).
• Utiliza tres indicadores de similitud entre el par de secuencias:
7. MS-SSIM (MultiScale-SSIM)
• Derivada del anterior índice de calidad SSIM.
• Proceso iterativo de M etapas o escalas. En cada escala
se calcula el índice de calidad, se filtra paso-bajo y se
submuestrea a la mitad de resolución.
• Combina las escalas utilizando la CSF.
8. M-SVD (Multidimensional Singular Value Decomposition)
• Descomposición en valores singulares.
Modelo general VQM (Video Quality Metric)
• Estandarizado por NTIA, VQM comprende muchas variantes.
• División del vídeo en bloques ST. Los bloques se filtran para realzar ciertas
propiedades. Sobre cada bloque se aplica una función para extraer características.
• Comparando las características del vídeo fuente con el distorsionado obtenemos
un parámetro de calidad para cada pareja de bloques ST.
9. Métrica de Okamoto
• Combina tres parámetros que miden diferentes aspectos de calidad.
Average Edge Energy Difference
Minimun HV to non-HV-Edge energy difference
Avarage Moving Energy of Blocks
MOSp (Mean Opinion Score prediction)
• Basado en MSE:
• Incluye el efecto de enmascaramiento espacial y temporal.
• Incluye el efecto de enmascaramiento espacial.
• La pendiente k depende de la energía de bordes del vídeo fuente:
10. VQM (Video Quality Metric)
VQR (Video Quality Rating)
• Basado en la transformada DCT.
• Utiliza la inversa de la matriz de cuantificación de
MPEG como modelo de CSF.
• Combina error medio y error máximo.
• Basado en la transformada wavelet.
• Primero utiliza wavelet 2D en tres niveles, descomponiendo
cada cuadro en 10 bandas. Calcula el error cuadrático total
para los coeficientes de cada banda.
• Los vectores de error de cada cuadro se agrupan y se
aplica transformada wavelet 1D sobre la variación
temporal del error de cada banda.
11. PVQM (Perceptual Video Quality Measure)
• Utiliza tres indicadores de distorsión.
• Incorpora enmascaramiento espacial y temporal.
• Como modelo de CSF suaviza la imagen.
12. • Indicadores de precisión
Coeficiente de correlación de Pearson (PCC)
Coeficiente de correlación de Spearman (SROCC)
Ratio de outliers (OR)
Error cuadrático medio (RMSE)
4. Comparación
• Base de datos: LIVE Video Quality Assessment Database.
• Medimos la calidad de todas las secuencias de la base de datos con cada
algoritmo objetivo.
• Escalamos las valoraciones objetivas y aplicamos regresión no lineal para obtener
predicciones:
13. Resultados
• Mejor métrica: MS-SSIM
• Otras con buenos resultados:
MOSp, Okamoto y PVQM
• Aspectos en común de los
mejores métodos:
Enmascaramiento espacio-
temporal
Función de sensibilidad al
contraste (CSF)
Énfasis en medir la distorsión
en luminancia
14. Resultados por tipo de distorsión
• Cada métrica demuestra
funcionar mejor con alguno
de los cuatro tipos de
distorsión en concreto.
• Excepto MS-SSIM: buenos
resultados para todo tipo de
distorsión.
• Conocer la naturaleza de la
distorsión presente en el
vídeo permitirá seleccionar el
mejor algoritmo.
15. 5. Conclusiones
• El mejor algoritmo de los estudiados es MS-SSIM.
• La naturaleza de la distorsión afecta a la precisión de cada método.
• Las ideas que comparten las mejores métricas son: centrarse en la distorsión de
luminancia e incluir los efectos de enmascaramiento y función de sensibilidad al
contraste.