O documento descreve a implementação da abordagem VSUMM para sumarização estática de vídeo, bem como uma perspectiva exploratória da automação de segmentação e similaridade de quadros de vídeo. A abordagem VSUMM extrai atributos de cores de quadros de vídeo, aplica clusterização k-means e seleciona quadros-chave para compor a sumarização. Experimentos comparam diferentes abordagens e uma perspectiva explora a sumarização de vídeos de telejornais.
Implementação da abordagem VSUMM para Sumarização Estática de Vídeo
1. Implementação da abordagem VSUMM
para Sumarização Estática de Vídeo
em uma perspectiva exploratória da automação de
segmentação e similaridade de quadros de vídeo
{ Sumarização de Vídeo }
Hadley Siqueira & Ystallonne Alves
DIM0888 - Processamento de Imagens | DIMAP | PPgSC
2. 2
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
• Introdução
• Abordagem VSUMM
• Implementação
• Resultados dos experimentos
• Perspectiva exploratória
• Demonstrações
• Considerações finais
• Referências
Agenda
3. 3
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
A sumarização de vídeo trata-se de um importante
tópico que permite potencialmente acelerar a
navegação entre as vastas coleções, catálogos e
bancos de dados de vídeos, além de fornecer a
possibilidade de uma indexação e acesso mais
eficiente ao respectivo conteúdo dos vídeos.
Existem dois tipos de sumarização de vídeo fundamentais:
sumarização estática de vídeo e sumarização dinâmica de
vídeo (Truong e Venkatesh, 2007).
Introdução
Sumarização de Vídeo
4. 4
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
O presente trabalho trata da implementação da metodologia
VSUMM, empregada para a produção de sumarizações estática
de vídeos, e uma perspectiva exploratória da automação de
segmentação e similaridade de quadros de vídeo.
A implementação da abordagem e o estudo exploratório
são baseados na extração de atributos de cores a partir de
quadros de vídeo, no algoritmo k-means de clusterização,
bem como na utilização de mecanismos para
segmentação e cálculo de similaridade entre quadros.
Introdução
Sumarização de Vídeo
5. 5
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Abordagem VSUMM
Video SUMMarization
A Figura 1 a seguir, construída com base em Avila et
al. (2010), ilustra os passos utilizados pela abordagem
VSUMM para produzir sumarizações estáticas de vídeo.
6. 6
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
1 2
Composição da Sumarização Estática do Vídeo
(Ordem temporal)
Quadros de vídeo
(Pré-amostragem)
Extração de atributo de cor
(Histograma de cor, HSV, 16 bins)
Extração de quadros-chave
(Eliminação de quadros-chave semelhrantes)
Clusterização de quadros
(K-means, Distância Euclidiana)
Vídeo de entrada
3
5
4
Figura 1 - Abordagem VSUMM
7. 7
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Para Koprinska e Carrato (2001):
O primeiro passo para a automação da
segmentação de vídeo é a segmentação
temporal, onde o objetivo é separar um conjunto
de elementos básicos com significado e fáceis
de gerir, tais como cenas e quadros.
Implementação
Pré-amostragem de quadros de vídeo
8. 8
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
No VSUMM, a taxa de amostragem é fixada em
um quadro por segundo.
O número de quadros analisados é consideravelmente
reduzido, o que implica diretamente na redução do
tempo de sumarização do vídeo.
Dessa forma, o número de quadros extraídos é dado
pela duração do vídeo em segundos.
Implementação
Pré-amostragem de quadros de vídeo
9. 9
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
No VSUMM, o cálculo de histogramas é utilizado para descrever o conteúdo
visual dos quadros de um vídeo, sendo utililizado o espaço de cor HSV.
O histograma de cor do VSUMM é computado apenas para o
componente Hue, que representa o componente de cor espectral
dominante na sua forma mais pura (Manjunath et at., 2001).
Além disso, a quantização do histograma de cor é definida para
16 bins de cores, visando reduzir a quantidade de dados sem perda de
informações importantes.
De acordo com Avila et al. (2010), a quantização utilizando 16 bins foi
resultado de testes experimentais.
Implementação
Extração de atributo de cor
10. 10
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Um quadro sem significado é um quadro monocromático devido a
efeitos de transição de fade-in/fade-out. Para remover quadros desse
tipo, o VSUMM calcula o desvio padrão do vetor do histograma do
componente de cor do quadro.
O desvio padrão desses quadros é igual a zero ou muito próximo de zero
(Avila et al., 2010). Dessa forma, a informação é utilizada pela implementação
para eliminar esses quadros como forma de otimizar o tempo computacional.
Para efeito de eliminação, foram considerados frames com desvio padrão
acima de 0.25, uma vez que o que corresponde a “muito próximo de zero” não
é explicitado por Avila et al. (2010).
Implementação
Eliminação de quadros sem significado
11. 11
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
No VSUMM, o algoritmo k-means é aplicado para clusterizar
quadros similares, sendo levemente modificado em relação
ao modo como distribui os quadros entre os clusteres k.A
modificação é aplicada para aperfeiçoar a performance do
algoritmo ao produzir resultados mais efetivos, onde os quadros
são agrupados em ordem sequencial inicialmente, ao invés
de serem agrupados de maneira randômica, como ocorre no
algoritmo original (Avila et al., 2010).
Implementação
Clusterização de quadros
12. 12
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Um dos pontos negativos do k-means é a necessidade de definição
do número de clusteres k previamente à execução do algoritmo. Como
forma de suplantar essa questão, o VSUMM realiza uma operação
rápida para estimar razoavelmente o número de clusteres por meio do
cálculo da distância Euclidiana entre quadros consecutivos.
Assim, o valor selecionado para k é baseado em um limite τ,
que mede a mudança suficiente do conteúdo dos quadros
na sequência do vídeo. Quando a distância entre dois
quadros consecutivos é maior que τ, k é incrementado. O valor
limite aplicado no VSUMM foi estabelecido através de testes
experimentais e é igual a 0.5 (Avila et al., 2010).
Implementação
Clusterização de quadros
13. 13
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Implementação
Clusterização de quadros
Distância Euclidiana
τ = 0.5
14. 14
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Uma vez que os clusteres são formados pelo
algoritmo k-means, eles podem ser analisados mais
profundamente para a seleção de clusteres-chave.
A estratégia aplicada para a seleção de clusteres-chave
no VSUMM considera um cluster como cluster-chave
quando o tamanho dele é maior que a metade da média
do tamanho dos clusteres – esse valor mostrou-se mais
adequado como ponto de corte do que a média do
tamanho dos quadros (Zhuang et al., 1998).
Implementação
Extração de quadros-chave
15. 15
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Para cada cluster-chave, o quadro que está mais
próximo do centroid do cluster-chave – onde essa
proximidade é calculada pela distância Euclidiana – é
selecionado como quadro-chave.
Nos experimentos, duas abordagens diferentes são utilizadas,
o VSUMM1
, que produz sumarizações sem executar a seleção
de clusteres-chave, e o VSUMM2
, que utiliza a seleção de
clusteres-chave para produzir a sumarização.
Implementação
Extração de quadros-chave
16. 16
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Com o propósito de evitar que quadros-chave bastante similares
apareçam nas sumarizações produzidas, os quadros-chave são
comparados entre eles através dos respectivos histogramas de cores.
A similaridade é baseada em um limite igual ao utilizado para
estimar o número de clusteres. Caso a similaridade mensurada
for menor que o limite, então, o quadro-chave é removido da
sumarização de vídeo.
Vale ressaltar que os quadros não necessitam ser idênticos para
serem considerados bastante semelhantes (Avila et al. 2010).
Implementação
Eliminação de quadros-chave semelhantes
17. 17
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Por fim, os quadros-chave são ordenados de acordo
com a ordem temporal em que aparecem no vídeo
para tornar a sumarização mais inteligível.
Implementação
Eliminação de quadros-chave semelhantes
18. 18
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
CUSA
e CUSE
CUSA
=
nmAS
nUS
Taxa de precisão
CUSA
Quadros equivalentes da
Sumarização Automática
—
Quadros da Sumarização
do Usuário
19. 19
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Taxa de erro
CUSE
Quadros não equivalentes da
Sumarização Automática
—
Quadros da Sumarização
do Usuário
CUSE
=
nUS
Resultados dos experimentos
CUSA
e CUSE
nmAS~
20. 20
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações dos Usuários - Usuário #1
21. 21
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações dos Usuários - Usuário #2
22. 22
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações dos Usuários - Usuário #3
23. 23
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações dos Usuários - Usuário #4
24. 24
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações dos Usuários - Usuário #5
25. 25
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - OV
26. 26
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - DT
27. 27
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - STIMO
28. 28
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - VSUMM1
29. 29
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - VSUMM2
30. 30
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - VSUMM1x
31. 31
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Sumarizações Automáticas - VSUMM2x
32. 32
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Resultados dos experimentos
Comparativo das abordagens
Taxa de precisão CUSA
e taxa de erro CUSE
obtidas
por abordagens diferentes para o vídeo “Drift Ice as
a Geologic Agent, segment 8”.
Os valores em negrito apontam os melhores resultados de CUSA e CUSE.
33. 33
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Outras explorações
Resultados desanimadores com a sumarização
estática de vídeos de eventos esportivos.
Adaptação do VSUMM
Estratégia para sumarizar vídeos de telejornais.
Perspectiva exploratória
Sumarização de vídeo de telejornais
34. 34
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Perspectiva exploratória
Sumarização de vídeo de telejornais
1
1
2
2
3 4
1º - O vídeo é divido em quadros capturando-se
um novo quadro a cada 3 segundos
2º - O kmeans é executado
1o O vídeo é dividido em quadros capturando-se um
novo quadro a cada 3 segundos.
35. 35
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Perspectiva exploratória
Sumarização de vídeo de telejornais1
1
1
2
2
2
3
3
4
4
4
3
2º - O kmeans é executado
3º - Agrupamentos similares são fusionados...
2o O k-means é executado.
36. 36
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Perspectiva exploratória
Sumarização de vídeo de telejornais
1
1
2
2
3
4
4
3
2º - O kmeans é executado
3º - Agrupamentos similares são fusionados...
4º - Detecção do agrupamento com os jornalistas
1 2
3
3o Agrupamentos similares são fusionados.
37. 37
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Perspectiva exploratória
Sumarização de vídeo de telejornais
1 2
4 3
4º - Detecção do agrupamento com os jornalistas
1 2
4 3
5º Sumarização completa
4o Detecção do agrupamento com os jornalistas.
38. 38
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Perspectiva exploratória
Sumarização de vídeo de telejornais
4 3
5º Sumarização completa5o Sumarização completa.
39. 39
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Demonstrações
Implementação VSUMM1x
e VSUMM2x
40. 40
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Demonstrações
Implementações exploratórias
41. 41
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
»» Pode-se apontar como perspectiva para trabalhos futuros o
aprofundamento de estudos referentes às etapas de segmentação de
vídeo que tenham como base outras estratégias além das utilizadas
pelo VSUMM. Dessa forma, outras metodologias para obtenção do grau
de similaridade entre os quadros empregando mecanismos diferentes
dos do simples cálculo da distância Euclidiana, bem como do que diz
respeito à representatividade dos quadros sem que seja empregado
apenas o cálculo do desvio padrão dos histogramas do componente de
cor do quadro, além da utilização de outros componentes de imagem
ou atributos, a título de ilustração, são algumas possibilidades de
pesquisa a serem exploradas que podem impactar consideravelmente o
campo de sumarização de vídeo.
Considerações finais
Sumarização de Vídeo
42. 42
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
»» Por fim, vale acrescentar que a implementação do VSUMM
pode ser estendida para produzir sumarizações no formato de
trechos de vídeo, sumarizações dinâmicas de vídeo, o que pode
ser concretizado a partir dos quadros-chave com a reunião de
segmentos próximos a eles, dando origem a sub-cenas ou mesmo
cenas na íntegra que englobam um respectivo quadro-chave e,
por conseguinte, com a exportação de segmentos sequenciais
breves (de tamanho fixo ou proporcional à representatividade dos
clusteres em que se encontram os quadros-chave, considerada
a duração do vídeo a ser sumarizado), um compacto contendo
trechos sequenciais de quadros que sumarizam o vídeo original
produzindo um novo vídeo.
Considerações finais
Sumarização de Vídeo
43. 43
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Referências
Parte I
[1] S. E. F. De Avila, A. P. B. Lopes, A. da Luz, and A. de Albuquer-
que Ara ´ujo, “Vsumm: A mechanism designed to produce static video
summaries and a novel evaluation method,” Pattern Recognition Letters,
vol. 32, no. 1, pp. 56–68, 2011.
[2] B. T. Truong and S. Venkatesh, “Video abstraction: A systematic re-
view and classification,” ACM Transactions on Multimedia Computing,
Communications, and Applications (TOMM) , vol. 3, no. 1, p. 3, 2007.
[3] I. Koprinska and S. Carrato, “Temporal video segmentation: A survey,”
Signal processing: Image communication , vol. 16, no. 5, pp. 477–500,
2001.
[4] B. S. Manjunath, J.-R. Ohm, V. V. Vasudevan, and A. Yamada, “Color
and texture descriptors,” IEEE Transactions on circuits and systems for
video technology , vol. 11, no. 6, pp. 703–715, 2001.
[5] S. E. de Avila, A. da Luz, A. d. A. Ara ´ujo, and M. Cord, “Vsumm:
An approach for automatic video summarization and quantitative eva-
luation,” in 2008 XXI Brazilian Symposium on Computer Graphics and
Image Processing . IEEE, 2008, pp. 103–110.
44. 44
{ Sumarização de Vídeo } DIM0888 - Processamento de Imagens | DIMAP | PPgSC
Referências
Parte II
[6] J. MacQueen et al., “Some methods for classification and analysis
of multivariate observations,” in Proceedings of the fifth Berkeley
symposium on mathematical statistics and probability , vol. 1, no. 14.
Oakland, CA, USA., 1967, pp. 281–297.
[7] Y. Zhuang, Y. Rui, T. S. Huang, and S. Mehrotra, “Adaptive key frame
extraction using unsupervised clustering,” in Image Processing, 1998.
ICIP 98. Proceedings. 1998 International Conference on , vol. 1. IEEE,
1998, pp. 866–870.
[8] P. Mundur, Y. Rao, and Y. Yesha, “Keyframe-based video summa-
rization using delaunay clustering,” International Journal on Digital
Libraries , vol. 6, no. 2, pp. 219–232, 2006.
[9] M. Furini, F. Geraci, M. Montangero, and M. Pellegrini, “Stimo: Still
and moving video storyboard for the web scenario,” Multimedia Tools
and Applications , vol. 46, no. 1, pp. 47–69, 2010.
[10] D. DeMenthon, V. Kobla, and D. Doermann, “Video summarization by
curve simplification,” in Proceedings of the sixth ACM international
conference on Multimedia . ACM, 1998, pp. 211–218.
45. Implementação da abordagem VSUMM
para Sumarização Estática de Vídeo
em uma perspectiva exploratória da automação de
segmentação e similaridade de quadros de vídeo
{ Sumarização de Vídeo }
Hadley Siqueira & Ystallonne Alves
DIM0888 - Processamento de Imagens | DIMAP | PPgSC