SlideShare uma empresa Scribd logo
1 de 25
Algoritmi per la classificazione di shot in filmati di telegiornale basati sull’informazione audio e video Università degli Studi di Napoli Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Candidato Marco Lembo Matricola 041/3151 Anno Accademico 2004/2005 Relatore Ch.mo Prof. Carlo Sansone Co-relatore Ing. Gennaro Percannella
News Video Segmentation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Anchor shot detection ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],> 96% Video News Shot Frame
Stato dell’arte ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
I sistemi proposti ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Clustering Lifetime Face Detector Recovery Shot  Esito 0 AS 1 NR 2 NR Clustering (su più feature) Shot  Esito 0 AS 1 NR 2 NR
Primo sistema proposto Single - Layer
Scelta delle Feature ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Rumori di sottofondo Frequenza fondamentale (Voce) Silenzi Voce Moto camera e/o oggetti
Feature Video Anchor Cloth Maschera B/N “ Hue” (UB region) Faccia Thresholding Cloth Color Stazionarietà Maschera Stationary Region Ist. “Saturation” medio Sfondo Sfondo range R range L - Differenza + Binarizzazione Face Detector
Feature Audio ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],ACF (VOICED) ACF (UNVOICED) ,[object Object],[object Object],[object Object],F 0  = 0 Frame Silente se... E UV   < 0.3 E media UV ,[object Object]
Classificazione ,[object Object],[object Object],[object Object],[object Object],[object Object]
Secondo sistema proposto Multi - Layer
Clustering: Graph-Theoretical Cluster Analysis ,[object Object],[object Object],GTC Minimum Spanning Tree Fase di “ Cut Edge” ,[object Object],[object Object],[object Object],[object Object],CUT EDGES
Modulo per il calcolo del “Lifetime” Video Shot Lifetime ,[object Object],[object Object],[object Object],[object Object]
Face Detector ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],(R,G,B) è classificato come pelle se: R > 95 e G > 40 e B > 20 e max {R,G,B} - min {R,G,B} > 15 e |R - G| > 15 e R > G e R > B (Peer  2003)   Volto &quot;Candidato&quot; Estrazione &quot;Dominant Color&quot; &quot;Skin&quot; color ? Falso Volto Volto Reale
Face Detection (Extra-Cluster) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Face Detection (Intra-Cluster) ,[object Object],[object Object],[object Object],Elimina shot dal cluster News-Report Shot News-Report Cluster News-Report Cluster Anchor Cluster SI NO SI NO SI Fine Cluster ? Face Detection ” 2 k-fr. su 3 ”? Dimensione Cluster = 1? Lifetime ? Estrazione tre Key-Frame Shot
Recovery ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],best 3 best 3 Selezione Anchor shot &quot;Certi&quot; Selezione Anchor shot “Candidati” Confronto tra AS &quot;certi&quot; e “candidati” Lista “migliori candidati” Analisi basata sull’Audio Analisi basata su  Face Detection AND uscita Finale
Recovery: Analisi Audio Anchor shot se: ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Fattori Prestazionali:  Precision, Recall e Figura di Merito F ,[object Object],[object Object]
Database Sperimentale ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Risultati Sperimentali Secondo  Sistema Primo sistema Secondo  Sistema Primo sistema 0.282 0.978 0.165 5 1145 226 3979 229 K-Means 0.941 0.943 0.939 13 14 216 3979 229 Recovery 0.934 0.891 0.967 25 7 204 3979 229 Face Detection 0.815 0.891 0.764 25 63 204 3979 229 Lifetime 0.623 0.934 0.477 15 235 214 3979 229 Clustering F Recall Precision Missed False Hit News-Report Anchor   Canale 5 0.439 0.976 0.283 8 840 332 4004 340 K-Means 0.975 0.979 0.971 7 10 333 4004 340 Recovery 0.957 0.924 0.994 26 2 314 4004 340 Face Detection 0.915 0.924 0.913 26 30 314 4004 340 Lifetime 0.812 0.935 0.723 22 122 318 4004 340 Clustering F Recall Precision Missed False Hit News-Report Anchor   RAI1
Confronto con altri algoritmi Video… (sullo stesso dataset) RAI1 C5 0.975 0.979 0.971 7 10 333 4004 340 Nostro sistema (Multi-Layer) 0.768 0.644 0.952 121 11 219 4004 340 Hanjalic (1999)   0.868 0.841 0.898 80 24 260 4004 340 Gao (2002) 0.888 0.819 0.968 67 10 304 4004 340 Bertini (2001) F Recall Precision Missed False Hit News-Report Anchor Algoritmo 0.941 0.943 0.939 13 14 216 3979 229 Nostro sistema (Multi-Layer) 0.693 0.568 0.892 99 16 130 3979 229 Hanjalic (1999)   0.745 0.891 0.641 25 114 204 3979 229 Gao (2002) 0.869 0.834 0.908 15 22 214 3979 229 Bertini (2001) F Recall Precision Missed False Hit News-Report Anchor Algoritmo
Confronto con altri algoritmi Audio/Video (su dataset diversi) ~ 17 h 2 45  0.96 0.97 0.96 Nostro sistema (Multi-Layer) ~ 2 h 1 4 0.84 0.75 0.95 NAG (1991) ~ 1.5 h 1 3 0.92 0.87 0.98 CHA (2003) ~ 0.5 h 1 1 0.94 0.93 0.95 EIC (1999) ~ 64 h 2 118 0.69 0.65 0.74 KDDI Lab (2004) Lunghezza totale (h) Emittenti Video F Precision Recall Dataset Performance Algoritmo
Conclusioni ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Feature   Extractor   AV-Ex ,[object Object],[object Object],[object Object],[object Object],[object Object]
Estrazione Feature ,[object Object],Feature extractor File delle feature Mixer File di feature  con ground-truth Ground-truth File audio (.wav) File di feature mascherato  Mask File di maschera  Suvmain ,[object Object],Estrazione feature File feature .feat File CUT .TXT File video .MPG + Durata Info Volti Dinamicità Sfondo Audio Feature Extractor Cloth color

Mais conteúdo relacionado

Semelhante a Marco lembo

Tecniche di image forsensic per l’identificazione della sorgente
Tecniche di image forsensic per l’identificazione della sorgenteTecniche di image forsensic per l’identificazione della sorgente
Tecniche di image forsensic per l’identificazione della sorgenteICL - Image Communication Laboratory
 
albira micro pet
albira micro petalbira micro pet
albira micro petElekta
 
L'occhio del biologo: elementi di fotografia
L'occhio del biologo: elementi di fotografiaL'occhio del biologo: elementi di fotografia
L'occhio del biologo: elementi di fotografiaMarco Benini
 
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...Luca Valente
 
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVM
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVMRilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVM
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVMpradaroulmoji
 
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...Marco Meoni
 
Cone beam - Modulo C
Cone beam - Modulo CCone beam - Modulo C
Cone beam - Modulo Caccademiatn
 
Kinect V2: what's new!!!
Kinect V2: what's new!!!Kinect V2: what's new!!!
Kinect V2: what's new!!!Massimo Bonanni
 
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confronto
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confrontoTerranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confronto
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confrontoProgetto Open Téchne
 
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)Piero Belforte
 
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfCancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfRiccardoCorocher
 
Caratterizzazione di sensori di immagineCMOS
Caratterizzazione di sensori di immagineCMOSCaratterizzazione di sensori di immagineCMOS
Caratterizzazione di sensori di immagineCMOSErlis Hasa
 
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...Andrea Bidinost
 
Scanner 3D e reverse Engineering
Scanner 3D e reverse EngineeringScanner 3D e reverse Engineering
Scanner 3D e reverse EngineeringPaolo Aliverti
 
Scanner 3D e Reverse Engineering
Scanner 3D e Reverse EngineeringScanner 3D e Reverse Engineering
Scanner 3D e Reverse EngineeringPaolo Aliverti
 
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...Marcello Marino
 

Semelhante a Marco lembo (20)

Videosorveglianza
VideosorveglianzaVideosorveglianza
Videosorveglianza
 
Tecniche di image forsensic per l’identificazione della sorgente
Tecniche di image forsensic per l’identificazione della sorgenteTecniche di image forsensic per l’identificazione della sorgente
Tecniche di image forsensic per l’identificazione della sorgente
 
Slides marco de_marco
Slides marco de_marcoSlides marco de_marco
Slides marco de_marco
 
albira micro pet
albira micro petalbira micro pet
albira micro pet
 
L'occhio del biologo: elementi di fotografia
L'occhio del biologo: elementi di fotografiaL'occhio del biologo: elementi di fotografia
L'occhio del biologo: elementi di fotografia
 
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...
Ispezione radiografica di fusioni in sabbia in lega leggera; limiti della CR ...
 
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVM
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVMRilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVM
Rilevamento di Anomalie Urbane attraverso il Riconoscimento Audio basato su SVM
 
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...
Kalman e ConDensation in video-tracking - Sviluppo e comparazione dei due alg...
 
Cone beam - Modulo C
Cone beam - Modulo CCone beam - Modulo C
Cone beam - Modulo C
 
Kinect V2: what's new!!!
Kinect V2: what's new!!!Kinect V2: what's new!!!
Kinect V2: what's new!!!
 
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confronto
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confrontoTerranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confronto
Terranova M. S., Dalla fotogrammetria al Kinect: approcci di rilievo a confronto
 
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)
2000 fm pb_easyscan_emission_maps_sim_vs_measure (1)
 
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfCancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
 
Caratterizzazione di sensori di immagineCMOS
Caratterizzazione di sensori di immagineCMOSCaratterizzazione di sensori di immagineCMOS
Caratterizzazione di sensori di immagineCMOS
 
Precision grafting - Ricostruzione 3D di tessuto osseo
Precision grafting - Ricostruzione 3D di tessuto osseoPrecision grafting - Ricostruzione 3D di tessuto osseo
Precision grafting - Ricostruzione 3D di tessuto osseo
 
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
 
Scanner 3D e reverse Engineering
Scanner 3D e reverse EngineeringScanner 3D e reverse Engineering
Scanner 3D e reverse Engineering
 
Scanner 3D e Reverse Engineering
Scanner 3D e Reverse EngineeringScanner 3D e Reverse Engineering
Scanner 3D e Reverse Engineering
 
Andrea_Gangemi_tesi
Andrea_Gangemi_tesiAndrea_Gangemi_tesi
Andrea_Gangemi_tesi
 
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...
ALSA and Pulse Audio: Codifica, decodifica e trattamento dei segnali Audio su...
 

Marco lembo

  • 1. Algoritmi per la classificazione di shot in filmati di telegiornale basati sull’informazione audio e video Università degli Studi di Napoli Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Candidato Marco Lembo Matricola 041/3151 Anno Accademico 2004/2005 Relatore Ch.mo Prof. Carlo Sansone Co-relatore Ing. Gennaro Percannella
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. Primo sistema proposto Single - Layer
  • 7.
  • 8. Feature Video Anchor Cloth Maschera B/N “ Hue” (UB region) Faccia Thresholding Cloth Color Stazionarietà Maschera Stationary Region Ist. “Saturation” medio Sfondo Sfondo range R range L - Differenza + Binarizzazione Face Detector
  • 9.
  • 10.
  • 11. Secondo sistema proposto Multi - Layer
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21. Risultati Sperimentali Secondo Sistema Primo sistema Secondo Sistema Primo sistema 0.282 0.978 0.165 5 1145 226 3979 229 K-Means 0.941 0.943 0.939 13 14 216 3979 229 Recovery 0.934 0.891 0.967 25 7 204 3979 229 Face Detection 0.815 0.891 0.764 25 63 204 3979 229 Lifetime 0.623 0.934 0.477 15 235 214 3979 229 Clustering F Recall Precision Missed False Hit News-Report Anchor   Canale 5 0.439 0.976 0.283 8 840 332 4004 340 K-Means 0.975 0.979 0.971 7 10 333 4004 340 Recovery 0.957 0.924 0.994 26 2 314 4004 340 Face Detection 0.915 0.924 0.913 26 30 314 4004 340 Lifetime 0.812 0.935 0.723 22 122 318 4004 340 Clustering F Recall Precision Missed False Hit News-Report Anchor   RAI1
  • 22. Confronto con altri algoritmi Video… (sullo stesso dataset) RAI1 C5 0.975 0.979 0.971 7 10 333 4004 340 Nostro sistema (Multi-Layer) 0.768 0.644 0.952 121 11 219 4004 340 Hanjalic (1999) 0.868 0.841 0.898 80 24 260 4004 340 Gao (2002) 0.888 0.819 0.968 67 10 304 4004 340 Bertini (2001) F Recall Precision Missed False Hit News-Report Anchor Algoritmo 0.941 0.943 0.939 13 14 216 3979 229 Nostro sistema (Multi-Layer) 0.693 0.568 0.892 99 16 130 3979 229 Hanjalic (1999) 0.745 0.891 0.641 25 114 204 3979 229 Gao (2002) 0.869 0.834 0.908 15 22 214 3979 229 Bertini (2001) F Recall Precision Missed False Hit News-Report Anchor Algoritmo
  • 23. Confronto con altri algoritmi Audio/Video (su dataset diversi) ~ 17 h 2 45  0.96 0.97 0.96 Nostro sistema (Multi-Layer) ~ 2 h 1 4 0.84 0.75 0.95 NAG (1991) ~ 1.5 h 1 3 0.92 0.87 0.98 CHA (2003) ~ 0.5 h 1 1 0.94 0.93 0.95 EIC (1999) ~ 64 h 2 118 0.69 0.65 0.74 KDDI Lab (2004) Lunghezza totale (h) Emittenti Video F Precision Recall Dataset Performance Algoritmo
  • 24.
  • 25.