Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile
1. Università degli studi di roma
“TOR VERGATA”
Confronto tra riconoscitori
vocali embedded e distribuiti
per telefonia mobile
DAVID FUNARO
Prof. Salvatore Tucci Dott. Ing. Fabrizio Giacomelli
domenica 17 febbraio 13
2. FOCUS ON
Sistema di riconoscimento Vocale
Computer
Desktop
domenica 17 febbraio 13
3. FOCUS ON
Sistema di riconoscimento Vocale
Computer
Desktop
Dispositivi
Mobili
domenica 17 febbraio 13
4. FOCUS ON
Sistema di riconoscimento Vocale
Computer
}
Desktop
riconoscimento
ASR
Dispositivi Integrato
Mobili
domenica 17 febbraio 13
5. Premessa 1
Sistema di Riconoscimento Vocale:
•
ottime prestazioni su sistemi
desktop.
• problemi all’aumentare della
cardinalità del dizionario su
sistemi mobili
domenica 17 febbraio 13
6. Performance:
Desktop Vs. Mobile
80
70
Degrado delle 60
performance 50
%WER
all’aumentare della 40
cardinalità del 30
20
dizionario
10
500 1000 0
1500 2000 10000
Cardinalità dizionario
Desktop Mobile
domenica 17 febbraio 13
7. Performance:
Desktop Vs. Mobile
80
70
Degrado delle 60
performance 50
%WER
all’aumentare della 40
cardinalità del 30
20
dizionario
10
500 1000 0
1500 2000 10000
Cardinalità dizionario
Desktop Mobile
domenica 17 febbraio 13
8. Premessa 2
• il problema è strettamente connesso
alla capacità computazionale
• ad oggi non è possibile aumentare le
potenzialità di un dispositivo mobile
domenica 17 febbraio 13
9. Quesito
è possibile allineare le
performance di riconoscimento
vocale su dispositivo mobile a
quelle ottenute su sistemi
desktop?
domenica 17 febbraio 13
10. La Soluzione
...consiste nell’abbandonare il
modello ASR e adottarne uno che
si basi sulla “distribuzione” del
processo di riconoscimento
vocale...
domenica 17 febbraio 13
11. ... ovvero passare da ...
ASR
Automatic Speech Recognition
Integrato
domenica 17 febbraio 13
12. ... ovvero passare da ...
DSR
Distributed Speech Recognition
domenica 17 febbraio 13
14. Motore di riconoscimento
Signal processing: Matching: confronto e
elaborazione audio per verifica del
ottenere le caratteristiche riconoscimento
dello “speech”
Segnale Audio Signal Processing Stringa di testo
Matching
motore ASR
domenica 17 febbraio 13
15. DSR
Signal Processing
Matching
ASR
Smartphone Desktop
domenica 17 febbraio 13
16. DSR
L’obiettivo è lasciare al desktop la logica di servizio e i
componenti più onerosi computazionalmente
Signal Processing
Matching
ASR
Smartphone Desktop
domenica 17 febbraio 13
17. DSR
L’obiettivo è lasciare al desktop la logica di servizio e i
componenti più onerosi computazionalmente
Signal Processing
Matching
ASR
Smartphone Desktop
domenica 17 febbraio 13
18. DSR
L’obiettivo è lasciare al desktop la logica di servizio e i
componenti più onerosi computazionalmente
Signal Processing Operatività e comunicazione
definita dal protocollo
ETSI-AURORA
Matching
ASR
Smartphone Desktop
domenica 17 febbraio 13
19. DSR
Signal Processing Operatività e comunicazione
definita dal protocollo
ETSI-AURORA
Matching
ASR
Smartphone Desktop
A questo punto tutto “si gioca” sulla capacità dello
smartphone di ...
domenica 17 febbraio 13
20. ...garantire performance
elevate (al pari di quelle di
un desktop) nella gestione
del signal processing
domenica 17 febbraio 13
21. Operatività
Client
Features Features Bitstreaming
Extraction Compression Coding
Terminal-Front End
SIP/RTP
Server
Bistreaming Features Server Features
Decoding Decompression Processing
Server-Front End
VoxNauta
domenica 17 febbraio 13
22. Operatività
Client
Features Features Bitstreaming
Extraction Compression Coding
Terminal-Front End
SIP/RTP
Server
Bistreaming Features Server Features
Decoding Decompression Processing
Server-Front End
VoxNauta
domenica 17 febbraio 13
23. Operatività
Client
Features Features Bitstreaming
Extraction Compression Coding
Terminal-Front End
SIP/RTP
Server
Bistreaming Features Server Features
Decoding Decompression Processing
Server-Front End
VoxNauta
domenica 17 febbraio 13
24. Esperimento
1.Confrontiamo il risultato del
“processo di estrazione” ottenuto
con dispositivi aventi differenti
capacità computazionali
domenica 17 febbraio 13
25. Processo di estrazione
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
26. Processo di estrazione
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
27. Processo di estrazione
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
28. Processo di estrazione
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
29. Processo di estrazione
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
30. Processo di estrazione
VS
Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features
domenica 17 febbraio 13
31. Metriche
• Confidenza: percentuale di certezza con la
quale il motore propone una scelta
domenica 17 febbraio 13
33. Conclusioni esperimento
Il confronto ha messo in evidenza che il
risultato del processo di estrazione delle
features è indipendente dalla capacità
computazionale
dopo tale verifica possiamo mettere a
confronto i due modelli di riconoscimento
per dispositivi mobili.
domenica 17 febbraio 13
34. Confronto modelli
Dizionari
2 .000
Channel
10 .000
DSR eASR
Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario
domenica 17 febbraio 13
35. Confronto modelli
Dizionari
2 .000
Channel
10 .000
DSR eASR
Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario
domenica 17 febbraio 13
36. Confronto modelli
Dizionari
2 .000
Channel
10 .000
DSR eASR
Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario
domenica 17 febbraio 13
37. Confronto modelli
Dizionari
2 .000
Channel
10 .000
DSR VS eASR
Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario
domenica 17 febbraio 13
38. Metriche
• Confidenza: percentuale di certezza con la
quale il motore propone una scelta
domenica 17 febbraio 13
39. Metriche
• Confidenza: percentuale di certezza con la
quale il motore propone una scelta
• WER (word error rate): percentuale di
riconoscimenti falliti in relazione al totale
dei riconoscimenti effettuati
#riconoscimenti f alliti
W ER =
#riconoscimenti totali
domenica 17 febbraio 13
42. Confronto WER
80
Il WER indica la 60
percentuale di
%WER
parole sbagliate in 40
relazione a quelle
pronunciate 20
2000
0
embedded10000 distribuito
Cardinalità dizionario
domenica 17 febbraio 13
43. Confronto WER
80
Il WER indica la 60
percentuale di
%WER
parole sbagliate in 40
relazione a quelle
pronunciate 20
2000
0
embedded10000 distribuito
Cardinalità dizionario
domenica 17 febbraio 13
44. Confronto WER
80
Il WER indica la 60
percentuale di
%WER
parole sbagliate in 40
relazione a quelle
pronunciate 20
2000
0
embedded10000 distribuito
Cardinalità dizionario
domenica 17 febbraio 13
45. Confronto Tempi di risposta
7,00
5,25
Scarto dovuto alla
Secondi
comunicazione di 3,50
rete tra client e
server 1,75
0
embedded distribuito
domenica 17 febbraio 13
46. Confronto Tempi di risposta
7,00
5,25
Scarto dovuto alla
Secondi
comunicazione di 3,50
rete tra client e
server 1,75
0
embedded distribuito
domenica 17 febbraio 13
47. Confronto Tempi di risposta
7,00
5,25
Scarto dovuto alla
Secondi
comunicazione di 3,50
rete tra client e
server 1,75
0
embedded distribuito
domenica 17 febbraio 13
50. Demo
• Servizio che necessita di vocabolario ampio
• API di Google Maps
domenica 17 febbraio 13
51. Conclusioni
• L’utilizzo del modello distribuito aumenta le
performance di riconoscimento a scapito
dei tempi di risposta
• Un modello ibrido (ASR, DSR a bordo) in
grado di scegliere il modello di
riconoscimento in base al servizio potrebbe
essere la soluzione migliore
domenica 17 febbraio 13