[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile

Università degli studi di roma
“TOR VERGATA”

Confronto tra riconoscitori
vocali embedded e distribuiti
per telefonia mobile

DAVID FUNARO

Prof. Salvatore Tucci Dott. Ing. Fabrizio Giacomelli
domenica 17 febbraio 13

FOCUS ON
Sistema di riconoscimento Vocale

Computer
Desktop


FOCUS ON

Computer
Desktop

Dispositivi
Mobili


FOCUS ON

Computer

}
Desktop
riconoscimento
ASR
Dispositivi Integrato
Mobili


Premessa 1
Sistema di Riconoscimento Vocale:
•
ottime prestazioni su sistemi
desktop.
• problemi all’aumentare della
cardinalità del dizionario su
sistemi mobili

Performance:
Desktop Vs. Mobile
80

70

Degrado delle 60

performance 50

%WER
all’aumentare della 40

cardinalità del 30

20
dizionario
10

500 1000 0
1500 2000 10000
Cardinalità dizionario
Desktop Mobile

Premessa 2

• il problema è strettamente connesso
alla capacità computazionale
• ad oggi non è possibile aumentare le
potenzialità di un dispositivo mobile


Quesito

è possibile allineare le
performance di riconoscimento
vocale su dispositivo mobile a
quelle ottenute su sistemi
desktop?


La Soluzione

...consiste nell’abbandonare il
modello ASR e adottarne uno che
si basi sulla “distribuzione” del
processo di riconoscimento
vocale...


... ovvero passare da ...

ASR
Automatic Speech Recognition
Integrato


... ovvero passare da ...

DSR
Distributed Speech Recognition


Motore di riconoscimento

Segnale Audio Stringa di testo

motore ASR

Motore di riconoscimento
Signal processing: Matching: confronto e
elaborazione audio per veriﬁca del
ottenere le caratteristiche riconoscimento
dello “speech”

Segnale Audio Signal Processing Stringa di testo

Matching

motore ASR

DSR

Signal Processing

Matching

ASR
Smartphone Desktop


DSR
L’obiettivo è lasciare al desktop la logica di servizio e i
componenti più onerosi computazionalmente

Signal Processing

Matching

ASR
Smartphone Desktop


DSR
L’obiettivo è lasciare al desktop la logica di servizio e i
componenti più onerosi computazionalmente

Signal Processing Operatività e comunicazione
deﬁnita dal protocollo
ETSI-AURORA
Matching

ASR
Smartphone Desktop


DSR

Signal Processing Operatività e comunicazione
deﬁnita dal protocollo
ETSI-AURORA
Matching

ASR
Smartphone Desktop
A questo punto tutto “si gioca” sulla capacità dello
smartphone di ...

...garantire performance
elevate (al pari di quelle di
un desktop) nella gestione
del signal processing


Operatività
Client
Features Features Bitstreaming
Extraction Compression Coding
Terminal-Front End

SIP/RTP
Server
Bistreaming Features Server Features
Decoding Decompression Processing
Server-Front End

VoxNauta

Esperimento

1.Confrontiamo il risultato del
“processo di estrazione” ottenuto
con dispositivi aventi differenti
capacità computazionali


Processo di estrazione

Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features


Processo di estrazione

VS

Valutare l’importanza della capacità computazionale
nel processo di estrazione delle features


Metriche

• Conﬁdenza: percentuale di certezza con la
quale il motore propone una scelta


Conﬁdenze a confronto


Conclusioni esperimento
Il confronto ha messo in evidenza che il
risultato del processo di estrazione delle
features è indipendente dalla capacità
computazionale

dopo tale veriﬁca possiamo mettere a
confronto i due modelli di riconoscimento
per dispositivi mobili.


Confronto modelli
Dizionari
2 .000
Channel

10 .000

DSR eASR

Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario


Confronto modelli
Dizionari
2 .000
Channel

10 .000

DSR VS eASR

Confrontare il comportamento dei modelli al variare
della cardinalità del vocabolario


Metriche

• Conﬁdenza: percentuale di certezza con la
quale il motore propone una scelta
• WER (word error rate): percentuale di
riconoscimenti falliti in relazione al totale
dei riconoscimenti effettuati
#riconoscimenti f alliti
W ER =
#riconoscimenti totali


Confronto conﬁdenze
2.000


Confronto conﬁdenze
10.000


Confronto WER
80

Il WER indica la 60
percentuale di

%WER
parole sbagliate in 40
relazione a quelle
pronunciate 20

2000
0
embedded10000 distribuito
Cardinalità dizionario

Confronto Tempi di risposta
7,00

5,25
Scarto dovuto alla

Secondi
comunicazione di 3,50
rete tra client e
server 1,75

0

embedded distribuito


Demo


Demo

• Servizio che necessita di vocabolario ampio
• API di Google Maps

Conclusioni
• L’utilizzo del modello distribuito aumenta le
performance di riconoscimento a scapito
dei tempi di risposta
• Un modello ibrido (ASR, DSR a bordo) in
grado di scegliere il modello di
riconoscimento in base al servizio potrebbe
essere la soluzione migliore


[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

[2007] Tesi: Confronto tra riconoscitori vocali embedded e distribuiti per telefonia mobile