Spracherkennung

SPRACHERKENNUNG

UNIVERSITÄT ZU KÖLN

COMPUTERLINGUISTIK IM WS 2008 / 09

JENNIFER STEINBACH
BILAL ERKIN

Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

SPRACHERKENNUNG

 Was ist Spracherkennung?

 Unter Spracherkennung (engl. speech recognition)
versteht man das Erkennen gesprochener Sprache.


GESCHICHTE

• Erforschung von Spracherkennungssystemen seit den 1960er Jahren

• bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert
Einzelwörtern

• im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt

• ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter;
Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz

• IBM entwickelt 1992 SpeechServer als Client/Server
Client/Server-System
- Server benötigte RISC-Prozessoren
- Kostenpunkt um die 10.000$

• IBM entwirft 1993 erneut ein Spracherkennungssystem  Personal DictationSystem (heute: IBM
VoiceType)
- Spracherkennung erstmals für den breiten Markt
- Kostenpunkt unter 1.000$

• 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server
Client/Server-System für
Spracherkennung

• drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98)


SPRACHERKENNUNG

 Sprecherunabhängige Spracherkennung
 Keine Trainingsphase
 Geringer Wortschatz
 Mehrere Benutzer möglich

 Sprecherabhängige Spracherkennung
 Anpassung auf den jeweiligen Benutzer
 Trainingsphase
 Keine wechselnden Benutzer möglich


HERAUSFORDERUNGEN
HERAUSFORDERUNGE

AUSSPRACHE

UMGEBUNGSGERÄUSCHE

HOMOPHONE

VOKALERKENNUNG


AUSSPRACHE

 Diskrete Sprache
 Künstliche Pause zwischen den Wörtern

 Kontinuierliche Sprache
 Flüssige Aussprache ohne Pause

Bilder: www.wikipedia.de

UMGEBUNGSGERÄUSCHE

 Bürolärm

 Fahrgeräusche

 Andere Personen

 Rauschen der Telefonleitung

 Diese sollten entfernt werden

HOMOPHONE

 Wörter die identisch klingen, aber eine andere
Bedeutung haben

 Meer ≠ mehr

 Graf ≠ Graph

 Usw…


VOKALERKENNUNG

 Vokale sind von ihren Frequenzbereichen zu
unterscheiden

 „O“ liegt im Frequenzbereich tiefer als „E“


REALISIERUNG

VORVERARBEITUNG

MERKMALSEXTRAKTION

UNTEREINHEITENVERGLEICH

HIDDEN-MARKOV-MODELLE

SYNTAKTISCHE / SEMANTISCHE ANALYSE


VORVERARBEITUNG

 Entfernung von Störgeräuschen

 Entfernung von Sprachsignalen anderer
Personen

Ziel: Vereinfachung und Beschleunigung der
Weiterverarbeitung


MERKMALSEXTRAKTION

 Blockweise Aufteilung des Audiosignals

 Abfolge von Merkmalsvektoren


UNTEREINHEITENVERGLEICH

 Umwandlung der Merkmalsvektoren in Phoneme,
Silben und Wörter

 Angewendete Sprachmoddelle:
 Hidden-Markov-Modelle
 Neuronale Netze
 …


HIDDEN-MARKOV
MARKOV-MODELLE

 Stochastische Methode, um Phoneme zu finden,
die am besten zu den Eingangssignalen passen

 Fehlt ein wichtiges Phonem, kann das Wort nicht
zugeordnet werden

 HMMs berechnen die Wahrscheinlichkeit aus
welcher Folge von Phonemen das Wort
enstanden sein könnte


HIDDEN-MARKOV MODELLE
MARKOV

 Jedes Phonem wird durch einen Zustand
dargstellt

O F E N


HIDDEN-MARKOV MODELLE - II
MARKOV

 Übergänge zu den nächsten Zuständen enthalten
Wahrscheinlichkeitswerte

O F E N


HIDDEN-MARKOV MODELLE - Ablauf
MARKOV

 Aussuchen eines Phonems und Vergleich mit
dem Audiosignal
 Wiederholdung, falls keine Übereinstimmung


MARKOV

 Ausgabe des Phonems bei Übereinstimmung

O


MARKOV

 Übergang zum nächsten Zustand

O


MARKOV

 Übergang zum nächsten Zustand

O F E N


HIDDEN-MARKOV MODELLE – Ablauf
MARKOV

 HMMs können auch auf anderen Ebenen
angewendet werden (Syntax, Semantik)

O F E N


SYNTAKTISCHE / SEMANTISCHE ANALYSE

 Syntaktische Analyse
 Zulassung von Wörtern, die nur im Wörterbuch vorhanden
sind
 Vorgegebene Reihenfolge der Wörter (Grammatik)

 Semantische Analyse
 Erkennung der Satzstruktur


PERSPEKTIVEN

 Keinen universellen Spracherkenner

 Systeme für spezielle Anwendungen

 Optimierung bei der Entfernung der
Umgebungsgeräusche

 Erkennung unbekannter Wörter


WINDOWS VISTA - SPRACHERKENNUNG

• Windows Vista verfügt über leistungsstarke
Sprachfeatures

• Mit Hilfe dieser Sprachfeatures wird dem Anwender
ermöglicht, den Computer statt mit der Tastatur oder
der Maus mittels Sprachbefehlen zu steuern.

• Die Spracherkennung unter Windows Vista ermöglicht
die Interaktion mit dem Computer per Stimme.

• Es können Dokumente und E
E-Mail-Nachrichten in
gängigen Anwendungen diktiert und Formulare im
Internet mit Hilfe von Sprachbefehlen ausgefüllt werden.


SPRACHERKENNUNG - ENTWICKLUNG

• Entwicklung von multilingualen Spracherkennungssystemen

• Multilinguale Spracherkennungssysteme:
o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt
werden können.

Vorteile:
- man kann während des Diktiervorgangs zwischen den Sprachen wechseln

Nachteile:
- Entwicklung sehr kostspielig, da erst das gesamte Vokabular der
jeweiligen Sprache erfasst werden muss

- Entwicklungsdauer somit sehr lang

- es gibt bis jetzt kein System, das diese Fähigkeiten aufweist


QUELLENNACHWEIS

• http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467
karlsruhe.de/volltexte/1000008467

• http://www.lars-lehre.de/download/Vorlesung5.pdf

• http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm
wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm

• Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink.

• Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und
Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum.

• Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006.
Verlag,

 Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.

 www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI-
-GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt

 http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html
hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html


Spracherkennung

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Spracherkennung