1. SPRACHERKENNUNG
UNIVERSITÄT ZU KÖLN
COMPUTERLINGUISTIK IM WS 2008 / 09
JENNIFER STEINBACH
BILAL ERKIN
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
2. SPRACHERKENNUNG
Was ist Spracherkennung?
Unter Spracherkennung (engl. speech recognition)
versteht man das Erkennen gesprochener Sprache.
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
3. GESCHICHTE
• Erforschung von Spracherkennungssystemen seit den 1960er Jahren
• bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert
Einzelwörtern
• im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt
• ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter;
Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz
• IBM entwickelt 1992 SpeechServer als Client/Server
Client/Server-System
- Server benötigte RISC-Prozessoren
- Kostenpunkt um die 10.000$
• IBM entwirft 1993 erneut ein Spracherkennungssystem Personal DictationSystem (heute: IBM
VoiceType)
- Spracherkennung erstmals für den breiten Markt
- Kostenpunkt unter 1.000$
• 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server
Client/Server-System für
Spracherkennung
• drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98)
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
4. SPRACHERKENNUNG
Sprecherunabhängige Spracherkennung
Keine Trainingsphase
Geringer Wortschatz
Mehrere Benutzer möglich
Sprecherabhängige Spracherkennung
Anpassung auf den jeweiligen Benutzer
Trainingsphase
Keine wechselnden Benutzer möglich
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
5. HERAUSFORDERUNGEN
HERAUSFORDERUNGE
AUSSPRACHE
UMGEBUNGSGERÄUSCHE
HOMOPHONE
VOKALERKENNUNG
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
6. AUSSPRACHE
Diskrete Sprache
Künstliche Pause zwischen den Wörtern
Kontinuierliche Sprache
Flüssige Aussprache ohne Pause
Bilder: www.wikipedia.de
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
7. UMGEBUNGSGERÄUSCHE
Bürolärm
Fahrgeräusche
Andere Personen
Rauschen der Telefonleitung
Diese sollten entfernt werden
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
8. HOMOPHONE
Wörter die identisch klingen, aber eine andere
Bedeutung haben
Meer ≠ mehr
Graf ≠ Graph
Usw…
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
9. VOKALERKENNUNG
Vokale sind von ihren Frequenzbereichen zu
unterscheiden
„O“ liegt im Frequenzbereich tiefer als „E“
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
10. REALISIERUNG
VORVERARBEITUNG
MERKMALSEXTRAKTION
UNTEREINHEITENVERGLEICH
HIDDEN-MARKOV-MODELLE
SYNTAKTISCHE / SEMANTISCHE ANALYSE
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
11. VORVERARBEITUNG
Entfernung von Störgeräuschen
Entfernung von Sprachsignalen anderer
Personen
Ziel: Vereinfachung und Beschleunigung der
Weiterverarbeitung
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
13. UNTEREINHEITENVERGLEICH
Umwandlung der Merkmalsvektoren in Phoneme,
Silben und Wörter
Angewendete Sprachmoddelle:
Hidden-Markov-Modelle
Neuronale Netze
…
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
14. HIDDEN-MARKOV
MARKOV-MODELLE
Stochastische Methode, um Phoneme zu finden,
die am besten zu den Eingangssignalen passen
Fehlt ein wichtiges Phonem, kann das Wort nicht
zugeordnet werden
HMMs berechnen die Wahrscheinlichkeit aus
welcher Folge von Phonemen das Wort
enstanden sein könnte
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
15. HIDDEN-MARKOV MODELLE
MARKOV
Jedes Phonem wird durch einen Zustand
dargstellt
O F E N
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
16. HIDDEN-MARKOV MODELLE - II
MARKOV
Übergänge zu den nächsten Zuständen enthalten
Wahrscheinlichkeitswerte
O F E N
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
17. HIDDEN-MARKOV MODELLE - Ablauf
MARKOV
Aussuchen eines Phonems und Vergleich mit
dem Audiosignal
Wiederholdung, falls keine Übereinstimmung
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
18. HIDDEN-MARKOV MODELLE - Ablauf
MARKOV
Ausgabe des Phonems bei Übereinstimmung
O
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
19. HIDDEN-MARKOV MODELLE - Ablauf
MARKOV
Übergang zum nächsten Zustand
O
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
20. HIDDEN-MARKOV MODELLE - Ablauf
MARKOV
Übergang zum nächsten Zustand
O F E N
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
21. HIDDEN-MARKOV MODELLE – Ablauf
MARKOV
HMMs können auch auf anderen Ebenen
angewendet werden (Syntax, Semantik)
O F E N
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
22. SYNTAKTISCHE / SEMANTISCHE ANALYSE
Syntaktische Analyse
Zulassung von Wörtern, die nur im Wörterbuch vorhanden
sind
Vorgegebene Reihenfolge der Wörter (Grammatik)
Semantische Analyse
Erkennung der Satzstruktur
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
23. PERSPEKTIVEN
Keinen universellen Spracherkenner
Systeme für spezielle Anwendungen
Optimierung bei der Entfernung der
Umgebungsgeräusche
Erkennung unbekannter Wörter
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
24. WINDOWS VISTA - SPRACHERKENNUNG
• Windows Vista verfügt über leistungsstarke
Sprachfeatures
• Mit Hilfe dieser Sprachfeatures wird dem Anwender
ermöglicht, den Computer statt mit der Tastatur oder
der Maus mittels Sprachbefehlen zu steuern.
• Die Spracherkennung unter Windows Vista ermöglicht
die Interaktion mit dem Computer per Stimme.
• Es können Dokumente und E
E-Mail-Nachrichten in
gängigen Anwendungen diktiert und Formulare im
Internet mit Hilfe von Sprachbefehlen ausgefüllt werden.
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
25. SPRACHERKENNUNG - ENTWICKLUNG
• Entwicklung von multilingualen Spracherkennungssystemen
• Multilinguale Spracherkennungssysteme:
o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt
werden können.
Vorteile:
- man kann während des Diktiervorgangs zwischen den Sprachen wechseln
Nachteile:
- Entwicklung sehr kostspielig, da erst das gesamte Vokabular der
jeweiligen Sprache erfasst werden muss
- Entwicklungsdauer somit sehr lang
- es gibt bis jetzt kein System, das diese Fähigkeiten aufweist
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
26. QUELLENNACHWEIS
• http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467
karlsruhe.de/volltexte/1000008467
• http://www.lars-lehre.de/download/Vorlesung5.pdf
• http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm
wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm
• Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink.
• Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und
Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum.
• Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006.
Verlag,
Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.
www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI-
-GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt
http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html
hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html
Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach