Hörmaschine

Sie können schneller reden als tippen und die Tastatur ist Ihr ärgster Gegner? Dann könnte ein automatisches Diktierprogramm Ihre Rettung sein. Zumal Sie sich damit voll auf der Höhe der Zeit bewegen, denn Spracherkennung ist nach Ansicht von Analysten die Killer-Applikation der Zukunft.

3

12.08.2000, 00:00 Uhr

Lesezeit: 6 Min.

c't Magazin

Von

Ulrike Kuhlmann

Börsenanalysten prophezeien der Technik, die Tastatur und Maus ersetzen will, vor allem für Internetanwendungen eine goldene Zukunft. Folgerichtig haben sich große Internetfirmen wie Lycos oder AOL bei Unternehmen eingekauft, die diese Zukunftstechnik entwickeln. Und weil das Telefon ebenfalls involviert ist - schließlich sollen wir alle demnächst dem E-Commerce übers Handy verfallen -, knüpfen auch Handy-Hersteller, Telefongesellschaften und Internet-Telefonie-Provider enge Beziehungen zu Sprachtechnologiefirmen. Neben dem knallharten Geschäft haben die Unternehmen auch etliche Ideen im Kopf.

Kein Lichtschalter muss mehr betätigt, kein Schlüssel ins Schloss gesteckt werden - ‘Radio an’, ‘Beleuchtung aus’, ‘Haustür öffnen’ oder ‘nach Hause telefonieren’ reichen künftig aus. Auch der Kühlschrank kommt zu Verstand und erkundigt sich zum Beispiel, ob der Milchvorrat aufgestockt werden soll - letzteres natürlich per Order im virtuellen Supermarkt. Das sprechende und verstehende Heim, das uns schon bald das Leben versüßen wird, halten nicht nur Visionäre für machbar.

Im Auto ist die Sprachsteuerung längst Realität: Radio, Klimaanlage oder Schiebedach gehorchen bei Mercedes & Co ebenso aufs Wort wie der eingebaute Routenplaner oder das integrierte E-Mail-Programm. Den lieben Kleinen wird die Zukunftstechnik bereits mit plaudernden Plüschtieren, per Sprache steuerbarer Spielsoftware oder sprachgestützten PC-Verriegelungen, die es zu knacken gilt, ans Herz gelegt. Auch Handy, PDA & Co. sollen in naher Zukunft sprechen und verstehen lernen. Der legendäre Wecker von Braun, der sein Klingeln auf Zuruf einstellte, beweist allerdings, dass sich nicht alle Sprachanwendungen durchsetzten. Wahrscheinlich konnten zu viele Menschen ‘sei still’ auch im Traum ausrufen.

Kein Spock-Feeling

Die automatische Spracherkennung am PC ist bereits seit geraumer Zeit verfügbar. Beschränkten sich die ersten Systeme noch auf Diktataufzeichnungen, kann man mit solchen Programmen inzwischen zusätzlich den Desktop oder komplette Anwendungen steuern. Allerdings funktioniert diese Navigation auch mit den aktuellen Diktiersystemen längst nicht so, wie es sich die meisten Anwender dank Raumschiff Enterprise vorstellen. Der PC gehorcht mitnichten frei formulierten, sondern nur bestimmten Anweisungen. Zudem sind die notwendigen Befehle zum Teil so umständlich, dass man schnell wieder zur Tastatur oder Maus greift. Der Weg zur intuitiven Sprachsteuerung scheint noch lang. Weniger frustrierend und deutlich effizienter sind dagegen die reinen Diktierfunktionen.

Stete Verbesserung

Bevor man ein Diktierprogramm benutzen kann, muss man es mit vorgegebenen Texten trainieren. Es erstellt anhand dieses ersten Diktats ein so genanntes Sprecherprofil, in dem die typische Sprechweise des Benutzers abgelegt ist. Jedes weitere Diktat verfeinert das Profil, die Texterkennung wird also mit der Zeit immer besser. Da ein Diktiersystem jedoch nur solche Wörter korrekt erkennen kann, die in seinem Wortschatz sind, muss man den Programmen neue Wörter ‘beibringen’.

Dies passiert bei der Korrektur: Man holt falsch erkannte Wörter per Sprache in ein spezielles Fenster, korrigiert dort ihre Schreibweise und befördert sie anschließend zurück in den Text. Dabei übernimmt der Erkenner gleichzeitig das korrigierte Wort ins Vokabular. Die Fehlerkorrektur im Text ist im Allgemeinen zwar schneller erledigt. Sie erweitert jedoch nur dann das Vokabular, wenn der Text am Ende des Diktats oder der Korrekturen analysiert wird. Manche Systeme erledigen solche Analysen laufend automatisch, andere sammeln die Sprachdaten im Hintergrund, bis sie eine ausreichende Menge gefunden haben, um das Profil zu verfeinern und das so genannte aktive Vokabular zu vergrößern. Im Unterschied zum passiven Vokabular, das nur korrekte Schreibweisen kennt, enthält das aktive Vokabular auch die Sprechweise für Wörter.

Kein Diktiersystem kennt übrigens ganze Wörter, sondern immer nur Lautfolgen (so genannten Phoneme), aus denen sich jedes Wort zusammensetzen lässt. Liest man etwas vor, ‘hört’ der Erkenner lediglich die Lautfolgen und fügt sie blitzschnell anhand von Folgewahrscheinlichkeiten zu ganzen Wörtern und Sätzen zusammen. Einige Programme generieren nach einer Dokumentenanalyse die Sprechweise neu gefundener Wörter selbstständig aus vergleichbaren Lautfolgen. Dem Anwender erspart diese Vorgehensweise natürlich eine Menge Arbeit, schließlich muss er diese Wörter nicht mehr trainieren.

Testroutinen

Wir testeten fünf aktuelle Diktiersystemen auf ihre Fähigkeiten als digitale Schreibkraft. Vier der Testkandidaten, nämlich ViaVoice Millennium Pro von IBM, FreeSpeech 2000 von Philips, NaturallySpeaking Preferred von Dragon Systems und VoiceXpress Professionel von Lernout&Hauspie, sind Windows-Programme. Der fünfte Prüfling ist ViaVoice Millennium für Mac von IBM, das aktuelle Diktiersystem für Mac OS.

Vier der Systeme testeten wir mit den beigelegten Headsets, FreeSpeech mit dem SpeechMike. Das mausähnliche Eingabegerät mit integriertem Mikrofon, das Philips zu seinem Diktierprogramm lieferte, trägt man im Unterschied zu den Bügelmikrofonen beim Diktat nicht auf dem Kopf, sondern in der Hand.

Nach der Installation trainierten wir die Programme mit der minimal vorgegebenen Anzahl von Sätzen und lasen anschließend unsere Testtexte vor. Dieses waren ein kurzer persönlicher Brief, eine E-Mail, die uns ein Leser zum Thema Rückenschmerzen schickte, ein Zeitungsartikel mit politischem Inhalt, ein Auszug aus einem typischen c't-Artikel sowie als Geschäftskorrespondenz ein leicht verkürzter Grauert-Brief [1]. Anschließend ließen wir die Programme 15 weitere Textdokumente analysieren, um den aktiven Wortschatz zu erweitern. Danach folgte ein weiterer Lesedurchlauf mit den gleichen Testtexten wie zuvor. Nach der Korrektur lasen wir die Texte ein drittes Mal vor, wobei den Diktierprogrammen nun alle Wörter bekannt waren.

Andere Programme

Neben unseren Prüflingen gibt es natürlich noch eine beträchtliche Anzahl weiterer Diktierprogramme. Alle derzeit erhältlichen Diktierprogramme für die deutsche Sprache beruhen jedoch auf den Erkennern unserer fünf Kandidaten oder auf Vorgängerversionen derselben. Die Erkennungsqualität wird sich demzufolge grundsätzlich nicht unterscheiden. Viele billige Diktierprogramme basieren auf ‘alten’ Erkennern, haben einen eingeschränkten Funktionsumfang, bringen ein billiges Headset mit oder ein stark eingeschränktes Vokabular. Auch die Hersteller unserer Testkandidaten bieten preisgünstigere Versionen an; hier ist dann der Erkennerkern selbst auf dem neuesten Stand der Technik, nur die Ausstattung der Programme variiert. Vor dem Kauf eines Diktiersystems sollte man sich immer genau erkundigen, welcher Erkenner in welcher Version verwendet wird, welcher Funktionsumfang zur Verfügung steht und wie viele Wörter das Vokabular umfasst. Wer hier an ein ‘altes’ Programm mit stark eingeschränkter Ausstattung gerät, kann beim Diktat schnell enttäuscht werden.

Weiteres finden Sie in c't 17/2000 ab Seite 118. (uk)