Software übersetzt Handyanrufe simultan
Zwischen ein Telefonat mit dem Handy oder ISDN-Telefon geschaltet, übersetzt eine neue Software gesprochene Sprache in Englisch, Deutsch, Japanisch oder Chinesisch annähernd in Echtzeit.
Wenn es um die Entwicklung von Software zur Spracheingabe geht, dann stehen deutsche Programmierer weltweit mit an der Spitze. Darüber berichtet jetzt das Wissenschaftsmagazin NewScientist. In Seattle präsentierte das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) sein Verbmobil: Zwischen ein Telefonat mit dem Handy oder ISDN-Telefon geschaltet, übersetzt die Software die gesprochene Sprache in Englisch, Deutsch, Japanisch oder Chinesisch annähernd in Echtzeit.
Das Programm ist in der Lage, frei formulierte Alltagssprache zu erkennen, zu analysieren, in eine Fremdsprache zu übersetzen und den so konstruierten Satz auszusprechen. Bevor es jedoch zur Ausgabe des übersetzten Satzes kommt, muss das Programm einiges an Arbeit leisten, denn im Gegensatz zu text-basierten Übersetzungsprogrammen, bei denen es auf einen möglichst großen Wortschatz ankommt, oder PC-Diktierprogrammen, die stundenlang auf den Anwender trainiert werden müssen, liegt der Schwerpunkt von Verbmobil auf dem Erkennen des Gesprochenen. Und dabei ist einer der großen Vorteile bei der Spracheingabe zugleich auch ein Nachteil: die Sprecherunabhängigkeit. Das System kann und muss ad hoc mit jedem Anrufer zurechtkommen.
Dies ist schwierig, denn die Spontansprache unterscheidet sich von der formulierten Schriftsprache: Neben Hintergrundgeräuschen, die das Erkennen erschweren, werden in der Spontansprache beispielsweise Gedankengänge fortlaufend in Sprache umgesetzt, wobei sehr häufig auch grammatikalisch eigentlich nicht korrekte Sätze entstehen. Verbmobil muss deshalb mit abgebrochenen Sätzen, Einschüben und Selbstkorrekturen umgehen können. Nicht bedeutungstragende Äußerungselemente wie Räuspern, Pausenfüller wie "äh" und "ehm" werden von der Spracherkennung zunächst wie spezielle Wörter behandelt und für die weitere Analyse aus der Eingabe entfernt. Bei umgangssprachlichen Sätze wie "Ja, ich weil also würde mal sagen äh vorschlagen, wir könnten uns am äh 7. treffen so im Mai", der von einem an der Schriftsprache orientierten System abgelehnt würde, schafft es Verbmobil durch die Kombination von statistischen und linguistischen Verfahren trotzdem, dem Gegenüber am Telefon die zumindest rein formal korrekte Übersetzung "How about the seventh of May?" auszugeben.
Da gesprochene Sprache zudem keinerlei Interpunktion kennt, muss das Programm durch die Betonung, Einbeziehung des Kontextes und des Dialogverlaufs den Satz auf seinen Sinn hin analysieren. Durch die Berücksichtigung der Prosodie können Mehrdeutigkeiten auch von einzelnen Wörtern wie etwa "noch" für die Übersetzung aufgelöst werden. Mit Hilfe von Mustererkennung und Wahrscheinlichkeiten tastet sich das Programm quasi an den richtigen Satz heran, und das immerhin so gut, dass bei 90 Prozent aller Fälle der Gegenüber den Sinn des Satzes versteht, auch wenn dieser nicht immer ganz korrekt ist. "Das konnten wir in Tests mit 25.000 Übersetzungen nachweisen, die wir durch Dolmetscher bewerten ließen", erklärt Mitentwickler Wolfgang Wahlster. Die Verzögerung bei der Übersetzung liegt zwischen einigen Millisekunden und einigen Sekunden, abhängig vom Umfang und Qualität des eingehenden Satzes. Nicht unwichtig ist dabei auch die Sprachsynthese, sodass die Aussprache nicht roboterhaft, sondern möglichst natürlich erfolgt. Dazu gehört nicht nur, dass die zum Inhalt des Redebeitrages passende Satzmelodie errechnet wird, sondern auch, dass über neuronale Netze versucht wird, den Stimmcharakter des jeweiligen Sprechers nachzubilden.
Die Gesamtverarbeitungszeit von der Eingabe bis zur Ausgabe teilt sich im Mittel folgendermaßen auf: Spracherkennung 38 Prozent, Prosodie 17 Prozent, Syntax und Semantik 25 Prozent, semantische Auswertung und Dialog 14 Prozent, Transfer 3 Prozent und Generierung 3 Prozent. Um all diese Berechnungen in einer angemessenen Zeit durchführen zu können, muss der Wortschatz auf bestimmte Themen beschränkt bleiben. So ist Verbmobil, wie jede heutzutage weltweit entwickelte Spracheingabe, domänenorientiert, das heißt es wird nur ein für das jeweilige Thema relevanter Wortschatz verwendet, wie beispielsweise für Terminvereinbarungen mit Geschäftspartnern, die Reiseplanung oder Hotelbuchung. "Smalltalk in der Fremdsprache ist heute noch nicht möglich", erklärt Projektmanager Reinhard Karger. "Dafür ist das erforderliche Weltwissen einfach zu groß". Derzeit stehen Verbmobil für den Deutsch-Englisch-Dialog 10.000 Wörter und für Deutsch-Japanisch 2.500 Wörter zur Verfügung. Damit können auch multilinguale Konferenzen abgehalten werden, in denen zum Beispiel ein Deutscher mit einem Amerikaner und einem Japaner parallel am Telefon spricht. Von der Unterhaltung ein Wortprotokoll anzufertigen ist ebenso möglich. Um sowohl Anrufe von ISDN-Telefonen, über Datenkanäle sowie aus dem Mobilfunknetz entgegenzunehmen, haben die Forscher Verbmobil auf einem zentralen Sprachserver implementiert. Dadurch sind an den Endgeräten keine technische Änderungen notwendig.
Verbmobil ist aber nur ein Beispiel, wie Spracheingabe in Zukunft den Umgang mit Maschinen und Geräten verändern wird. Anwendungen, die auf den Forschungsergebnissen des DFKI beruhen und von den beteiligten Projektpartnern aus der Industrie übernommen wurden, gibt es schon einige. So wirbt bereits Daimler-Chrysler mit der LinguaTronic, die als Sprachschnittstelle zum Auto dienen soll. Die Firma Aixplain, ein Spin-off der Uni Erlangen, bietet Dialogsysteme für Telefon-Hotlines an. Daneben plant Philips, endlich den sprachgesteuerten Videorekorder marktfähig zu machen, während Siemens gleich das ganze Haus intelligent per Sprache steuern will. Auch den Verbmobil-Server gibt es – im Prinzip. "Theoretisch könnte da jeder anrufen, aber wir sind kein Dienstleister", betont Karger. "Im Prinzip kann man sich jede Menge neuer Dienstleitungen durch Sprachsteuerung vorstellen, denken sie nur mal an Informationen über das Wetter, die Börse oder das TV-Programm. Statt sich die Informationen, die ohnehin in Datenbanken vorliegen, umständlich per Internet herauszusuchen, reicht ein Anruf bei einer Servicenummer." (Andreas Grote) / (jk)