Simultanübersetzer und Dialogsysteme aus deutschen KI-Schmieden

Am Karlsruher KIT werden Vorlesungen automatisiert mitgeschrieben und simultan übersetzt. Und am Sächsischen Landtag erzeugt ein Fraunhofer Spracherkenner Untertitel für den Live-Mitschnitt.

11

(Bild: Sächsischer Landtag / Steffen Giersch)

23.05.2019, 06:00 Uhr

Lesezeit: 8 Min.

c't Magazin

Von

Arne Grävemeyer

Die Simultanübersetzung einer frei gehaltenen Vorlesung – zum Teil mit Ach und Ähm, mit Nebengeräuschen, mit halbfertigen Sätzen und Wiederholungen – das kann ja wohl nicht funktionieren. Am Karlsruher Institut für Technologie (KIT) wird das trotzdem gemacht. Der Professor vorn spricht frei in sein Mikrofon und die Studenten im Hörsaal, insbesondere die fremdsprachigen Teilnehmer, verfolgen am Notebook im Browser die deutsche Transkription des Gesagten. Mit einem zeitlichen Versatz von 10 bis 15 Sekunden ist auch die Übersetzung ins Englische verfügbar.

Im Hintergrund arbeiten dazu drei Module in einem Server-System namens Lecture Translator: zunächst ein Spracherkenner, der mit künstlicher Intelligenz (KI) die gesprochenen Wörter erkennt, dann eine Textstrukturierung, die zusammenhängende Sätze ausmacht und Satzzeichen hinzufügt, sowie schließlich der eigentliche Übersetzer.

Eingeführt wurde das Projekt bereits 2012 von Informatik-Professor Alexander Waibel. Zunächst arbeitete der Übersetzer mit phrasenbasierten, statistischen Modellen, um die wahrscheinlichste Übersetzung von Wörtern im Kontext mit anderen Begriffen zu ermitteln. Seit knapp zwei Jahren setzen die Forscher auf eine multilinguale neuronale Übersetzung. Das ursprüngliche Ziel war es, in Zukunft mit einer neuronalen Architektur die Übersetzung in über 20 europäische Sprachen zu unterstützen.

Vorlesung in Karlsruhe: Den Redefluss des Vortragenden können die Studenten einen Halbsatz später im Browser-Client verfolgen – und die Übersetzung auch.

(Bild: KIT / Markus Breig)

Die Forschung findet sowohl in Karlsruhe als auch an der Carnegie Mellon University in Pittsburgh statt – Waibel lehrt an beiden Universitäten. Derzeit werden vom Lecture Translator Deutsch und Englisch als Eingangssprachen akzeptiert, als Zielsprachen unterstützt es Englisch, Deutsch, Französisch, Spanisch und Italienisch. In konkreten Projekten arbeiten die Forscher aktuell an der Einbindung nicht nur europäischer Sprachen. Als zusätzliche Eingangs- und Zielsprachen ist derzeit neben Tschechisch und Russisch auch Japanisch im Gespräch. Weitere Arbeiten betreffen verschiedene arabische Dialekte und Paschtu, eine Amtssprache in Afghanistan.

Ein Vektor für den Satzinhalt

Bei der multilingualen neuronalen Übersetzung wird als KI für die Eingangssprache ein neuronales Netz als Encoder trainiert, das für jeden Satz zu jedem Wort die wahrscheinlichste Bedeutung ermittelt und in einen mathematischen Vektor übersetzt, den sogenannten Annotation Vector. Auf der anderen Seite wird für jede Zielsprache ein neuronales Netz trainiert, das den Vektor in die Zielsprache überträgt.

Der Umstieg auf das multilinguale Modell hat eine überraschende Verbesserung mit sich gebracht, wie Dr. Sebastian Stüker vom KIT-Institut für Anthropomatik sagt: Der Annotation Vector als mehrdimensionale mathematische Darstellung zwischen Sprach-Encoder und -Decoder enthält tatsächlich die Semantik des gesprochenen Satzes, also seine Bedeutung. Mit dieser Vektorrepräsentation ergibt sich die Möglichkeit, einen Übersetzer zwischen zwei Sprachen herzustellen, die so als Sprachpaar gar nicht trainiert wurden. Wenn also zum Beispiel die Sprachpaare Deutsch-Englisch und Französisch-Japanisch schon realisiert worden sind, lässt sich über den Zwischenschritt des Annotation Vector kurzfristig ein Sprachpaar Deutsch-Japanisch bilden.

Stüker erläutert: „Wenn nur geringe Trainingsdaten für ein Sprachenpaar vorhanden sind, dann würden wir zunächst tatsächlich diesen Weg gehen.“ Im Prinzip seien im derzeitigen Übersetzungssystem des KIT alle Eingabesprachen mit allen Ausgabesprachen verknüpfbar.

Ein Stotterer und die Folgen

Die Forscher wissen, dass Perfektion bei der Simultanübersetzung kaum zu erreichen ist. Spracherkenner, Strukturierer und Übersetzer – die drei Module weisen jeweils eine eigene Fehlerrate auf. Und diese Fehler addieren sich. So wird aus dem gesprochenen: „Wir waren [letzte Vorlesung] stehengeblieben, uns noch mal die Definition des Aufbaus von E-Mails anzuschauen …“ im Spracherkenner durch einen Stotterer ein schiefes: „Wir waren stehengeblieben Hagen und noch mal …“. Der Textstrukturierer macht daraus etwas hilflos: „Wir waren stehengeblieben Hagen und noch mal die Definition. Es Aufbau von E-Mails anzuschauen …“. Was soll das Übersetzungsmodul da tun? Es dichtet: „We were last time stopped Hagen, and once again, the definition. It look at the construction of emails …“ Da ist durch einen Stotterer etwas Putziges entstanden. Und doch hilft der Einsatz des Lecture Translator, dass auch die fremdsprachigen Studenten den roten Faden der Vorlesung aufschnappen können.

Zugleich werden insbesondere Sätze, in denen kein Nebengeräusch den Spracherkenner stört, passabel fürs Vorlesungsarchiv transkribiert und übersetzt. Das Archiv bietet damit die Recherche per Volltextsuche an.

Der Lecture Translator ist als Cloud-Dienst konzipiert. Der Serverbedarf von der Erkennung bis zur Simultanübersetzung in einem Sprachenpaar umfasst etwa zwölf GByte Datenvolumen und fünf bis sechs CPU-Kerne, um kurze Latenzen zu gewährleisten. Die Forscher haben auch bereits mobile Versionen auf leistungsstarken Gaming-Laptops betrieben, aber nur in einer Übersetzungsrichtung, da Simultanübersetzung in zwei Richtungen zu viel Arbeitsspeicher erfordert.

In einem weiteren Projekt ist eine bidirektionale Laptop-Variante für Ärzte geplant. „Dafür müssen allerdings Vokabular und Sprachmodell verkleinert werden“, berichtet Stüker. Fortschritte in der Erkennungsleistung verbessern nicht nur Übersetzer, sondern auch Sprachassistenten.

Spracherkenner für die ARD

„Wie hoch ist der Berliner Fernsehturm?“ Einen eigenen Spracherkenner und dazu eine Plattform für Dialogsysteme hat das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) auf der Hannover Messe vorgestellt. Der Spracherkenner für Deutsch wird am IAIS bereits seit Jahren erforscht. Neu wurde in Hannover jetzt auch ein Spracherkenner für Englisch vorgestellt sowie Sprachsynthese-Module für Englisch und Deutsch.

Die Spracherkenner-KI auf Basis neuronaler Netze deckt mit etwa zwei Millionen deutschen Wörtern die meisten Themengebiete ab und gilt damit als domänenunabhängig. Für spezielle Themengebiete wie etwa die Radiologie oder Industrieanwendungen lässt sich der Wortschatz erweitern.

Beim Aufbau von Dialogsystemen setzt das IAIS wiederum auf kleinere Vokabulare. Für praktisch eingesetzte Sprachassistenten etwa im Tourismus oder in der Industrie wird der Spracherkenner dann mit einem Wissensgraphen gekoppelt. Darin sind etwa Informationen über Berliner Bauwerke hinterlegt und miteinander verknüpft. Außerdem werden Fragewörter erkannt und sogenannte Koreferenzen, also zusätzliche Informationen wie die Uhrzeit oder der aktuelle Standort des Anwenders. So erhält dieser selbst auf die Frage „Wie hoch ist dieses Gebäude?“ unter Berücksichtigung seiner GPS-Daten die passende Antwort: „Der Berliner Fernsehturm ist 368 Meter hoch.“

Untertitel für den Sächsischen Landtag

Seit 2015 ist der IAIS-Spracherkenner bereits beim WDR im Einsatz, um Beiträge automatisiert mitzuschreiben. Derzeit integriert die gesamte ARD das System und nutzt die Transkriptionen zur Archivierung des öffentlich-rechtlichen Programms. Zudem haben die Sender testweise schon Livestreams mit Untertiteln aus dem Spracherkenner versehen.

Die freie Rede vor dem Plenum des Sächsischen Landtags wird während Live-Übertragungen von der KI unmittelbar untertitelt.

(Bild: Sächsischer Landtag / Steffen Giersch)

Der Sächsische Landtag hat den IAIS-Spracherkenner in diesem Jahr für die Live-Untertitelung von Übertragungen der Plenarsitzungen eingeführt. Um das System dafür zu optimieren, sind viele Fachbegriffe aus Politik und Recht sowie die Namen von Politikern nachtrainiert worden; so wagt man es, den unbearbeiteten Livestream zu übertragen.

Auf den Spracherkenner kann der Anwender über die Cloud zugreifen. Zudem ist eine lokale Installation auf einer Standard-Server-Architektur möglich, was besonders für Anwendungen mit hohen Datenschutzansprüchen wichtig ist, berichtet Dr. Joachim Köhler, verantwortlich für Content-Technologien am IAIS.

Das Transkriptionssystem ist skalierbar konzipiert. Als Faustregel nennt Köhler, dass schon ein einziger CPU-Kern aktueller Technik einen Sprach-Stream in Echtzeit übertragen kann. In einer Versuchsanordnung hatten die Forscher ihr System auf 500 CPU-Kerne ausgeweitet – genug, um damit am Tag bis zu 10.000 Stunden Sprach-Stream zu vertexten. Die Fehlerrate bei sprecherunabhängigen Anwendungen konnten die Forscher auf etwa acht bis neun Prozent drücken.

Als Ergänzung zum Spracherkenner ist am IAIS ein neues Modul entstanden, das den Einbau von Satzzeichen übernimmt und damit dem Textfluss eine Struktur verleiht. Diese Zusatzfunktion ist erst kürzlich an die ARD ausgeliefert worden.

Für jede Stimme der Sprachausgabe eines Dialogsystems werden etwa 20 bis 25 Stunden Aufnahmen eines Sprechers benötigt. Letztlich müssen nicht etwa zwei Millionen Wörter eingesprochen werden, sondern nur 40 bis 50 Phoneme, also Sprachlaute, aus denen alle Wörter zusammengesetzt sind. Zeitaufwendig ist vor allem das Einlernen einer natürlichen Satzmelodie. Im c’t-Test stolperte die sonst angenehme Stimme nicht nur über das norddeutsche „Moin moin“ (Mooinmooin), sie betonte zudem die Krimireihe „Tatort“ sehr ungewohnt auf der zweiten Silbe – auch hier ist die Forschung noch nicht am Ende.

Dieser Artikel ist zuerst erschienen in c't 11/2019 (agr)