Übermenschlicher Spracherkenner: KI versteht spontane Sprache

Nach wenigen Augenblicken gibt ein neues Spracherkennungssystem aus Deutschland Texte wieder. Das System versteht den Wortlaut besser als menschliche Zuhörer.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen

In Karlsruher Vorlesungen kommt der bislang beste Spracherkenner zum Einsatz, um live Mitschriften in unterschiedlichen Sprachen anzufertigen.

(Bild: KIT)

Lesezeit: 2 Min.

Forscher am Karlsruher Institut für Technologie (KIT) haben erstmals eine KI entwickelt, die spontane Sprache besser versteht als die meisten Menschen. Zudem konnten die Entwickler die Rechenzeit ihres Spracherkenners gering halten: Mit einer Latenz von 1,75 Sekunden erreichte ihr neuronales Netz beim englischsprachigen Switchboard-Benchmark eine Fehlerrate von 5,0 Prozent.

Menschen liegen in diesem Benchmark in der Regel zu 5,5 Prozent falsch. Der sogenannte Switchboard conversational corpus umfasst etwa 2500 Unterhaltungen mit 500 verschiedenen Sprechern und gilt international als Standardtest für Spracherkennung. Damit schiebt sich die KIT-Lösung international deutlich in Führung vor Systeme von Microsoft, Google und IBM.

Der Rekord-Spracherkenner ist die zentrale Komponente des Lecture Translator, eines automatischen Übersetzungssystems, das seit 2012 Vorlesungen in Karlsruhe in verschiedenen Sprachen mitschreibt. Seit dem Start sammeln die Forscher Erfahrungen mit typischen Problemen spontaner Sprache wie Stottern, Satzabbrüchen, Verzögerungslauten ("äh") und genuschelten Begriffen.

"Unsere Stärken liegen in der Grundlagentechnik", sagt Dr. Sebastian Stüker, Gruppenleiter für multilinguale Spracherkennung. Das KIT-Team setzt für seinen Spracherkenner auf neuronale Netze in Encoder-Decoder-Architektur, kombiniert dabei aber bisher konkurrierende Ansätze wie LSTM (Long short-term memory) und die Attention-Layer des Transformer-Ansatzes. "Zudem haben wir im Training neuronaler Netze die Minimierung der Verlustfunktion modifiziert und so die Latenz verringert", berichtet Stüker.

Die Berechnungszeit des Erkenners ist nun variabel einstellbar. Mit 1,3 Sekunden konnten die Forscher bereits die Fehlerrate menschlicher Zuhörer knacken, darüber liegen sie deutlich besser. Für die deutsche Spracherkennung laufen derzeit Trainingszyklen. Auch hier zeichnen sich Verbesserungen ab, allerdings steht den Forschern dafür noch kein vergleichbar anerkannter Benchmark zur Verfügung.

Dieser Artikel stammt aus c't 24/2020. (agr)