Open Source: OpenAI veröffentlicht automatisches Spracherkennungssystem Whisper

Das Spracherkennungssystem Whisper soll Sprachen erkennen, ins Englische übersetzen und Aufnahmen transkribieren. Fünf freie Varianten finden sich auf GitHub.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen

(Bild: Machine Learning & Artificial Intelligence / Mike MacKenzie / cc-by-2.0))

Lesezeit: 3 Min.
Inhaltsverzeichnis

OpenAI hat ein neues automatisches Spracherkennungssystem (automatic speech recognition system, ASR) namens Whisper bekannt gegeben. Es basiert auf einem Encoder-Decoder Transformer und steht in fünf Open-Source-Versionen auf GitHub zur Verfügung. Das Entwicklerteam trainierte das ASR-System mit 680.000 Stunden Audiomaterial aus dem Internet. Zwei Drittel der Aufzeichnungen waren dabei auf Englisch, das letzte Drittel in verschiedenen anderen Sprachen. Damit soll Whisper als Multitasking-Modell nicht nur transkribieren, sondern auch Sprachen erkennen und übersetzen können.

Im Forschungsbericht zu Whisper gibt das Team von OpenAI an, dass man das Modell mit dem Ziel entwickelt hat, ein robustes Sprachverarbeitungsprogramm zu schaffen, das ohne Datensatz-spezifisches Feintuning auskommt. Die Forscher führen an, dass vortrainierte Audio-Encoder oft unüberwacht gelernt haben. Dadurch sind die Encoder zwar stark spezialisiert, allerdings benötige es Feintuning durch Menschen, um den Decodern zu ermöglichen, die Daten in einer entsprechenden Qualität ausgibt. Für Whisper nutzte das Team daher etwa 10.000 Stunden überwachter Sprachdaten für je 30.000 Stunden Daten mit mehr Hintergrundrauschen, sodass ein schwach überwachtes Modell entstand. Dafür ließ sich der Prozess laut Bericht gut automatisieren.

Whisper basiert auf einer Ende-zu-Ende-Architektur und ist als Transformer implementiert. Audiodaten liegen als Mel-Spektrogramme von 30-sekündigen Sound-Schnipseln vor. Die dargestellten Encoder-Blöcke enthalten die Multilayer-Perceptronen (MLP) und Selbst-Attention, die Decoder Blöcke neben MLP und Selbst-Attention noch Cross-Attention, um das nächsten Text-Token vorherzusagen.

(Bild: OpenAI)

Whisper basiert auf einem Encoder-Decoder Transformer. Dabei liest das Programm Audiodaten als 30 Sekunden Schnipsel, die die Entwickler dem System als Mel-Spektrogramme vorsetzen. Die Decoder trainierte man darauf, einen zum Ton passenden Text zu generieren. Whisper verwendet zusätzlich noch spezielle Token, die dem Programm das Erfüllen mehrerer Aufgaben erlauben sollen. Laut OpenAI eignet sich das Programm, um Sprachidentifikation, Zeitstempel auf Phrasenebene, mehrsprachige Sprachtranskription und Sprachübersetzung ins Englische durchzuführen.

Aufgrund der großen Datengrundlage für das Training und dem mangelnden Feintuning für einen bestimmten Datensatz bleibt Whisper etwa beim LibriSpeech-Benchmark hinter spezialisierten Modellen zurück. Das Team von OpenAI berichtet jedoch von einer besseren Zero-Shot-Leistung im Umgang mit unbekannten Datensätzen. Die Robustheit des Modells äußert sich laut den Entwicklern durch eine 50 Prozent geringere Fehlerrate bei Tests an verschiedenen Datensätzen, als bei gezielt entwickelten Systemen vorkommen.

Whisper soll mehrsprachige Spracherkennung, Sprachübersetzung, das Identifizieren von gesprochener Sprache und das Erkennen von Sprachaktivitäten beherrschen. All diese Aufgaben stellt eine gemeinsame Sequenz von Token dar, die der Decoder vorhersagen soll. Damit soll ein einziges Modell verschiedene Stufen einer herkömmlichen Sprachverarbeitungspipeline ersetzen.

(Bild: OpenAI)

Whisper steht in fünf verschiedenen Modellgrößen auf GitHub zur Verfügung. Die Trainings-Parameter reichen von 39 Millionen bis über 1,5 Milliarden. Für das kleinste Modell sind etwa 1 GByte VRAM vonnöten, das größte braucht etwa 10 GByte. Bis auf die größte Version können die Modelle ausschließlich mit Englisch umgehen. Die verschiedenen Größen bedeuten einen Unterschied in der Geschwindigkeit und Genauigkeit der Systeme.

(Bild: OpenAI)

Sprachmodelle und Spracherkennung spielen aktuell eine große Rolle, so etwa auch bei dem Chat-Programm LaMDA, das dieses Jahr aufgrund eines angeblichen Bewusstseins für Furore sorgte. Wie Whisper basiert LaMDA ebenfalls auf einer Transformer-Architektur. Eine grundlegende Erklärung des Aufbaus und der Funktion von Transformern findet sich hier.

Weitere Informationen zu Whisper finden sich im Blog von OpenAI und im Forschungsbericht zu dem neuen Spracherkennungssystem.

(pst)