Google-KI hört Musik und Sprache – und komponiert und spricht weiter

Die AudioLM genannte Technik erzeugt naturgetreue Klänge, die auch von Menschen stammen könnten.

2

(Bild: Erica Snyder/MITTR | Unsplash/Pixabay)

10.10.2022, 12:00 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Tammy Xu

Google-KI hört Musik und Sprache – und komponiert und spricht weiter

Ein neues KI-System ist in der Lage, natürlich klingende Geräusche zu erzeugen – und als sogenannter Prompt sind dafür nur wenige Sekunden Audio notwendig. AudioLM, das von Google-Forschern entwickelt wurde, erzeugt Töne, die zum Stil des jeweiligen Prompts passen – und zwar einschließlich komplexer Klänge wie Klaviermusik oder sogar Stimmen von Menschen, die sprechen. Das Endergebnis ist dabei kaum von der Originalaufnahme zu unterscheiden.

All das erinnert an ähnliche Verfahren zur KI-gestützten Text- und Bilderzeugung, die in den letzten Jahren immer besser werden. Die Technik ist vielversprechend, weil sie zeigt, wie sich der Prozess des Trainings von KI zur Klanggenerierung beschleunigen lässt. In der Praxis könnten so erzeugte Geräusche etwa zur Untermalung von Videos verwendet werden.

Wir kennen KI-Audio – aber nicht so

KI-generiertes Audio ist mittlerweile alltäglich: Die Stimmen von Haushaltsassistenten wie Alexa verwenden die natürliche Sprachverarbeitung dafür. KI-Musiksysteme wie die Jukebox von OpenAI haben bereits beeindruckende Ergebnisse erzielt, doch die meisten bestehenden Verfahren erfordern zunächst echte Menschen, die Transkriptionen der Inhalte erstellen und dann textbasierte Trainingsdaten "beschriften", damit das KI-System sie zuordnen kann. Das ist mühsam. Jukebox zum Beispiel verwendet textbasierte Daten, um Liedtexte zu generieren.

Videos by heise

AudioLM, das letzten Monat in einem Paper vorgestellt wurde, das noch nicht durch ein Peer-Review ging, ist anders: Es erfordert keine Transkription oder Beschriftung. Stattdessen werden bestehdene Audiodatenbanken verwendet und dann maschinelles Lernen eingesetzt, um die Dateien in Klangschnipsel, so genannte "Token" zu komprimieren, ohne dass dabei zu viele Informationen verloren gehen. Diese tokenisierten Trainingsdaten werden dann in ein maschinelles Lernmodell eingespeist, das mithilfe der Verarbeitung natürlicher Sprache die Klangmuster erlernen soll.

Um neue Töne zu erzeugen, werden einige Sekunden Audio als Prompt in AudioLM gegeben, das dann vorhersagt, was als nächstes kommen könnte. Dieser Prozess ähnelt der Art und Weise, wie Sprachmodelle wie GPT-3 vorhersagen, welche Sätze und Wörter typischerweise aufeinander folgen. Die von dem Google-Team veröffentlichten Audioclips klingen erstaunlich natürlich. Insbesondere Klaviermusik, die mit AudioLM erzeugt wurde, klingt flüssiger als Klaviermusik, die mit bestehenden KI-Techniken erzeugt wurde und eher wie ein Durcheinander klingt.

Bessere Klangqualität, größerer Realismus

Roger Dannenberg, der an der Carnegie Mellon University über computergenerierte Musik forscht, meint, dass AudioLM bereits eine viel bessere Klangqualität als frühere Programme zur Musikerzeugung hat. Insbesondere sei AudioLM überraschend gut in der Lage, einige der sich wiederholenden Muster wiederzugeben, die in von Menschen gemachter Musik vorkommen. Um realistische Klaviermusik zu erzeugen, muss AudioLM viele der subtilen Vibrationen erkennen, die in jeder Note enthalten sind, wenn die Klaviertasten angeschlagen werden. Außerdem muss die Musik Rhythmen und Harmonien über einen längeren Zeitraum weitertragen. "Das ist wirklich beeindruckend, auch weil es darauf hindeutet, dass das System eine Art von Struktur auf mehreren Ebenen lernt", sagt Dannenberg.

AudioLM ist nicht nur auf Musik beschränkt. Da es mit einer Bibliothek von Aufnahmen menschlicher Sätze trainiert wurde, kann das System auch Sprache generieren, die im Akzent und in der Kadenz des ursprünglichen Sprechers fortgesetzt wird. Das ergibt einen merkwürdigen Effekt, denn deren Sinnhaftigkeit ist dann nicht immer gegeben, auch wenn die Sätze semantisch korrekt sind. AudioLM ist so trainiert, dass es lernt, welche Arten von Tonschnipseln häufig zusammen auftreten, und es nutzt diesen Prozess in umgekehrter Weise, um Sätze zu produzieren. Es hat auch den Vorteil, dass es die Pausen und Ausrufezeichen lernen kann, die in gesprochener Sprache vorkommt, aber nicht leicht in Text übersetzt werden kann.

Lesen Sie auch

In eigener Sache: heise online klont Stimme von Podcast-Redakteurin

Rupal Patel, der an der Northeastern University auf dem Gebiet der Informations- und Sprachwissenschaft forscht, erläutert, dass frühere Verfahren, bei denen KI zur Erzeugung von Audio eingesetzt wurde, diese Nuancen nur dann erfassen konnten, wenn sie in den Trainingsdaten explizit annotiert wurden. Im Gegensatz dazu lernt AudioLM diese Merkmale automatisch aus den Eingabedaten, was den realistischen Effekt noch verstärkt. "Es gibt viele linguistische Informationen, die nicht in den Worten enthalten sind, die man ausspricht, sondern in der Art und Weise, wie man etwas sagt, um eine bestimmte Absicht oder ein bestimmtes Gefühl auszudrücken", sagt Neil Zeghidour, einer der Entwickler von AudioLM. Zum Beispiel könne jemand lachen, nachdem er etwas gesagt hat, um zu zeigen, dass es ein Scherz war. "All das macht Sprache natürlich."

Was wäre der Anwendungszweck?

So beeindruckend das Ergebnis ist, desto unklarer ist der Anwendungszweck. Das gilt insbesondere für die Sprachausgabe. Letztendlich könnte KI-generierte Musik verwendet werden, um einen natürlicheren Hintergrundsoundtrack für Videos und Diashows zu liefern. Eine natürlichere Spracherzeugungstechnologie könnte dazu beitragen, Tools für die Barrierefreiheit im Internet und Bots für das Gesundheitswesen zu verbessern, hofft Experte Patel. Die Google-Forscher wollen nun auch anspruchsvollere Klänge erzeugen, z. B. eine Band mit verschiedenen Instrumenten – oder Geräusche, die eine Aufnahme eines tropischen Regenwaldes imitieren.

Allerdings müssen auch die ethischen Auswirkungen der Technologie bedacht werden, warnt Patel. Etwa muss geklärt werden, ob die Musiker, die die als Trainingsdaten verwendeten Clips ursprünglich produziert haben, für das Endprodukt Urheberrechte oder Tantiemen erhalten – ein Problem, das bereits bei den zunehmend beliebten KI-Bildgeneratoren aufgetreten ist. Problemkomplex Nummer zwei sind Fake News: KI-generierte Sprache, die von echter nicht zu unterscheiden ist, könnte auch so überzeugend sein, dass sie die Verbreitung von Falschinformationen erleichtert.

In dem Papier schreiben die Forscher, dass sie diese Probleme bereits in Betracht gezogen haben und daran arbeiten, sie zu entschärfen – zum Beispiel durch die Entwicklung von Techniken zur Unterscheidung zwischen natürlichen Klängen und solchen, die mit AudioLM erzeugt wurden. Experte Patel schlägt außerdem vor, KI-generierte Produkte mit Wasserzeichen zu versehen, um sie leichter von echten Klängen unterscheiden zu können.