Google: SoundStorm soll Audio-Erzeugung schneller und effizienter machen

Googles KI-Audiomodell SoundStorm soll auf einer Tensor Processing Unit v4 (TPU v4) 30 Sekunden Audio in einer halben Sekunde erzeugen können.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: carlos castilla/Shutterstock.com)

Lesezeit: 2 Min.

Mit SoundStorm hat Google ein Audio-KI-Modell veröffentlicht, das mit einem KI-Prozessor, einer sogenannten Tensor Processing Unit v4 (TPU v4), 30 Sekunden Audio in einer halben Sekunde erzeugen kann. SoundStorm nimmt laut Google semantische Token als Input, die durch das Framework "AudioLM" generiert wurden. Die Qualität ist wie bei AudioLM, SoundStorm soll allerdings kohärenter und schneller arbeiten, da Sprachverarbeitungsprozesse parallel laufen. Das geht aus dem Paper des Google-Forscherteams rund um Zalán Borsos hervor, das sich mit generativen Audio-KI-Modellen beschäftigt.

Für AudioLM müssen Texte nicht erst transkribiert werden. Stattdessen verwendet die KI bestehende Audiodatenbanken – in diesem Fall den Automatic-Speech-Recognition-Korpus LibriSpeech, bestehend aus 1.000 Stunden gemeinfreien Hörbüchern. Mit dem Einsatz von maschinellem Lernen werden die Audiodateien tokenisiert, also in Lautschnipsel aufgeteilt. Diese Trainingsdaten werden dann in ein maschinelles Lernmodell eingespeist, das mithilfe der Verarbeitung natürlicher Sprache die Klangmuster erlernen soll.

Auch das Open-Source-Modell Bark basiert auf einem ähnlichen Ansatz. So lässt sich neben Musik auch Sprache samt Satzmelodie, Akzent und weiteren Eigenschaften (Prosodie) erzeugen. Für Sprache, die natürlicher klingt als bisherige Modelle, sind somit nur wenige Sekunden Audio-Input notwendig.

In Verbindung mit SPEAR-TTS, einem Text-to-Speech-System für mehrere Sprecher, kann SoundStorm natürliche Dialoge generieren. Die Steuerung der Sprache erfolgt über Transkripte, die der Sprechstimmen über kurze Sprach-Prompts und die Sprecherwechsel über Anweisungen im Transkript. Um 30 Sekunden Dialog mit mehreren Sprechern zu generieren, braucht man mit TPU-v4 zwei Sekunden.

Immer besser werdende Audio-KI-Modelle bieten auch ein großes Missbrauchspotential und ermöglichen somit etwa Identitätsdiebstahl mittels Austricksen von Voice-ID. Voice-ID bieten in Europa und in den USA viele Banken als Login-Möglichkeit an. Leicht im Internet verfügbare Stimmen können Opfer derartiger Betrügereien werden.

KI-Forscher wie die von Google arbeiten daher auch an Techniken, damit Menschen zwischen natürlichen Klängen und synthetisch erzeugten unterscheiden können. So ist es denkbar, KI-generierte Produkte mit Wasserzeichen zu versehen, um sie leichter von echten Klängen unterscheiden zu können.

(mack)