c't 20/2023
S. 38
Aktuell
Audio-KI

Meta macht Musik

KI-Generatoren erzeugen Musik und Geräusche

Metas KI-Sammlung AudioCraft erzeugt per Text-Prompt Musik oder Geräusche wie eine Polizeisirene und kodiert Audiostreams mit erstaunlich niedrigen Bitraten. Wir haben hingehört, wie gut die Generatoren der Facebook-Mutter klingen.

Von Kai Schwirzke

Bereits vor einigen Wochen stellte Meta die KI MusicGen vor, die ähnlich wie Riffusion (siehe c’t 6/2023, S. 123) Musikstücke auf Basis von Eingaben am Text-Prompt generiert. Die Tags „summer feeling, caribean beach, sundowner“ sollen beispielsweise in beschwingtem Reggae münden, passend zum Feierabend-Drink. Ähnlich funktioniert das ebenfalls von Meta entwickelte AudioGen, nur dass anhand von Texteingaben Soundeffekte oder Geräuschkulissen entstehen. Als drittes Glied in der Sammlung AudioCraft fungiert EnCodec, ein KI-basierter De- und Encoder, der weitaus effizienter arbeiten soll als rein algorithmische Verfahren wie MP3.

Die Entwickler fütterten AudioGen während der Trainingsphase über ein GAN (Generative Adversarial Network) mit zehn Soundsets (rund 4000 Stunden Material), darunter die frei zugänglichen BBC Sound Effects und die Free To Use Sounds. Als Sampling-Rate entschied man sich für 16 kHz – hohe Frequenzen werden also bei 8 kHz abgeschnitten.

Für MusicGen nutzte Meta rund 20.000 Stunden an lizenziertem Trainingsmaterial, darunter Musik von Shutterstock und Pond5. MusicGen bezieht die Ideen für seine „Kompositionen“ aber nicht nur aus dem Trainingsmaterial. Es lässt sich darüber hinaus mit einer Melodie füttern, an der sich die KI dann orientieren soll (melody-guided music generation). Dazu nutzt MusicGen Chromagramme, eine spezielle Methode, die Tonhöhenverteilung in einem Musikstück zu repräsentieren.

Auch wenn MusicGen nur anhand von 30-sekündigen Musikschnipseln trainiert wurde, lassen sich dennoch Zweiminüter errechnen. Dazu verschiebt die KI das bei längeren Stücken für den Algorithmus „sichtbare“ Fenster um zehn Sekunden nach vorne, um einen nahtlosen und musikalisch sinnvollen Anschluss zu erzeugen.

Beide KI-Modelle generieren die gänzlich neuen Klänge aus sogenannten Token, jedes zwei Millisekunden lang. Dazu arbeiten sie auto-regressiv: Die Modelle schauen in die „Vergangenheit“ und prüfen selbstständig die Plausibilität des berechneten Audiostreams.

MusicGen erzeugt auf eine Textvorgabe genretypische Hintergrundmusik, die ähnlich dahinplätschert wie die Begleitautomatik eines schlecht digitalisierten Keyboards.
MusicGen erzeugt auf eine Textvorgabe genretypische Hintergrundmusik, die ähnlich dahinplätschert wie die Begleitautomatik eines schlecht digitalisierten Keyboards.

Besser als MP3

EnCodec komprimiert Audiodateien mithilfe eines neuronalen Modells, das im Vergleich zu anderen Lösungen weniger Artefakte erzeugen soll. Das erreichen die Entwickler nach eigenen Angaben unter anderem über ein speziell kuratiertes Trainingsset, das den Algorithmus für typische Fallstricke (etwa unerwartete Frequenzkonstellationen) „sensibilisiert“.

Der Codec arbeitet in Stereo mit 48 kHz Sampling-Frequenz bei Bandbreiten von 3 bis 24 kbps. Ebenso steht ein monophoner Modus mit 24 kHz (1,5 bis 12 kbps) zur Verfügung. Alternativ trainierte Meta für EnCodec auch ein Diffusion-Modell, Multi-Band Diffusion Framework genannt (MBD). Dieser Ansatz produziert gerade bei niedrigen Bitraten deutlich besser klingende Audiodateien, die MP3-Qualität mit einem Bruchteil der Bandbreite erzielt.

EnCodec kommt auch innerhalb der generativen Prozesse bei Music- und AudioGen zum Einsatz. Der Codec komprimiert zunächst die ursprünglichen Daten, um die resultierende Sequenz anschließend wieder in qualitativ höherwertiges Audio umzuwandeln.

Wie klingt’s?

So faszinierend Metas Beitrag zur textbasierten Generierung von Musik und Geräuschen aus Sicht des Informatikers sein mag, so ernüchternd tönen die Ergebnisse. MusicGen gelingt es nicht, mehr als ein, zwei Handvoll zusammenhängender Takte zu erzeugen, die zudem in schlechter Audioqualität vorliegen. Bestenfalls klingt das, als habe man die Begleitautomatik eines Mittelklasse-Keyboards mit einem Atari ST digitalisiert. Die melodischen Fähigkeiten bleiben marginal.

Für die von SoundGen erzeugten Klänge gilt Ähnliches: Die vergleichsweise wenig komplexe Bitte, ein zwanzigsekündiges Sample von einem auf einer viel befahrenen Autobahn beschleunigenden Motorrad zu berechnen, mündet in diffusem Hintergrundrauschen, das von kurzen Gasstößen unterbrochen wird. Auch hier fehlt noch die Kohärenz über die Zeit.

Wer Metas KI-Audiosuite ausprobieren möchte, kann die quelloffene Software zu Hause installieren. Am einfachsten klappt das mit Pinokio, einem Git-Installer für Windows, macOS und Linux. Das Programm installiert AudioGen automatisch mit wenigen Mausklicks und kommt ohne Terminal-Fenster aus. Auf dem Mac mussten wir allerdings die benötigten FFMPEG-Binaries händisch ergänzen. Optionen wie das MDB-Framework benötigen zudem eine Cuda-Unterstützung. (hag@ct.de)

Studien, Quellen & Tools: ct.de/y3we

Kommentieren