Künstliche Intelligenz: Stable Audio erstellt Audio-Inhalte nach Userwunsch

Die KI Stable Audio erstellt auf Text-Eingaben hin Audio-Inhalte. Der nächste Hit des eigenen Lieblingskünstlers lässt sich so aber (noch) nicht generieren.

8

(Bild: iX)

13.09.2023, 16:37 Uhr

Lesezeit: 3 Min.

iX Magazin

Von

Jonas Volkert

Stable Audio liefert per Knopfdruck von der KI generierte Audio-Inhalte. Das neue KI-Modell von Stability AI kann basierend auf Prompts Musikstücke und andere Audio-Inhalte generieren und ist der erste Ausflug des Unternehmens in den Bereich Text-zu-Audio-KI. Stability AI war bislang vor allem für seine offene, Bild-generierende KI Stable Diffusion bekannt.

Technik von Bild-KI übernommen

Technisch setzt Stable Audio ganz ähnliche Techniken wie die Bild-KI des Unternehmens und deren SDXL-Modell. Auch hier kommt ein Diffusion-Modell zum Einsatz, das allerdings mit Audio-Inhalten statt Bildern trainiert wurde – insgesamt 800.000 Audio-Ausschnitte, allesamt aus der Bibliothek des Anbieters AudioSparks, kamen dabei zum Einsatz. Weil Audio-Diffusions-Modelle meist nur mit kürzeren Ausschnitten aus längeren Stücken trainiert werden, hatten sie bislang Probleme damit, mehr als nur einzelne, kürzere Loops zu generieren – ihnen fehlte schlecht die Informationen zum Aufbau und Verlauf von Musik.

Kennen Sie schon den kostenlosen iX-Newsletter? Jetzt anmelden und monatlich zum Erscheinungsdatum nichts verpassen: heise.de/s/NY1E In der nächsten Ausgabe geht's ums Titelthema der Oktober-iX: Schlauere KI dank Feintuning.

Stable Audio berücksichtigt nun zusätzlich auch noch die Meta-Daten zu den beim Training verwendeten Audio-Ausschnitten – sowohl der Startpunkt des Teilstücks als auch die Länge des gesamten Trainings-Stücks sind hinterlegt. Deshalb kann Stable Audio, im Gegensatz zu anderen KI-Audio-Generatoren, auch kompositorisch tätig werden: Die KI "weiß", dass Musikstücke etwa am Anfang anders klingen und wie sie sich später etwa steigern. Dabei schafft es das Modell laut Entwickler, auf einer Nvidia A100-CPU in unter einer Sekunde ein 95-Sekunden-Clip mit einer Sample-Rate von 44.1 kHz zu rendern.

Die Audio-KI von Stability AI beherrscht aber nicht nur Musikstücke, sondern kann auch Soundkulissen oder einzelne Instrument-Spuren erstellen, wie die Hörbeispiele des Entwicklers zeigen. Dort finden sich auch Beispiele, wie Anwender die Text-Prompts formulieren müssen, auf deren Basis Stable Audio die Inhalte generiert.

Videos by heise

Kreativität statt Vorbildern

Anders als KI-Bildgeneratoren, die häufig bessere Ergebnisse liefern, wenn man sie nach Kunstwerken im Stile spezieller realer Vorbilder fragt, ist das bei Stable Audio nicht möglich. Das sei laut Stable Diffusion und der Audio-Abteilung des Unternehmens Harmonai aber beabsichtigt: Es habe sich gezeigt, dass User mit Audio-Inhalten lieber selbst kreativ würden und sich nicht nur an berühmten Vorbildern orientieren wollen.

Stable Audio steht ab sofort auf einer eigenen Webseite zum Test bereit. Verfügbar sind dabei derzeit eine kostenlose Version, die allerdings auf 20 generierte Stücke pro Monat und eine Dauer von 20 Sekunden beschränkt ist, und eine Bezahl-Version für 12 US-Dollar pro Monat. Mit letzterer lassen sich 500 Audio-Inhalte von 90 Sekunden im Monat erstellen. Bei einem ersten Testlauf konnte iX den Generator erst nach extrem langer Wartezeit ausprobieren, womöglich wegen überlasteter Server. Mehr technische Hintergründe zum eingesetzten Diffusion-Modell liefert der Blog-Eintrag von Stability AI zum Release.