KĂĽnstliche Intelligenz: Auf dem Weg zum ersten generierten Hit

KĂĽnftig sollen KIs Songs nach Textvorgaben komponieren. Riffusion und MusicLM zeigen den aktuellen Stand der Forschung, Noch fehlt den Kompositionen etwas Pepp.

In Pocket speichern vorlesen Druckansicht 101 Kommentare lesen

(Bild: KI-Bildgenerator midjourney)

Lesezeit: 4 Min.

(This article is also available in English)

KI-Programme liefern bisher nur gebrauchsfertige Hintergrundmusik, doch das kann sich ändern: KI-Forscher tüfteln in ihren Labors an cleveren Algorithmen mit größerem Repertoire und besserem Musikverständnis. Am Ende komponiert die KI vielleicht ganze Opern oder schreibt den nächsten großen Hit.

Zunächst geht es den Entwicklern prinzipiell darum, dass eine KI auf kurze Textanweisungen hin ein neues Stück improvisiert und als Audiodatei abspielt. Die Klangqualität der Demos spielt für sie noch keine große Rolle.

Zwei populäre Ansätze sind Riffusion und MusikLM, das Google Ende Januar erstmals vorgestellt hat. Riffusion ist ein Hobbyprojekt der beiden Entwickler Seth Forsgren und Hayk Martiros. Es setzt auf der bekannten Bild-KI Stable Diffusion auf, die Textbeschreibungen (sogenannte Prompts, zum Beispiel "Astronaut auf einem Pferd") in komplexe Bilder umsetzt.

Dazu generiert Stable Diffusion stimmige Motive aus Rauschen (Gaussian Noise). Zum Training verrauschten die Entwickler ein Originalbild sukzessive immer stärker und ließen es vom Deep-Learning-Algorithmus wieder in den Originalzustand versetzen. Dies wiederholten sie mit unzähligen beschrifteten Bildern aus dem Internet. Schließlich koppelten sie das Diffusionsmodell mit einem großen Sprachmodell, sodass die KI auf Textanweisung nahezu jedes beliebige Motiv aus Rauschen erzeugt.

Riffusion nutzt dieses Prinzip, um Spektrogramme für Musik aus Rauschen zu berechnen. Die Bilder zeigen auf der x-Achse den Zeitverlauf und auf der y-Achse die Frequenzverteilung: oben höhere, unten tiefere Töne. Farben von Blau bis Rot oder Grautöne von Weiß bis Schwarz repräsentieren die jeweilige Lautstärke. Bei der Wiedergabe wandelt die Software die gezeichneten Spektrogramme in Musik um.

Dazu trainierten die beiden Entwickler Riffusion mit den Spektrogrammen verschiedener freier Musiksammlungen mit zugehörigen Textbeschreibungen. So hat die Software gelernt, wie das Spektrogramm einer sanften Jazznummer mit Klavier und Kontrabass aussieht und wie es sich von dem eines Heavy-Metal-Gitarrensolos unterscheidet.

Riffusion generiert einen endlosen Musikmix, dessen Klang Sie mit Textanweisungen verändern.

Als Ergebnis liefert das Programm auf der Website riffusion.com einen endlosen Musikmix, der sich auf englische Textanweisungen hin langsam verändert – als wenn ein DJ zu einem neuen Stil übergehen würde. Zwar holpern die Übergänge noch hier und da und der Gesang besteht nur aus unverständlichen Lauten. Die KI hat aber durchaus ein Gespür dafür, wie sich ein Disco-Beat von einem Klaviersolo unterscheidet.

KI-Musik zum Reinhören

Die Klangqualität ist allerdings mau: Da die entrauschten Spektrogramme nur aus 1024 × 1024 Pixeln bestehen, klingen die generierten Tracks, als wären sie mit einer zu niedrigen Bitrate kodiert worden. Selbst wenn Riffusion viele solcher neu berechneten Spektrogramme hintereinander hängt, kann die KI das Frequenzspektrum nur in 1024 Bänder aufteilen.

Mehr zu Musik-Zubehör, -Software und -Produktion:

Google hat Ende Januar sein MusicLM vorgestellt, das anhand einer Texteingabe oder einer vorgesummten Melodie Musik erzeugen soll. Zum Training haben die Entwickler einen Datensatz mit 5500 Musik-Text-Paaren verwendet, den sie auch anderen Forschern zur VerfĂĽgung stellen: Die Musikreferenzen bestehen aus YouTube-Links, die von Experten verschlagwortet wurden.

Ähnlich wie Riffusion generiert MusicLM das ihm bekannte Audiomaterial nach den Textvorgaben der Nutzer. Die musikalische Vielfalt ist hier beachtlich. Allerdings vermissten wir in den bisher veröffentlichten Demos ebenfalls die thematischen Ideen – die Stücke plätschern einfach minutenlang vor sich hin. Die Songs sind im SoundStream-Codec mit 24 kHz und einer Bitrate von 6 kBit/s kodiert, sodass sie wie eine Telefonübertragung mit Kompressionsartefakten klingen.

Bis aus diesen interessanten KI-Ansätzen ernstzunehmende kommerzielle Dienste entstehen, die Musikschaffende bei ihrer täglichen Arbeit unterstützen oder gar inspirieren, liegt noch viel Arbeit vor den Forschern: Die KIs müssen eingängige Melodien schreiben und variieren, Songstrukturen und dynamische Entwicklungen einbauen und nicht zuletzt die Klangqualität deutlich verbessern. Auch chinesische Wissenschaftler von Baidu suchen nach solchen Lösungen für ihr System ERNIE-Music.

c’t – Europas größtes IT- und Tech-Magazin

Alle 14 Tage präsentiert Ihnen Deutschlands größte IT-Redaktion aktuelle Tipps, kritische Berichte, aufwendige Tests und tiefgehende Reportagen zu IT-Sicherheit & Datenschutz, Hardware, Software- und App-Entwicklungen, Smart Home und vielem mehr. Unabhängiger Journalismus ist bei c't das A und O.

(hag)