DALL-E für Songs: Google-KI MusicLM komponiert Stücke nach Textbeschreibung

Google-Forscher haben mit MusicLM ein KI-Modell zur Erzeugung originalgetreuer Musik aus Textbeschreibungen entwickelt. Sie haben aber selbst ethische Bedenken.

24

(Bild: whiteMocca/Shutterstock.com)

29.01.2023, 11:06 Uhr

Lesezeit: 6 Min.

Von

Stefan Krempl

"Eine beruhigende Geigenmelodie, unterlegt mit einem verzerrten Gitarrenriff." Eine solche kurze Textvorgabe soll reichen, um genauso klingende "hochqualitative" und "originalgetreue" Musikstücke zu erzeugen. Dies erklärt ein Google-Forscherteam in einem wissenschaftlichen Beitrag zur Künstlichen Intelligenz (KI) MusicLM. Das Modell folgt demnach dem Prozess der Musikerstellung, indem es hierarchisch Sequenz für Sequenz von Soundbytes aneinanderreiht. Herauskommen sollen Abfolgen mit 24 kHz, die ein längeres Stück über mehrere Minuten hinweg konsistent tragen.

Kohärente Musik "von erheblicher Komplexität"

MusicLM baut laut der Preprint-Publikation, die unabhängige Wissenschaftler noch nicht geprüft haben, unter anderem auf AudioLM auf. Der ebenfalls von Google-Forschern entwickelte und erst im Herbst vorgestellte Vorgänger kann natürlich klingende Geräusche und Soundhäppchen erzeugen. Hier ist die Voraussetzung das Vorspielen einiger Sekunden Audiomaterials, die das System dann quasi weiterkomponiert. AudioLM lernt den Google-Experten zufolge, realistisches Tonmaterial aus reinen Audio-Dateien zu erzeugen, sei es Sprache oder Klaviermusik, und zwar "ohne jegliche Annotation".

Wenn der Nachfolger MusicLM nun auf einem großen Datensatz ungekennzeichneter Musik trainiert wird, lernt er der Studie zufolge, auf Basis von Textbeschreibungen kohärente Stücke "von erheblicher Komplexität" zu erzeugen. Möglich seien Eingaben wie: "Ein bezaubernder Jazz-Song mit einem einprägsamen Saxophon-Solo und einem Solo-Sänger" oder "Berliner Techno der 90er-Jahre mit tiefem Bass und starkem Kick". Auch ausführlichere Vorgaben könne das System umsetzen. Ein Beispiel: "Eine tief klingende Männerstimme rappt über ein schnelles Schlagzeug, das zusammen mit einem Bass einen Reggaeton-Beat spielt. Eine Art Gitarre spielt die Melodie dazu. Diese Aufnahme hat eine schlechte Audioqualität. Im Hintergrund ist ein Lachen zu hören. Dieses Lied könnte in einer Bar gespielt werden."

Mangel an kombinierten Audio-Text-Daten

Es sei besonders schwierig, qualitativ hochwertige und kohärente Audiosignale zu synthetisieren, heben die Autoren hervor. Eine weitere Hürde für einschlägige KI-Lösungen stelle der Mangel an bereits kombinierten Audio-Text-Daten dar. Dies stehe "in krassem Gegensatz zum Bildbereich, wo die Verfügbarkeit umfangreicher Datensätze wesentlich zu der bemerkenswerten Qualität" von Bildgeneratoren wie DALL-E beigetragen habe, die ebenfalls nur Textvorgaben benötigen.

Das Erstellen von Textbeschreibungen allgemeiner Audiodaten sei ferner "wesentlich schwieriger als die Beschreibung von Bildern", führen die Verfasser aus. Es sei nicht einfach, die wichtigsten Merkmale akustischer Szenen wie Geräusche auf einem Bahnhof oder in einem Wald oder von Musik, wo Melodie, Rhythmus, Klangfarbe des Gesangs und Begleitinstrumente entscheidend sind, mit nur wenigen Worten eindeutig zu erfassen. Nicht zuletzt sei Audio entlang einer zeitlichen Dimension strukturiert, was sequenzweise Beschriftungen viel weniger aussagekräftig mache als im Fall von Bildern.

Letztlich nutzt MusicLM seinen Designern und Programmierern zufolge "die mehrstufige autoregressive Modellierung von AudioLM als generative Komponente und erweitert sie". Um die beschriebenen Herausforderungen zu meistern, stützt sich das Team nach eigenen Angaben auf das integrierte Musik-Text-Modell MuLan. Es sei bereits darauf trainiert, Melodien und die dazugehörige Textbeschreibung auf Darstellungen zu projizieren, die in einem Klangraum nahe beieinander liegen. Dieser Ansatz mache Beschriftungen zum Trainingszeitpunkt überflüssig und ermögliche das Einstimmen der Algorithmen anhand von umfangreichen reinen Audiodateien.

Mubert und Riffusion: MusicLM übertrifft frühere Systeme

Der Ansatz, der dem von MusicLM am nächsten kommt, ist den Wissenschaftlern zufolge DALL-E 2. Ähnlich wie dieser Bildgenerator für die Textkodierung auf die Technik CLIP zurückgreife, verwenden man für den gleichen Zweck das beschriebene eingebettete Modell.

Von dem Ergebnis sind die Macher überzeugt: "Unsere Experimente zeigen anhand quantitativer Messungen und menschlicher Bewertungen, dass MusicLM frühere Systeme wie Mubert und Riffusion sowohl in Bezug auf die Qualität als auch auf das Befolgen der Beschreibung übertrifft." Das System akzeptiere zudem eine zusätzliche Melodie in Form von Pfeifen und Summen als Vorgabe für die Musikerzeugung.

Resultate, Risiken und Bedenken

MusicLM sei aber alles andere als perfekt, urteilen die Zuhörer vom Magazin "TechCrunch" auf Basis von Google veröffentlichter Soundbeispiele. "Einige der Samples haben eine verzerrte Qualität", was offenbar eine unvermeidliche Nebenwirkung des Trainingsprozesses sei. Obwohl die Maschine technisch in der Lage sei, Gesang einschließlich Chorharmonien auszuspucken, ließen diese Resultate doch sehr zu wünschen übrig. Die meisten "Texte" seien reines Kauderwelsch, "gesungen von synthetischen Stimmen, die wie eine Mischung aus verschiedenen Künstlern klingen".

Die Forscher kommen zum Schluss, dass MusicLM die seit Jahren wachsende Palette der Werkzeuge erweitere, bei denen KI den Taktstock schwingt. Es gehe darum, "die Menschen bei kreativen Musikaufgaben" zu unterstützen. Das Modell und seine Anwendungsoptionen bergen aber "einige Risiken", ist dem Team nicht entgangen. "Die generierten Samples werden die in den Trainingsdaten vorhandenen Verzerrungen widerspiegeln", befürchtet es. Dies werfe etwa "Bedenken hinsichtlich der kulturellen Aneignung auf".

Auch der Gefahr einer "potenziellen Zweckentfremdung von kreativen Inhalten", die im Zusammenhang mit Text- und Bildgeneratoren inzwischen stärker diskutiert wird, sind sich die Forscher bewusst. Eine durchgeführte Analyse habe zwar ergeben, dass MusicLM nur "einen winzigen Teil der Beispiele" auswendig gelernt und damit fremde urheberrechtliche Schöpfungen quasi eigenmächtig übernommen habe. Für 1 Prozent der Beispiele habe man "eine unmittelbare Übereinstimmung identifizieren" können. Trotzdem gebe es derzeit keine Pläne, auch angesichts der verbleibenden Copyright-Verletzungen das Modell zu veröffentlichen. Um den Mangel an Evaluierungsdaten zu beheben, publiziert das Team aber mit MusicCaps einen Satz mit annotierten Stücken, "die von erfahrenen Musikern erstellt wurden".

(bme)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}