Open-Source-Musikgenerator "YuE" erzeugt offline komplette Songs aus Liedtexten
Das Open-Source-Modell "YuE" des chinesisch-amerikanischen Forschungskollektivs M-A-P erzeugt auf dem PC minutenlange Songs in diversen Stilen und Sprachen.
(Bild: whiteMocca/Shutterstock.com / Bearbeitung heise online)
Nachdem in kurzer Folge die chinesischen KI-Sprachmodelle DeepSeek R1 und Alibaba Qwen 2.5 Max sowie der Bildgenerator DeepSeek Janus Pro für Aufsehen gesorgt haben, folgt nun ein KI-Musikgenerator unter Open-Source-Lizenz (Apache 2.0) vom chinesisch-amerikanischen Forschungskollektiv Multimodal Art Projection (M-A-P). Dieses hat in Zusammenarbeit mit der Hongkong University of Science and Technology (HKUST) eine Reihe von KI-Modellen zur Musikgenerierung veröffentlicht. Das Projekt "Open Music Foundation Models for Full-Song Generation" trägt den doppeldeutigen Namen "YuE" (乐), der auf Chinesisch sowohl "Musik" als auch "Glück" bedeutet. YuE kann aus einem gegebenen Liedtext einen kompletten Song von mehreren Minuten Länge generieren, der sowohl einen Gesangspart als auch eine Begleitung enthält. Die Modelle beherrschen dabei verschiedene Genres, Sprachen und Gesangstechniken. Die Beispielsongs klingen auch nach mehreren Minuten erstaunlich kohärent. Allerdings sind alle Beispielsongs bisher nur in Mono, während die bekannten KI-Musikdienste Udio und Suno Stereomusik erzeugen.
Anders als diese läuft YuE jedoch offline auf lokaler Hardware. Allerdings sind die Anforderungen dafür nicht ohne: Für die Erzeugung eines 30-sekündigen Audioclips benötigt man laut den Entwicklern auf einer Nvidia H800 GPU rund 150 Sekunden, auf einer GeForce RTX 4090 etwa 360 Sekunden.
Videos by heise
Hohe Hardware-Anforderungen
Für die Vollversion zur Generierung ganzer Songs empfehlen die Entwickler mindestens 80 GByte GPU-Speicher, was derzeit nur wenige High-End-Grafikkarten wie die Hopper H800 oder A100 sowie mehrere RTX 4090 im Verbund bieten. Für kürzere Ausschnitte wie eine Strophe und einen Refrain sollen 24 GByte VRAM ausreichen. Wer eine entsprechend starke Grafikkarte besitzt, kann YuE selbst ausprobieren. Eine Installationsanleitung bei YouTube hilft bei der Einrichtung.
Die YuE-Modelle nutzen Metas LLama-Architektur und wurden in drei Stufen trainiert, um Skalierbarkeit, Musikalität und Steuerbarkeit durch den Liedtext zu gewährleisten. Verwendet wurde dafür ein semantisch erweiterter Audio-Tokenizer zur Reduzierung der Trainingskosten. M-A-P hat Varianten mit 1 und 7 Milliarden Parametern für die Sprachen Englisch, Chinesisch (Mandarin und Kantonesisch), Japanisch und Koreanisch veröffentlicht, dazu ein Upsampler-Modell. Letzteres ermöglicht die Ausgabe des generierten Musikstücks in CD-Qualität mit 44,1 kHz.
Auf der Projektseite gibt es zahlreiche Demosongs, hier einige Beispiele:
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Die Modelle stehen auf der Plattform GitHub frei zum Download bereit und dürfen auch frei für kommerzielle Projekte genutzt werden, sofern man angibt, dass die Songs mit KI-Unterstützung von M-A-P erzeugt wurden. Musiker und Kreative werden ausdrücklich ermutigt, von YuE produzierte Werke weiterzuverwenden und auch zu monetarisieren.
Vor wenigen Tagen haben die Entwickler ihre Modelle um "In-Context-Learning" erweitert, wodurch YuE den Stil eines Referenz-Songs übernehmen kann. Als Beispiel haben sie ein KI-Imitat von Billie Eilish einen Song über OpenAI singen lassen:
Künftig sollen BPM-Kontrolle und eine anwenderfreundliche Bedienoberfläche hinzukommen. Durch einen Wechsel auf die "Tensor library for machine learning" (GGML) hofft das M-A-P-Team außerdem, den Speicherbedarf reduzieren zu können.
Durch die Quelloffenheit erhoffen sich die Entwickler für die KI-Musikerzeugung einen ähnlichen Durchbruch, wie es der KI-Bilderzeuger Stable Diffusion und das Metas Sprachmodell LLama in ihren jeweiligen Bereichen erreicht haben. Um die Modelle zu optimieren und auf mehr Sprachen auszuweiten, sucht das Team hinter YuE Unterstützung, unter anderem Partner zur Erstellung und Kuratierung von Trainingsdaten für das Feintuning sowie für die Evaluierung der Ergebnisse.
(Bild: M-A-P)
(vza)