Meta veröffentlicht AudioCraft: Eine Art ChatGPT für Musiker

AudioCraft kann Audio und damit auch Musik via Text generieren. Meta macht zudem MusicGen, AudioGen und EnCodec frei zugänglich.

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen

Plattenladen – noch ganz ohne KI.

(Bild: Derick Hudson/Shutterstock.com)

Lesezeit: 3 Min.

Um mit Metas AudioCraft Musik zu machen, braucht man keine Instrumente. Und trotzdem kommt da nicht zwingend künstlich klingender Techno bei raus. Das neueste generative-KI-Tool, wie es Meta nennt, vereint drei bereits bestehende Modelle: MusicGen, AudioGen und EnCodec. Gemeinsam können sie mittels Texteingabe Musik generieren und bearbeiten.

MusicGen ist mit Metas eigener und lizenzierter Musik trainiert worden und kann Musik aus Textprompts erstellen. AudioGen ist auf Soundeffekte spezialisiert. EnCode ist der Decoder, den Meta in einer aktualisierten Version verfügbar macht. Er soll qualitativ hochwertige Musik generieren können, mit weniger Artefakten, also so was wie Mistönen.

AudioGen wird zudem als vortrainiertes Model samt Code veröffentlicht, allerdings mit der Einschränkung für Forschende. Zu den Soundeffekten, die das Modell beherrscht, gehören Hundebellen, Autohupen und allerlei Geräusche aus der Umgebung. AudioCraft kann Musik und Sound verarbeiten, dient als Kompressor und generiert Audio – es soll also auch zur Musikbearbeitung genutzt werden. Meta stellt sich MusicGen als eine Art neues Instrument vor, wie es einst der Synthesizer war.

Mark Zuckerberg hat AudioCraft in seinem Broadcast Channel vorgestellt. Dort gibt es auch Hörbeispiele. Den Anfang macht ein Prompt, der lautet: "Movie-scene in a desert with percussion" und tatsächlich sieht man sofort mindestens einen trostlosen Highway vor dem inneren Auge. Allerdings auch eine Gitarre. Die "80s electronic with drum beats" erinnern an schwarzen Kajal und struppige Haarspray-Frisuren.

(Bild: https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/)

Im Blogbeitrag von Meta heißt es, bei der Aufregung um generative Künstliche Intelligenz sei Audio ein bisschen stiefmütterlich behandelt worden. Dabei sei Musik die schwierigste Art Audio zu erstellen, weil sie "aus lokalen und langfristigen Mustern, von einer Reihe von Noten bis hin zu einer globalen musikalischen Struktur mit mehreren Instrumenten" besteht. "Ein solides Open Source Foundation Model kann Innovation fördern und die Art und Weise, wie wir Musik und Audio in der Zukunft hören, ergänzen." Zielgruppe sind laut Meta Musiker und Sounddesigner. Sie können mit dem Tool brainstormen und herumprobieren.

Aber auch Creator und Unternehmen sieht Meta als Profiteure. Sie können beispielsweise Reels und Videos mit selbst erstellter Musik hinterlegen, ohne dass sie sich um Urheberrechte sorgen oder lange suchen müssen.

Meta ist derzeit sehr daran gelegen, die eigenen Errungenschaften rund um KI Open Source zu veröffentlichen, sowohl für Endnutzer als auch für Forscher und Entwickler. Anders sieht es bei den anderen großen Playern im Bereich KI aus. OpenAI und Google halten eher hinterm Berg, was ihre Modelle anbelangt. Es gibt aber auch eine Reihe frei verfügbarer Sprachmodelle und Bildgeneratoren verschiedenster Couleur.

(emw)