2023, das Jahr der Musik-KI: Text-to-Audio und per Textsuche zum perfekten Song

Aus riesigen Musikarchiven mit Freitextsuche den passenden Sound finden, per Textprompt Tonspuren erzeugen – 2023 erlebt Musik- und Audio-KI einen Durchbruch.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Colorful,Audio,Waveform,On,Virtual,Human,Background,,represent,Digital,Equalizer

(Bild: whiteMocca/Shutterstock.com)

Lesezeit: 7 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Cyanite, ein Mannheimer DeepTech-Start-up, hat eine Suchmaschine entwickelt, die auf der Basis freier Textsuche Musik in Bibliotheken und Katalogen findet. Wie man es von KI-Kunstprogrammen wie Stable Diffusion, Midjourney oder DALL·E kennt, läuft die Anfrage in natürlicher Sprache. Die Technik geht über die einer Recommendation Engine hinaus, auch zu längeren Texteingaben soll die Suchmaschine passende Musikstücke vorschlagen. Die denkbaren Szenarien sind vielfältig:

So lassen sich kurze Szenen beschreiben, Musik-Briefings hochladen oder Ideen für ein Musikstück eintippen. Cyanite erstellt dazu über API-Zugriff eine Liste passender Titel. Anfragen können unterschiedlich gestrickt sein, die Eingabesprache ist Englisch: "A sunny day in the forest" ist genauso möglich wie eine komplexere szenische Beschreibung, die Musik für einen Filmclip aufspüren soll: "A busy city in North America, crowded with people in a dark mood, surrounded by wilderness and decay, pre-apocalyptic setting, and the sea will soon claim it".

Mit diesem Testprompt hat die Redaktion ad hoc Spotify-Vorschläge erhalten, die der beschriebenen Stimmung teils gut entsprechen. Die Liste macht neben dem Dateinamen Angaben zum Rhythmus, zur Tonart und zum Genre sowie (bei Gesang) zum Stimmprofil. Passend zur melancholischen Stimmung des Textprompts sind die meisten Vorschläge in Moll gehalten. Public Memory, "Afterlife" und Juju & Jordash, "Quasi" klangen besonders passend – Stücke von Gruppen und aus einem Genre (Electro Dance), die der Verfasserin nicht vertraut waren. Auf eigene Faust hätte sie sie wohl nicht aufgespürt.

Die Musiksuchmaschine von Cyanite listet Titel auf, die zu einer längeren szenischen Textvorgabe passen (Screenshot eines Testlaufs).

"Finde diesen einen perfekten Song" sei in den letzten Jahren ein eigener Geschäftsbereich geworden (B2B), ergänzte der Cyanite-CEO Markus Schwarzer auf Nachfrage. Nach typischen Einsatzzwecken gefragt, nannte er die Spieleentwicklung, Stock Music (das Äquivalent zu Stock Images), die Film- und Fernsehbranche sowie Werbung und Branding. Selbst spricht er von einer "Musik-Intelligenz", die die Musik dieser Welt "verstehe und empfehle". In etwas schlichteren Worten ist die Suchmaschine von Cyanite ein Programm zum Auffinden von Titeln aus großen Katalogen wie Spotify oder eigenen Musikarchiven sowie Datenbanken. Cyanite erstellt zur Texteingabe passende Titellisten aus diesem Fundus.

Erinnert das nicht an Pandora? Nur auf den ersten Blick: Bei den Empfehlungsalgorithmen gebe es Parallelen, erklärte Schwarzer. Die US-amerikanische Plattform für Musikempfehlungen hingegen ist ein Streaming- und Empfehlungsdienst mit Fokus auf Endkunden (B2C), einer eigenen streambaren Musikdatenbank – und aus Lizenzgründen ist Pandora in Europa zurzeit nicht verfügbar. Cyanite bietet keinen Streamingkatalog, sondern die Technik soll User der Suchmaschine in die Lage versetzen, ihre eigenen großen Bibliotheken und Kataloge rasch zu durchforsten. Das Aufspüren passender Musiktitel für eine bestimmte Stimmung, einen Anlass, zur Untermalung eines Videos oder Kinotrailers soll dabei nicht von musikalischem Fachwissen abhängen, sondern vom Ausformulieren des Szenarios. Die Schnittstelle ist natürliche Sprache.

Was ist Cyanite?

(Bild: ymgerman/shutterstock.com)

Cyanite.AI wurde 2018 von Joshua Weikert (CTO), Jakob Höflich (CMO) und Markus Schwarzer (CEO) in Mannheim gegründet. Das Technik-Start-up bietet Software für das KI-gestützte Kategorisieren und Suchen von Musik per Texteingabe. Die Mannheimer stellen keinen eigenen Musikkatalog zur Verfügung, sondern ein Werkzeug für Firmen und Menschen, die selbst über große Musikbibliotheken verfügen und diese beruflich oder privat besser erschließen wollen.

Expertise in Audio-Technologie und Musikindustrie

Weikert ist Softwareentwickler mit einem Master of Arts in Music & Creative Industries, zuvor war er technischer Musikproduzent in open-innovation-Projekten. Höflich ist ein Radio-Redakteur und -Journalist, der früher viel Musik händisch verschlagworten musste. Schwarzer kommt aus der Wirtschaft (BWL) und studierte ebenfalls Music & Creative Industries, erstellte zuvor für Musiker wie Lenny Kravitz, Kings of Leon und Daft Punk Musik-PR-Kampagnen und veröffentlichte im Springer-Verlag ein Fachbuch über Geschäftsmodelle in der Musikindustrie.

Die drei Gründer kennen sich vom Studium an der Popakademie Mannheim (der "WHU der Musikindustrie"). Als KI- und Datenexperte ist Roman Gebhardt an Bord (Chief AI Officer). Gebhardt ist Elektroingenieur mit einem Master in Audio- und Kommunikationstechnologie von der TU Berlin, wo er in dem Bereich eine Promotion begann und Musiktechnologie erforschte. Internationale Musikmagazine haben bereits über die Gründer berichtet, so unter anderem die Music Week im November 2022 ("On the Power of AI for the Music Industry").

Technisch liegt der Suchmaschine ein Transformermodell zugrunde, eine ähnliche Architektur kommt auch bei Tools wie den KI-Bildgeneratoren oder ChatGPT zum Einsatz. Cyanite hat die verwendeten Transformermodelle mit komplexen Musikbeschreibungen wie Musikrezensionen trainiert und dem KI-System beigebracht, für jegliche Art von Text dazu passende Musik vorzuschlagen. Neu daran ist, dass die Software freien Text statt fester Klassen beherrscht und semantische Beziehungen innerhalb des Textes versteht sowie der Musik zuordnen kann. Im Backend hat man die Wahl zwischen drei Suchmodi: freier Texteingabe, Ähnlichkeitssuche oder einer Suche nach Stichwörtern.

Die Mannheimer haben nach eigenen Angaben damit weniger Privatleute im Blick, sondern sprechen vor allem die Musik- und Unterhaltungsindustrie an (B2B), die damit ihre Kunden mit Musikvorschlägen und Playlists für Projekte bedienen können: Große Musikfirmen verfügen am ehesten über ein riesiges Repertoire und umfangreiche Archive, die sich mit der KI-gestützten Suche erschließen lassen. Auf Nachfrage nannte Markus Schwarzer einige Referenzkunden: Musikverlage und -labels wie BMG, Schubert Music, Brilliant Classics aus den Niederlanden, Nettwerk Music Group aus Kanada, Musikmarktplätze in den USA und in Großbritannien sowie einige Musik-Branding-Anbieter, die teils die Free Text Search direkt in ihr Portfolio einbinden.

Ob Cyanite das bessere Pandora ist, kann die Redaktion mangels Wohnsitz in den USA nicht einschätzen – zumindest ist es verfügbar. Cyanite ist zurzeit zwar ebenfalls vor allem im angloamerikanischen Raum vertreten, länderbezogenen Einschränkungen unterliegt der Dienst jedoch nicht. Die musikaffine Nutzerschaft erschließt damit ja eigene Bibliotheken – und Musikverlage gärtnern ohnedies in den eigenen, nichtöffentlichen Archiven. Wer mag, kann die Free Text Search mit einer Spotify-Datenbank in der Web-App des Anbieters auf der Cyanite-Website ausprobieren – dafür ist es nötig, sich zu registrieren (da es kein Double-Opt-in gibt, muss man persönliche Daten nicht zwingend preisgeben, wie wir getestet haben). Interessierte können ihre Musik dort umfangreich taggen, mit Metadaten versehen, eine KI-basierte Volltextbeschreibung erstellen und zwischen drei Suchalgorithmen wählen. Fünf Analysen pro Monat sind gratis laut Anbieter.

Die Entwicklung von Musik-KI ist darüber hinaus dieses Jahr ausgesprochen dynamisch: Auf ein Jahr der Text- und Bild-Synthese folgt ein Durchbruch von Audio-KI-Projekten. Text-to-Tunes und Text-zu-Audio sind im Kommen, das Erstellen kreativer Inhalte mit Textvorgaben ist von Kunst- oder Textautomaten (ChatGPT, Claude, Lumi, ...) bereits vertraut. Nach Neuerungen wie Googles AudioLM und MusicLM (einer Art "DALL·E für Songs") sowie Make-an-Audio des chinesischen TikTok-Anbieters ByteDance ist die technische Entwicklung offenbar so weit, dass KI-Systeme nun mit Textvorgaben Klänge, Audiomaterial, aber zunehmend auch Musik erstellen oder menschliche Stimmen nachahmen können (Text-to-Speech, beispielsweise mit VALL·E).

Bereits 2021 war in China SingGAN erschienen, eine KI-Methode zum Generieren von Singstimmen. Mittlerweile gibt es erste Radiosender und Podcasts, die mit Stimmsynthese arbeiten (eine Heise-Kollegin hat für "Kurz informiert" ihre Stimme klonen lassen). Erste Demos werden teils intensiv genutzt und die Systeme weiter verfeinert. Der Output wirkt derweil oft noch etwas beliebig und wenig steuerbar. All diese Neuerungen könnten in Konkurrenz stehen zum lizenzbasierten Kerngeschäft der Musikindustrie, aber auch Umbruch bewirken im gesamten Musikschaffen.

Auf GitHub hat der Schweizer Entwickler Flavio Schneider ein Repository mit einer Timeline zu KI-Musikprojekten angelegt (Audio AI Timeline), zum Dokumentieren von Neuerscheinungen. Schneider ist auch selbst in der Musik-KI-Forschung aktiv und veröffentlichte Ende Januar 2023 Moûsai, ein Modell zum Generieren von Musik aus Textvorgaben mit ausführlichem Kontext (wie der KI-Bildgenerator Stable Diffusion basiert es auf latenter Diffusion). Wer sich für Musik und KI interessiert, kann sich in der Audio AI Timeline auf dem Laufenden halten und den Maintainer auf eigene Projekte hinweisen.

Siehe auch:

(sih)