Microsoft bringt KI zum Singen

Computerwissenschaftler können nun auch Gesangsstimmen künstlich generieren. Die Technik ist wirtschaftlich sinnvoll, birgt aber Risiken.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen
Microsoft bringt KI zum Singen

(Bild: thiago barletta / Unsplash)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Eine neue Software von Microsoft kann Gesang erzeugen, der realistisch klingt. In Zusammenarbeit mit Forschern der Zhejiang University in China hat die Forschungsabteilung des Softwareriesen DeepSinger entwickelt. Trainiert wird die KI über vorhandene Musikstücke, die unter anderem von Streaming-Anbietern stammen. Das System soll beispielsweise helfen, bei verrauschten Gesangsaufnahmen das Timbre des Singenden herauszufiltern. So könnten Fehler bei Aufnahmen künstlich behoben beziehungsweise Titel ergänzt und verändert werden.

DeepSinger durchsucht Tausende von Songs, die in unterschiedlichen Sprachen erhältlich sind und erfasst mittels Data Mining Querverbindungen und Trends. Mit dem Open-Source-Werkzeug Spleeter werden Gesangsstimmen von den anderen Tonspuren separiert, die Stimmen analysiert und mit den anderen Daten abgeglichen.

(Bild: Microsoft)

Mit Informationen zu Text, Dauer, Tonhöhe und Referenzaufnahmen kreiert DeepSinger die künstlichen Gesangsstimmen. Bislang singen die in chinesischer und englischer Sprache. Sie sollen qualitativ überzeugen, die Töne treffen und natürlich klingen. Das ergab zumindest eine Testreihe mit zwanzig Testpersonen.

Damit eine Gesangsstimmen synthetisiert werden kann, braucht ein KI-System viele Informationen, um einen Ton und seine Dauer zu steuern. Derartige Datensätze sind noch nicht weit verbreitet, geschweige denn öffentlich verfügbar. Daher ist diese Art der KI-Technik bislang nicht eigenständig: Noch braucht es den Menschen, der Text und Audiopegel analysieren und nachbearbeiten muss. Erst dann kann maschinelles Lernen übernehmen.

(Bild: Microsoft)

Gleichzeitig stellt die Technik erhebliche Risiken dar, wie man sie bereits von Systemen zur Erzeugung künstlicher Sprache oder Videos kennt. Sogenannte DeepFakes werden einfacher – also spezifische Stimmen einfach beliebige Lyrics singen zu lassen – und die Arbeit von Musikern könnte teilweise hinfällig werden. Stimmen von Sängern könnten dann künstlich so generiert werden, dass sie plötzlich Texte formulieren, die sie tatsächlich nie gesungen haben. Zukünftig könnte mit solch einer Technik aber auch jede Menge Zeit eingespart werden, indem Sängerinnen und Sänger beispielsweise nicht mehr zu Neuaufnahmen erscheinen müssen, wenn es bei der letzten Recording-Session zu einem Fehler kam oder ein Track leicht verändert werden soll.

In Testläufen durchlief DeepSinger Zehntausende von Songs in chinesischer, kantonesischer und englischer Sprache, die nach Länge sortiert und auf einen Lautstärkenbereich normalisiert wurden. Die Songs mit schlechter Sprachqualität oder falschen Texten wurden von dem System aussortiert, aus den verbliebenen wurde ein Trainingsdatensatz – der "Singing-Wild data set" – entwickelt, der 92 Stunden Audiomaterial und die Stimmen von 89 Sängern miteinander in einem neuronalen Netzwerk vernetzt hat.

(bsc)