Neue KI von Nvidia: Fugatto kann Musik generieren und Stimmen Akzent verleihen

Fugatto von Nvidia kann angeblich auf Zuruf Musik generieren und existierenden Sound anpassen. Das soll etwa bei der Entwicklung von Computerspielen helfen.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Katze mit Kopfhörer an Computer

Damit könne auch Katzen Musik produzieren, legt das Werbebild von Nvidia nahe

(Bild: Nvidia)

Lesezeit: 2 Min.

Nvidia hat mit Fugatto eine KI-Technik für die Generierung von Audio vorgestellt, die deutlich vielseitiger und besser als alle Konkurrenzdienste sein soll. So soll es damit etwa möglich sein, existierende Audioaufnahmen zu transformieren und beispielsweise aus einem Stück Klavierspiel Gesang machen. Möglich sei es auch, die Aufnahme einer Stimme so zu modifizieren, dass sich der Akzent oder die Stimmung der aufgezeichneten Person scheinbar ändern. Gedacht sei die Technik für die Produktion von Musik, für die Entwicklung von Computerspielen und für "normale Menschen, die Sachen erschaffen wollen", erklärt Bryan Catanzaro von Nvidia.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Trainiert wurde Fugatto (Foundational Generative Audio Transformer Opus 1) laut Nvidia ausschließlich mit Material unter Open-Source-Lizenzen, gesteuert wird die Technik mit Textbefehlen ("Prompts") oder mithilfe von Audiodateien. In einem Video zeigt Nvidia, wie Fugatto lediglich auf solch einen Prompt hin das Geräusch eines vorbeifahrenden Zuges generiert, das sich in eine Orchesteraufnahme verwandelt. In weiteren Beispielen trennt die Technik eine Stimme aus einem Song heraus und generiert eine andere Stimme, die einen vorgegebenen Satz aufsagt. Außerdem lassen sich zu einem hochgeladenen Musikstück Instrumente hinzufügen.

"Wir wollten ein Modell erschaffen, das Geräusche so versteht und produziert, wie Menschen es tun", erklärt Rafael Valle von Nvidia das Produkt. An der Entwicklung haben demnach ungefähr ein Dutzend Menschen mitgearbeitet. Laut der Nachrichtenagentur Reuters wird intern noch darüber debattiert, ob und wie die Technik öffentlich verfügbar gemacht wird. Jede generative Technik bringe einige Risiken mit sich, begründet Catanzaro demnach die Zurückhaltung: "Wir müssen damit vorsichtig sein und deshalb haben wir keine unmittelbaren Pläne, das zu veröffentlichen."

(mho)