Audio-KI "Bark" erzeugt natürliche Sprache und kann sogar singen

Die Audio-KI "Bark" von Suno AI verspricht realistische, multilinguale Sprachausgabe inklusive Gesang und Umgebungsgeräuschen. Bellen kann Bark aber noch nicht.

7

(Bild: Erzeugt mit Midjourney durch heise online)

24.04.2023, 13:57 Uhr

Lesezeit: 2 Min.

Von

Marie-Claire Koch

Die generative Audio-KI Bark von Suno AI aus Cambridge erzeugt aus Textprompts natürlich klingende Sprache – auch als Gesang. Der Text-zu-Audio-Generator versteht momentan 13 Sprachen, die man in einem Prompt mischen kann. Ferner interpretiert Bark verschiedene Regieanweisungen wie "[laughs]", "[gasps]" oder "[sighs]".

In zahlreichen Hörbeispielen auf der GitHub-Projektseite von Bark stellt Suno AI die Vielseitigkeit seiner Audio-KI unter Beweis. Am verlässlichsten funktioniert die Sprachsynthese momentan jedoch im Englischen. Auch auf Deutsch lieferte Bark bei einem ersten Test von heise online natürlich klingende Ergebnisse. Die von Bark hinzugefügten Hintergrundgeräusche wirkten allerdings mitunter eher wie Störungen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Multilingual mit Akzent

Es ist sogar möglich, die Stimme beim Wechsel in eine andere Sprache – als Code-Switching bezeichnet – mit Akzent sprechen zu lassen. In folgendem Beispiel wird zunächst Spanisch gesprochen, dann Englisch mit spanischem Akzent:

text_prompt = """ 
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible. 
"""
audio_array = generate_audio(text_prompt)

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(Quelle: Suno AI)

Kein Unterschied zwischen Sprache und Musik

Bark macht keinen Unterschied zwischen Sprache und Musik. Das Modell erkennt die eingegebenen Textprompts mitunter als Gesang und trägt sie melodisch vor. Derzeit lässt sich das nicht verhindern, wohl aber Gesang durch Angabe von Noten "♪" im Prompt erzwingen.

Bark kann nicht nur singen, sondern genauso wie Microsofts Sprachgenerator Vall-E prinzipiell auch eigene Stimmen anhand von Audioaufnahmen trainieren – einschließlich Tonfall, Tonhöhe, Emotion und Prosodie. Um Missbrauch zu verhindern, begrenzt Suno AI jedoch die Fähigkeiten des Modells auf eine feste Zahl synthetischer Stimmen für jede Sprache.

Lesen Sie auch

In eigener Sache: heise online klont Stimme von Podcast-Redakteurin

Analog zu Vall-E verwendet das in Python und Jupyter Notebook geschriebene Bark als Grundlage GPT-artige Modelle (Generative Pre-trained Transformer), welche das Projekt-Team mithilfe von nanoGPT und AudioLM implementiert hat. Bark verwendet Transformer-Modelle mit mehr als 100 Millionen Parametern. Damit die Audio-KI damit Sprache nahezu in Echtzeit erzeugen kann, benötigt sie GPU-Beschleunigung und ein aktuelles PyTorch Nightly; nur mit einer CPU kann die Verarbeitung 10- bis 100-mal länger dauern.

Die Demoversion des Projektes steht auf Github unter Creative Commons Attribution-NonCommercial 4.0 International Public License zum Ausprobieren bereit. Wer die Sprachmodelle von Suno AI ausführlich testen will, kann sich auf eine Warteliste für Suno Studio setzen lassen. (mack)