Stimmen nachahmen mit KI: TorToiSe ausprobiert

Gedichte und Bücher vorlesen: TorToiSe wandelt Schrift in gesprochene Sprache um. Die KI lässt sich mit der eigenen Stimme trainieren – und lokal installieren.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Colorful,Audio,Waveform,On,Virtual,Human,Background,,represent,Digital,Equalizer

(Bild: Erstellt mit Midjourney durch heise online)

Lesezeit: 9 Min.
Inhaltsverzeichnis

KI-Tools sind in aller Munde, und bald vielleicht schon in aller Ohren: TorToiSe ist ein kostenloses Tool, welchem man über ein paar Audio-Aufnahmen beibringen kann, die eigene Stimme nachzuahmen – und so etwa längere Texte vorzulesen oder Freunde per Sprachnachricht zu foppen. Die Texte sind zwar auf die englische Sprache beschränkt, Spaß macht das Herumexperimentieren damit dennoch. TorToiSe liefert auch ein paar Promi-Stimmen mit, etwa jene der Schauspieler Morgan Freeman, Jennifer Lawrence und Robert De Niro.

Ein triftiger Grund für uns, das KI-Tool mal auszuprobieren: Wir zeigen, wie Sie TorToiSe unter Windows 11 aufsetzen, die eigene Stimme einspielen und Prompts schreiben. Außerdem schauen wir uns an, wie gut das Tool beim Nachahmen der eigenen Stimme tatsächlich ist.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das generative KI-Modell ist auf GitHub frei erhältlich. Entwickelt wurde es von James Betker, mittlerweile Research Engineer der KI-Firma OpenAI, die etwa ChatGPT hervorgebracht hat. Mindestvoraussetzung für TorToiSe Version 2 ist eine CUDA-fähige Nvidia-Grafikkarte ab der Serie GeForce GTX 1050 Ti (Pascal-GPU) – letztere kam im Jahr 2016 auf den Markt. Unsere Tests führten wir mit einer Nvidia GeForce RTX 2060 Super und einem Intel Core-i9 9900K durch. Auf diesem System dauerte die Ausgabe eines einzelnen Satzes etwa dreißig Sekunden. TorToiSe ist also schleichend langsam, daher auch sein Name: Schildkröte.

Das war die Leseprobe unseres heise-Plus-Artikels "Stimmen nachahmen mit KI: TorToiSe ausprobiert". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.