KI-Stimmen: Sieben Anbieter für Text-to-Speech im Vergleich

Künstliche Intelligenz will inzwischen menschliche Sprecher ersetzen und klonen können. Wie gut das funktioniert, haben wir bei sieben TTS-Diensten untersucht.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
",

"

(Bild: Bild: KI Stable Diffusion | Bearbeitung c't)

Lesezeit: 21 Min.
Von
  • Kai Schwirzke
Inhaltsverzeichnis

Glaubt man den Anbietern, so sprechen künstliche Stimmen mittlerweile Texte auf Knopfdruck in wenigen Sekunden professionell ein. KI-basierte Text-to-Speech-Algorithmen sollen eine so realistische Sprachausgabe erreichen, dass man die maschinelle Herkunft nicht mehr erkennt. Aus dem kaum überschaubaren Angebot haben wir sieben interessante Dienste ausgewählt und getestet. Die Auswahl deckt einen Querschnitt der aktuellen Online-Angebote ab und reicht von günstigen Start-Ups wie ElevenLabs und Speecheasy über Anbieter mit hunderten verschiedener Stimmen wie Beepbooply und Uberduck, Spezialisten für Dialoge wie Coqui, Videovertonung wie Murf bis hin zu teureren Angeboten wie Revoicer, die mit besonders emotionalen Stimmen werben.

Dabei hat uns vor allem interessiert, welchen Mehrwert diese Systeme gegenüber der mittlerweile in jedem modernen Betriebssystem integrierten Sprachausgabe bieten. Denn unter Windows und macOS (unter Linux muss man nachinstallieren) lesen männliche und weibliche Stimmen Textdokumente, Webseiten oder E-Mails bereits in ordentlicher Qualität vor. Besonders gut gelingt dies in Englisch, Deutsch klingt oft holpriger. Um Menschen mit eingeschränktem Sehvermögen Inhalte zu vermitteln, reicht die Qualität der integrierten Stimmen jedoch allemal aus.

Mehr zu Künstlicher Intelligenz

Vier der untersuchten Online-Dienste (Beepbooply, ElevenLabs, Murf und Revoicer) sprechen neben Englisch und anderen Sprachen auch Deutsch. Coqui, ElevenLabs, Murf und Uberduck können zudem Stimmen klonen. Alle Anbieter arbeiten browserbasiert. Mit Ausnahme von Revoicer können Sie alle Dienste kostenlos ausprobieren. Ein Download der Audiodaten mit den gesprochenen Texten ist oft erst nach Abschluss eines zahlungspflichtigen Abos möglich, dessen Einstiegspreise von 5 bis 30 US-Dollar pro Monat reichen. Nach einer Zahlung können Sie die Aufnahmen bei allen Anbietern herunterladen und fortan kommerziell auch nach Ende der Abozeit nutzen.