Spracherkennung und Transkription mit KI: Sprache in Text umwandeln mit Whisper

Die Open-Source-Spracherkennung Whisper transkribiert Sprache aus Audiodateien mit sehr guter Erkennungsquote und versteht sich sogar auf Zeichensetzung.

Artikel verschenken

(Bild: KI Stable Diffusion | Bearbeitung: c't)

26.05.2023, 13:30 Uhr

Lesezeit: 17 Min.

c't Magazin

Von

Immo Junghärtchen

Spracherkennung und Transkription mit KI: Sprache in Text umwandeln mit Whisper
Einrichtung unter Windows, Linux und macOS
Virtuelle Umgebung einrichten
Die erste Transkription
Ausblick

Artikel in c't 14/2023 lesen

Nur Wenige können in Sprechgeschwindigkeit tippen. Interviews, Podcasts oder die Sprache in Videos von Hand zu transkribieren, ist daher ein Knochenjob. Diverse Dienstleister bieten Transkriptionen an, allerdings haben zuverlässige Angebote ihren Preis. Hinzu kommt: Wer seine Audiodaten an einen Anbieter von Spracherkennung schickt, gibt damit eventuell vertrauliche Daten aus der Hand.

Seit September 2022 gibt es Whisper, eine kostenlos nutzbare Transkriptionssoftware des US-amerikanischen KI-Start-ups OpenAI, das mit dem KI-Chatbot ChatGPT Furore gemacht hat. Das Open-Source-Programm analysiert Audioaufzeichnungen und wandelt darin enthaltene Sprache in Textdateien um. Für die Einrichtung nutzen Sie die Kommandozeile.

Whisper beherrscht laut OpenAI 96 Sprachen, Deutsch ist demnach unter den fünf mit der geringsten Fehlerrate bei der Erkennung. Die Sprach-KI arbeitet sich mühelos durch minuten- bis stundenlange Aufzeichnungen, mithilfe der freien Multimediasoftware ffmpeg (Download) kann sie nahezu jedes Ton- oder Videoformat verarbeiten. Noch kann Whisper bei Aufnahmen mit mehreren Sprechern nicht zwischen den einzelnen Personen unterscheiden. Doch auch an dieser Aufgabe wird bereits getüftelt.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Ein Jahr im Volvo EX30: Ein Erfahrungsbericht

Das verglichen mit anderen Volvo-Modellen kleine E-SUV EX30 bewährt sich im Alltag. Doch an ein paar Dingen sollte der Hersteller arbeiten.

Raus aus der Updatefalle: Wie Lineage und iodé alte Smartphones retten

Trotz fehlender Updates muss kein neues Smartphone her: Mit LineageOS und iodéOS lassen sich viele ältere Geräte weiter nutzen.

KI am Arbeitsplatz: Wer haftet für ChatGPT & Co.?

Künstliche Intelligenz birgt erhebliche Haftungsrisiken für Unternehmen und Mitarbeiter. Wir erläutern Rechtsstand und Gefahren anhand aktueller Fälle.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.

Skoda Elroq RS im Test: Wie schlägt sich der Bestseller im Winter?

Skodas RS-Linien sind weniger sportlich, als sie klingen, dafür aber top ausgestattet und sehr alltagstauglich. Wir testen den Elroq RS im tiefsten Winter.