Mittelalter bis True Crime: Neue Sprach-Modelle in OpenAI-API verfügbar

OpenAI bietet neue Text-zu-Sprache und Sprache-zu-Text-Modelle in der API an. Die sollen Whisper übertreffen.

(Bild: Shutterstock/ioda)

21.03.2025, 09:21 Uhr

Lesezeit: 2 Min.

Von

Eva-Maria Weiß

Der Ritter aus dem Mittelalter trägt einen Text im Stil einer Ballade vor – "may the quest be delicious". Eine rauchige Männerstimme soll besonders geeignet sein, True-Crime-Geschichten vorzutragen. Die Gute-Nacht-Geschichte gibt es, klar, von einer sanften Frauenstimme. Und der Surfer startet mit den Worten: "Wow Dude." OpenAI hat diese Hörbeispiele veröffentlicht. Das neue Text-to-Speech-Modell ist jedoch nicht auf sie beschränkt. Entwickler können das Modell künftig anweisen, in einer bestimmten, von ihnen beschriebenen Art und Weise zu sprechen.

Videos by heise

Das Text-to-Speech und das Speech-to-Text-Modell gibt es in der API. Sie sollen deutlich besser geworden sein. Das bezieht sich etwa auf die Wortfehlerrate des Transkriptions-Modells, schreibt OpenAI im Blogbeitrag. Die neue Möglichkeit, die Tonart zu bestimmen, soll helfen können, beispielsweise einen "einfühlsamen Kundenservice-Mitarbeiter" aufsetzen zu können.

Besser als Whisper und kostengünstiger

Hinter den Modellen stecken GPT-4o und GPT-4o mini, sie sollen kosteneffizienter sein als vorherige Versionen, was nicht zuletzt an verbesserter Model-Distillation liegt, also der Übertragung des Wissens eines großen Modells auf ein kleineres, effizienteres Modell. Es hat zudem ein gesondertes Training mit Audiodaten gegeben. Laut OpenAI ist das Sprache-zu-Text-Modell sogar besser als Whisper. Das ist das bisherige Transkriptions-Tool von OpenAI. Das soll an der Integration von Reinforcement Learning liegen, also dem bestätigenden Lernen eines Modells.

Für Entwickler gibt es nun eine Demo-Seite, auf der man die Modelle ausprobieren kann. Sie ist unter OpenAI.fm zu finden. Mit dem Agents SDK lässt sich zudem aus einem textbasierten Agenten ein Sprachagent machen.