Mittelalter bis True Crime: Neue Sprach-Modelle in OpenAI-API verfügbar

OpenAI bietet neue Text-zu-Sprache und Sprache-zu-Text-Modelle in der API an. Die sollen Whisper übertreffen.

vorlesen Druckansicht 2 Kommentare lesen
Das Logo von OpenAI an der Fassade des Bürogebäudes in San Francisco.

(Bild: Shutterstock/ioda)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Der Ritter aus dem Mittelalter trägt einen Text im Stil einer Ballade vor – "may the quest be delicious". Eine rauchige Männerstimme soll besonders geeignet sein, True-Crime-Geschichten vorzutragen. Die Gute-Nacht-Geschichte gibt es, klar, von einer sanften Frauenstimme. Und der Surfer startet mit den Worten: "Wow Dude." OpenAI hat diese Hörbeispiele veröffentlicht. Das neue Text-to-Speech-Modell ist jedoch nicht auf sie beschränkt. Entwickler können das Modell künftig anweisen, in einer bestimmten, von ihnen beschriebenen Art und Weise zu sprechen.

Videos by heise

Das Text-to-Speech und das Speech-to-Text-Modell gibt es in der API. Sie sollen deutlich besser geworden sein. Das bezieht sich etwa auf die Wortfehlerrate des Transkriptions-Modells, schreibt OpenAI im Blogbeitrag. Die neue Möglichkeit, die Tonart zu bestimmen, soll helfen können, beispielsweise einen "einfühlsamen Kundenservice-Mitarbeiter" aufsetzen zu können.

Hinter den Modellen stecken GPT-4o und GPT-4o mini, sie sollen kosteneffizienter sein als vorherige Versionen, was nicht zuletzt an verbesserter Model-Distillation liegt, also der Übertragung des Wissens eines großen Modells auf ein kleineres, effizienteres Modell. Es hat zudem ein gesondertes Training mit Audiodaten gegeben. Laut OpenAI ist das Sprache-zu-Text-Modell sogar besser als Whisper. Das ist das bisherige Transkriptions-Tool von OpenAI. Das soll an der Integration von Reinforcement Learning liegen, also dem bestätigenden Lernen eines Modells.

Für Entwickler gibt es nun eine Demo-Seite, auf der man die Modelle ausprobieren kann. Sie ist unter OpenAI.fm zu finden. Mit dem Agents SDK lässt sich zudem aus einem textbasierten Agenten ein Sprachagent machen.

(emw)