GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis

OpenAI veröffentlicht GPT-5.4, das Reasoning, Coding und Computer-Steuerung in einem Modell vereint und Konkurrenten übertrifft.

vorlesen Druckansicht 4 Kommentare lesen
Das Logo von OpenAI an der Fassade des Bürogebäudes in San Francisco.

(Bild: Shutterstock/ioda)

Lesezeit: 7 Min.
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Kaum zwei Tage nach dem Start von GPT-5.3 Instant – OpenAIs Reaktion auf das von vielen Nutzern als zu geschwätzig empfundene GPT-5.2, welches praktisch gleichzeitig mit Anthropic Opus 4.6 erschien – legt das Unternehmen erneut nach: GPT-5.4 ist da, und dieses Mal will OpenAI gleich mehrere Fronten auf einmal bespielen.

GPT-5.4 soll kein inkrementelles Update sein, sondern bislang getrennte Modell-Linien zusammenbringen – Reasoning, Coding und Wissensarbeit in einem einzigen Frontier-Modell. Laut OpenAI löst GPT-5.4 dabei auch GPT-5.3-Codex-Spark als empfohlenes Modell für Entwickler ab.

Das wohl auffälligste Novum: GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Agenten können damit eigenständig Desktop-Umgebungen navigieren, Maus und Tastatur steuern und komplexe Arbeitsabläufe über mehrere Anwendungen hinweg ausführen – ohne spezialisiertes Zusatzmodell.

Auf OSWorld-Verified, dem Standard-Benchmark für agentische Desktop-Steuerung per Screenshot, erreicht GPT-5.4 75 Prozent und übertrifft damit sowohl den menschlichen Referenzwert von 72,4 Prozent als auch Opus 4.6, das bei seiner Veröffentlichung 72,7 Prozent erzielte und damit damals die Messlatte gesetzt hatte. GPT-5.2 lag noch bei 47,3 Prozent.

Ähnlich das Bild bei BrowseComp, dem Benchmark für hartnäckige mehrstufige Web-Recherche: Opus 4.6 hatte hier mit 84,0 Prozent einen klaren Vorsprung gegenüber GPT-5.2 (65,8 Prozent) markiert. GPT-5.4 erreicht nun 82,7 Prozent – knapp dahinter, aber die Pro-Variante übertrifft Opus 4.6 mit 89,3 Prozent deutlich.

Videos by heise

Auf dem GDPval-Benchmark, der Agenten-Leistungen in 44 Berufsfeldern misst, hatte Opus 4.6 bei seiner Veröffentlichung GPT-5.2 um rund 144 Elo-Punkte übertroffen – eine der auffälligsten Lücken zwischen den Modellen. GPT-5.4 schließt diese jetzt: Mit einer Gewinnrate von 83 Prozent gegenüber Branchenexperten übertrifft es GPT-5.2s 70,9 Prozent deutlich. Ein direkter Elo-Vergleich mit Opus 4.6 steht noch aus, da beide Unternehmen leicht unterschiedliche GDPval-Varianten berichten.

Besonders bei Tabellenkalkulationen zeigt sich der Fortschritt: Auf einem internen Benchmark für Investment-Banking-Modellierungsaufgaben erzielt GPT-5.4 87,3 Prozent gegenüber 68,4 Prozent bei GPT-5.2. OpenAI gibt zudem an, die Halluzinationsrate deutlich gesenkt zu haben: Einzelne Aussagen sollen 33 Prozent seltener falsch sein als bei GPT-5.2, vollständige Antworten 18 Prozent seltener Fehler enthalten.

Auf ARC-AGI-2, dem Benchmark für abstrakte Mustererkennung, setzt GPT-5.4 die deutlichsten Ausrufezeichen: GPT-5.4 in der Pro-Variante erreicht 83,3 Prozent, gefolgt von Googles Gemini 3.1 Pro (Preview) mit 77,1 Prozent, GPT-5.4 in der Standard-Variante mit 73,3 Prozent und Opus 4.6 mit 68,8 Prozent.

Auf Humanity's Last Exam – einem multidisziplinären Reasoning-Test aus Wissenschaft, Recht und Philosophie – kommt GPT-5.4 laut OpenAI auf 52,1 Prozent, die Pro-Variante auf 58,7 Prozent. Gemini 3.1 Pro liegt je nach Variante bei 51,4 respektive 44,4 Prozent, Opus 4.6 nur bei etwa 35 Prozent.

Beim Coding-Benchmark Terminal-Bench 2.0 hatte Opus 4.6 zum Zeitpunkt seiner Veröffentlichung mit 65,4 Prozent alle anderen Frontier-Modelle angeführt. GPT-5.3-Codex hatte die Spitzenposition mit 77,3 Prozent übernommen und liegt damit knapp über GPT-5.4, das 75,1 Prozent erreicht.

Beide Modelle bieten jetzt ein 1-Millionen-Token-Kontextfenster – aber mit unterschiedlichen Ansätzen. OpenAI betont ausdrücklich, dass dies für Codex eine experimentelle Funktion ist, die nicht standardmäßig aktiviert ist. Auch bei Opus 4.6 gilt laut unabhängigen Analysen: Größerer Kontext bedeutet nicht automatisch bessere Ergebnisse – die Prefill-Latenz kann bei 1M Token über zwei Minuten betragen, bevor das erste Output-Token erscheint.

In der Hacker-News-Diskussion bestätigen Nutzer das aus eigener Erfahrung: Mehrere berichten, dass Codex bei vollem Kontext-Fenster den Faden verliere. Als vielversprechendsten Anwendungsfall nennen sie das Reverse Engineering von Code, bei dem große Mengen dekompilierten Codes gleichzeitig analysiert werden müssen. Wichtig für Entwickler: Prompts mit mehr als 272.000 Input-Token werden zum doppelten Input-Preis und 1,5-fachen Output-Preis für die gesamte Session abgerechnet.

Neu eingeführt mit GPT-5.4 wird „Tool Search“. Statt alle Tool-Definitionen von Anfang an in den Prompt zu laden, ruft GPT-5.4 sie bei Bedarf dynamisch ab. In Tests mit 36 MCP-Servern und 250 Aufgaben reduzierte das den Token-Verbrauch um 47 Prozent bei gleicher Genauigkeit. Das ist ein erheblicher Kostenvorteil für tool-intensive Anwendungen.

GPT-5.4 Thinking zeigt in ChatGPT künftig einen Vorab-Plan seiner Denkschritte an. Nutzer können während der Antwortgenerierung eingreifen und die Richtung korrigieren, ohne von vorne anfangen zu müssen. Das Modell soll zudem bei langen Aufgaben besser den Kontext früherer Gesprächsschritte im Blick behalten.

GPT-5.4 Thinking steht ab sofort für Plus-, Team- und Pro-Nutzer in ChatGPT bereit und löst GPT-5.2 Thinking ab. GPT-5.2 Thinking bleibt noch drei Monate als Legacy-Option verfügbar und wird am 5. Juni 2026 abgeschaltet. In der API ist das Modell unter gpt-5.4 verfügbar, die Pro-Variante als gpt-5.4-pro.

Beim Preis hat OpenAI gegenüber Anthropic einen Vorteil: Opus 4.6 kostet 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token, GPT-5.4 liegt mit 2,50 US-Dollar und 15 US-Dollar deutlich darunter. Hinzu kommt, dass Anthropic den Kontext-Aufpreis bereits ab 200.000 Token erhebt, OpenAI erst ab 272.000 Token. OpenAI argumentiert zudem, die höhere Token-Effizienz von GPT-5.4 reduziere den tatsächlichen Verbrauch zusätzlich.

OpenAI und Anthropic überbieten sich derzeit in einem Tempo, das selbst Branchenbeobachter kaum noch mitverfolgen können. Während Anthropic-Chef Dario Amodei mit dem Pentagon über KI-Einsatz in autonomen Waffensystemen streitet – und OpenAI in die dadurch entstandene Vertragslücke springt –, liefern sich beide Unternehmen parallel ein Benchmark-Gefecht, bei dem die Zahlen schneller steigen als das Verständnis dafür, was sie bedeuten.

(vza)