GPT-4.1 ist da: OpenAI bringt neue Sprachmodelle für Coding und KI-Agenten

Mit GPT-4.1 gibt es von OpenAI neue KI-Modelle für die Softwareentwicklung. In Coding-Benchmarks liegt GPT-4.1 hinter der Konkurrenz von Google und Anthropic.

vorlesen Druckansicht
Das Logo von OpenAI an einer Glasfassade

(Bild: Novikov Aleksey/Shutterstock.com)

Lesezeit: 4 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

OpenAI hat mit GPT-4.1 eine neue Familie von Sprachmodellen veröffentlicht: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano. Im Vergleich zu den bisherigen Modellen GPT-4o und GPT-4o mini soll die neue Modellfamilie besseren Programmcode ausgeben und Anweisungen stärker befolgen. Damit richtet sich GPT-4.1 an Softwareentwickler. Ebenso verfügt die neue Modellreihe über einen Wissensstand von Juni 2024 und Kontextfenster mit bis zu einer Million Token, die beim Verständnis umfangreicher Anfragen von bis zu 750.000 Wörtern helfen sollen. OpenAI stellt GPT-4.1 nur über die Schnittstelle zur Verfügung, eine Bereitstellung in ChatGPT ist nicht geplant.

Für die überarbeiteten Coding-Fähigkeiten verweist OpenAI auf den Benchmark SWE-bench Verified. Er testet Sprachmodelle mit 500 Programmieraufgaben, die Menschen als lösbar einstuften. Eigenen Angaben zufolge löste das große Modell GPT-4.1 rund 55 Prozent der Probleme. Damit liegt es hinter vergleichbaren Modellen der Konkurrenz von Google und Anthropic. So erreichten Gemini 2.5 Pro und Claude 3.7 Sonnet jeweils Werte von etwa 63 Prozent. Deepseek V3 erzielte hingegen nur 39 Prozent. Im Vergleich zu anderen OpenAI-Modellen liegt GPT-4.1 jedoch vorn. GPT-4o mit dem Stand vom November 2024 erzielte einen Wert von 33 Prozent, GPT-4.5 schaffte 38 Prozent und OpenAI o3-mini lag bei 49 Prozent der Aufgaben.

Videos by heise

Weiterhin wirbt OpenAI damit, dass sich die neue Modellfamilie für das Frontend-Coding eigne und Programmcode weniger Nachbearbeitung bedarf. Zudem soll sich GPT-4.1 in der Entwicklung von Schnittstellen einsetzen lassen und sich dort für die Überarbeitung einzelner Codeblöcke eignen, ohne die gesamte Datei zu ersetzen. Für diese Aufgabe erzielte GPT-4.1 im Benchmark Aider’s Polyglot rund 53 Prozent der 225 Probleme über verschiedene Programmiersprachen hinweg und lag damit hinter OpenAI o1 und o3-mini, die jeweils etwa 60 Prozent schafften. Das kleinere Modell GPT-4.1 mini löste 32 Prozent der Aufgaben und lag somit vor GPT-4o mit 18 Prozent; das kleinste Modell GPT-4.1 mini erzielte sechs Prozent.

Um herauszufinden, wie genau Sprachmodelle die eingegebenen Anweisungen befolgen, entwickelte OpenAI eine eigene interne Evaluation. Demnach liegt GPT-4.1 auf einem ähnlichen Niveau wie GPT-4.1 mini, GPT-4.5, o1 und o3-mini. Zwar schnitt GPT-4.1 nano deutlich schlechter ab, lieferte aber vergleichbare Werte zu GPT-4o und GPT-4o mini. Im Multi-Challenge-Benchmark schlug GPT-4.1 das kleinere Mini-Modell knapp, liegt jedoch hinter den Reasoning-Modellen und GPT-4.5. Damit ließen sich mit der neuen Modellfamilie KI-Agenten bauen, die bei realen Aufgaben in der Softwareentwicklung hilfreich seien, schreibt das Softwareunternehmen in seiner Ankündigung. Gleichzeitig will OpenAI die Preview von GPT-4.5 auslaufen lassen.

Insgesamt wirbt OpenAI damit, dass das große Modell GPT-4.1 in den Benchmarks schlägt, während die kleineren Modelle auf Kosten der Genauigkeit schneller und effizienter seien. Die Preise von GPT-4.1 liegen bei zwei US-Dollar für eine Million Input-Token und acht US-Dollar pro Million Output-Token. Für GPT-4.1 mini zahlen Kunden 0,40 US-Dollar pro Million Input-Token und 1,60 US-Dollar für dieselbe Menge an Output-Token. Beim kleinsten Modell GPT-4.1 nano berechnet OpenAI für eine Million Input-Token 0,10 US-Dollar und 0,40 US-Dollar für die Output-Token. Außerdem kündigte das Softwareunternehmen zuletzt an, dass sich Unternehmenskunden für den API-Zugriff auf Sprachmodelle mit einem Ausweisdokument verifizieren müssen.

(sfe)