OpenAIs neues Modell o3 soll Menschen in Reasoning-Benchmarks ĂĽbertreffen

Das neue Modell o3 soll Menschen in Benchmarks für Mathematik und Programmierung übertreffen, o3-mini Effizienz und starkes Preis-Leistungs-Verhältnis bieten.

In Pocket speichern vorlesen Druckansicht 169 Kommentare lesen
Denkende Statue, die in Pixel zerfällt
Lesezeit: 4 Min.
Inhaltsverzeichnis

OpenAI-CEO Sam Altman präsentierte in einem Video eine Vorschau auf die beiden neuen Modelle o3 und o3-mini. Sie sind die Nachfolger des Reasoning-Modells o1, das OpenAI vor knapp zwei Wochen veröffentlicht hatte. Ein Modell o2 werde es nicht geben, so Altman. Dies geschehe "aus Respekt vor unseren Freunden bei Telefónica". Auch den Namen o3 begründete Altman mit der "großen Tradition von OpenAI, wirklich, wirklich schlecht bei der Namensgebung zu sein".

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Laut OpenAI setzt das o3-Modell neue Maßstäbe bei anspruchsvollen technischen Benchmarks in den Bereichen Programmieren und Mathematik. So erreicht es einen Wert von 71,7 Prozent im "Software-Stil"-Benchmark "SWE-Bench Verified", was eine Verbesserung um über 20 Prozent gegenüber o1 darstellt. Im Wettbewerbsprogrammier-Benchmark "Codeforces" erreiche o3 eine Elo-Wertung von 2727 – eine Leistung, mit der es die meisten menschlichen Wettkampfprogrammierer übertreffe. Ähnliches gelte für mathematische Benchmarks: Im Mathematik-Doktoranden-Benchmark "GPQ Diamond" erzielt o3 demnach eine Genauigkeit von 87,7 Prozent und übertrifft damit typische Experten mit Mathematik-Promotion.

Um das Reasoning-Potenzial von o3 weiter zu demonstrieren, präsentierte OpenAI Ergebnisse aus dem anspruchsvollen "Frontier Math Benchmark" (PDF) von Epoch AI. Hier erreichte o3 demnach eine Genauigkeit von über 25 Prozent, während bisherige Modelle unter 2 Prozent lagen.

Einen besonderen Erfolg feierte o3 im Reasoning-Benchmark "Arc AGI". o3 habe in einer "high-compute"-Konfiguration nun eine Genauigkeit von 87,5 Prozent in dem Benchmark erreicht und habe damit erstmals die menschliche Leistung von rund 85 Prozent. Dies sei ein wichtiger Schritt in Richtung Künstliche Allgemeine Intelligenz (Artificial General Intelligence, AGI), denn das Bestehen des ARC-AGI bedeute nicht, dass AGI erreicht wurde. Tatsächlich scheitere o3 immer noch an einigen sehr einfachen Aufgaben, was auf grundlegende Unterschiede zur menschlichen Intelligenz hinweise, heißt es in einem Beitrag des Arc Prize. OpenAI und Arc Prize beabsichtigen künftig ihre Zusammenarbeit auszubauen.

Ferner stellte OpenAI das Modell o3-mini vor. Es definiere eine "neue Grenze der kosteneffizienten Reasoning-Performance". Bei ähnlicher Leistung wie o1 sei es um eine Größenordnung schneller und günstiger.

Nutzer sollen bei o3-mini zwischen drei Modi mit unterschiedlichem "Reasoning-Aufwand" wählen können. In einer Demo zeigten die OpenAI-Forscher, wie sich o3-mini in Echtzeit selbst evaluieren kann – indem es eine Evaluationsroutine für sich selbst schreibt und ausführt. "Nächstes Mal sollten wir das Modell fragen, sich selbst zu verbessern", scherzte einer der Präsentatoren. CEO Altman meinte jedoch: "Vielleicht lieber nicht."

Altman kündigte an, dass o3 und o3-mini in Kürze für ausgewählte Sicherheitsforscher zum Testen freigegeben werden. Man wolle die Modelle auf mögliche Schwachstellen und Missbrauchspotenziale untersuchen lassen, bevor sie der breiten Öffentlichkeit zur Verfügung gestellt werden.

Ein neues "Deliberative Alignment"-Verfahren soll dabei helfen, die Modelle enger an Sicherheitsrichtlinien auszurichten. Durch Reasoning sollen sie unerwünschte Anfragen besser erkennen und ablehnen können.

Laut Altman soll o3-mini Ende Januar und o3 kurz darauf für die Allgemeinheit freigegeben werden. Interessierte Forscher können sich bis 10. Januar für den Vorab-Zugang bewerben.

Derweil hat Google ein eigenes Reasoning-fähiges Sprachmodell angekündigt: Laut einem Blogbeitrag wird das "Gemini 2.0 Flash" getaufte System über einen "Denkmodus" verfügen, der Antworten vor der Ausgabe überprüft und verbessert. Nutzer sollen optional Einblick in die "Gedanken" des Systems erhalten.

Allerdings wird auch Googles Reasoning-Modell zunächst nur in einer experimentellen, eingeschränkten Version verfügbar sein. An der Entwicklung war maßgeblich der Forscher Noam Shazeer beteiligt, der durch seine Mitarbeit am einflussreichen "Transformer"-Paper bekannt wurde. Shazeer hatte Google zwischenzeitlich verlassen, kehrte aber nach einem Deal zwischen Google und seinem Start-up Character AI zurück.

Update

Fehler korrigiert: Der ausgelassene Name o2 bezog sich natürlich auf Telefónicas Marke O2. Die Zuordnung der Sprecher bei dem Scherz wurde korrigiert, dass sich das Sprachmodell selbst optimieren könne.

(vza)