OpenAI o3: Revolutionäres KI-Modell mit hohem Rechenaufwand und Preisschild

Das Modell o3 von OpenAI hat in ersten Tests spektakuläre Ergebnisse gezeigt. Das könnte teuer werden – von bis zu 1.000 US-Dollar pro Anfrage ist die Rede.

vorlesen Druckansicht 19 Kommentare lesen
OpenAI-Schriftzug auf einem Smartphone, das auf einer Tastatur eines Notebooks liegt.

(Bild: Shutterstock.com /JarTee, Bearbeitung: heise online)

Lesezeit: 4 Min.
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Seit OpenAI Ende Dezember seine neuesten KI-Modelle o3 Mini und o3 vorgestellt hat, kocht die Gerüchteküche. Denn die Modelle haben einen der derzeit schwierigsten Tests für Künstliche Intelligenz aus dem Abstract Reasoning Corpus (ARC) – den sogenannten ARC-Test – zu 85 Prozent gelöst. Das ist ein echter Durchbruch, denn die besten Programme schafften bisher nur rund 35 Prozent.

ARC ist für große Sprachmodelle besonders schwierig, denn die Aufgabe besteht darin, anhand von zwei Beispielen zu erkennen, nach welchen Regeln abstrakte grafische Muster sich verändern – und diese Regeln dann auf ein drittes Muster richtig anzuwenden. Allerdings hat o3 bisher nur einen Teil der ARC-Puzzels bearbeitet.

Und dabei hat die KI ziemlich viel Rechenzeit verbraten – und dementsprechende hohe Kosten verursacht – "tausende von US-Dollar" pro Aufgaben, wie die Initiatoren des Preises schreiben. Noch hat OpenAI weder Preise für o3 veröffentlicht, noch ein Datum für die allgemeine Markteinführung. Doch im Internet wird heftig darüber spekuliert, ob ein Abo des neuen Modells dann wohl nicht nur 200 Dollar pro Monat kosten würde – wie aktuell bei o1 – sondern eher 2.000 Dollar oder mehr. Wäre o3 diesen Preis wirklich wert?

Wie das KI-Modell o3 tatsächlich funktioniert, darüber kann man nur spekulieren. Denn bisher hat OpenAI nichts über die Arbeitsweise seines Modells veröffentlicht.

Videos by heise

Klar ist nur, dass es sich nicht einfach um ein noch größeres Modell handelt. Lange hatten die Vertreterinnen und Vertreter der sogenannten "Skalierungshypothese" – allen voran OpenAI – darauf gesetzt, dass größere KI-Modelle, die mit noch mehr Daten als bisher trainiert werden, auch immer leistungsfähiger werden. Nun scheint die Skalierung aber an Grenzen zu kommen. US-Medien berichten unter Berufung auf anonyme Quellen bei OpenAI, dass der Leistungssprung bei der nächsten Modellgeneration – also GPT5 und folgende – kleiner ausfallen wird. Ähnliches scheint auch für Google zu gelten. Als ein Grund dafür wird der Mangel an ausreichenden, guten Trainingsdaten genannt.

Die KI-Branche regierte darauf mit einer Strategie, die unter dem Schlagwort "test-time compute" bekannt geworden ist. Diese Strategie greift eine zentrale Schwäche großer Sprachmodelle auf: Sie berechnen immer das nächste, zum Input passende Token, dann hängen sie den Output vorne an den Prompt und wiederholen die Prozedur. Das funktioniert zwar für Texte, aber nicht für komplexe Probleme, bei denen die KI schrittweise mögliche Lösungswege ausprobiert und wenn sie in eine Sackgasse gerät, wieder neu ansetzen müsste.

Modelle wie o3 oder Gemini 2 berechnen zunächst Teillösungen, deren Qualität sie dann intern überprüfen, bevor sie mit dem nächsten Schritt weitermachen. Gibt man so einem Modell also etwa eine Programmieraufgabe, könnte es diese Aufgabe zunächst in Unterprobleme zerlegen. Dann erstellt es den Code für das erste Unterproblem und prüft, ob der überhaupt lauffähig ist. Erst dann geht es weiter. Um die bestmögliche Lösung zu finden, verfolgen die Modelle dabei zig verschiedene Lösungswege und wählen dann den besten aus. Das funktioniert natürlich nicht nur für Programmieraufgaben.

Das würde erklären, warum diese speziellen Modelle nicht nur im Training, sondern auch im Betrieb so teuer sind: Eine Anfrage wird intern in tausende leicht verschiedene Teilanfragen umgewandelt, die die Nutzerinnen und Nutzer aber nie zu Gesicht bekommen. Laut OpenAI kann o3 den Rechenaufwand zudem automatisch an die Komplexität der gestellten Aufgabe anpassen.

Im Kern arbeitet allerdings immer noch ausschließlich ein großes Sprachmodell an der Lösung des gestellten Problems. Das bedeutet, dass es auch bei o3 keine Garantie dafür gibt, dass die Lösung tatsächlich richtig ist. Es gibt keine echte, logische oder mathematische Überprüfung der Lösung. Das Modell läuft immer noch Gefahr, zu halluzinieren.

Dieser Beitrag ist zuerst bei t3n.de erschienen.

(mack)