OpenAI und Google erreichen Gold bei Mathe-Olympiade
International Math Olympiad ist ein besonders schwerer Mathetest. OpenAI und Google DeepMind erklären, das Abschneiden ihrer KI-Modelle sei ein Durchbruch.
Auch die KI-Modelle testen verschiedene Lösungswege.
(Bild: worker/Shutterstock.com)
Fünf richtige Antworten auf sechs Fragen klingt zunächst nicht sonderlich überraschend. Laut Google und OpenAI handelt es sich dabei jedoch um Durchbrüche ihrer KI-Modelle. Denn die richtigen Antworten konnten in einem besonders schweren Mathetest gegeben werden – ohne, dass zuvor die Aufgaben für die Modelle aufbereitet wurden.
Die International Math Olympiad (IMO) ist ein weltweiter, jährlicher Wettbewerb für Schülerinnen und Schüler. Dahinter steckt eine gemeinnützige Organisation. Wer sich besonders verdient macht, bekommt eine Goldmedaille.
Vergangenes Jahr hatte Google mit seinen Mathe-KI-Modellen AlphaProof und AlphaGeometry 2 noch Silber erreicht. Allerdings mussten die Aufgaben dafür von einem Menschen in ein maschinenlesbares Problem übersetzt werden. In diesem Jahr traten sowohl Googles KI-Abteilung DeepMind als auch OpenAI an, ohne dass es diesen Zusatz gebraucht hätte. Das heißt, die Aufgaben und Antworten lagen in natürlicher Sprache vor. Beide Unternehmen gaben an, fünf richtige Antworten bekommen zu haben – von sechs Aufgaben. Das ist mehr als die meisten Schüler schaffen.
Videos by heise
Bei Google war laut Blogbeitrag konkret eine spezialisierte Version von Gemini mit Deep Think angetreten. Die Bedingungen waren jene, die auch für Menschen gelten. Sechs Aufgaben an zwei Tagen, jeweils 4,5 Stunden Zeit, 42 mögliche Punkte. Advanced Gemini with Deep Think erreichte 35 Punkte. Dabei habe das Modell nicht einfach eine lineare Chain of Thought bemüht, sondern multiple Lösungswege nebeneinander bedacht. Zudem soll Gemini Zugriff auf kuratierte Matheprobleme und Lösungen bekommen haben.
OpenAI hatte bei X verkündet, ebenfalls Gold und 35 Punkte erreicht zu haben. Auch hier waren es dieselben Bedingungen wie für Menschen. Alexander Wei veröffentlichte zudem eine Reihe Ergebnisse. Dem CEO von DeepMind, Demis Hassabis, gefiel das nicht sonderlich gut. Er kritisierte daraufhin bei X, dass OpenAI nicht abgewartet hat, bis die Schülerinnen und Schüler ihre Ergebnisse bekommen haben und die Ergebnisse von unabhängigen Experten geprüft sind.
Wei zeigt bei X eine Erdbeere auf dem Siegertreppchen. Schon im vergangenen Jahr hieß es, OpenAI arbeite an einem Produkt namens Strawberry, das besonders gut in Mathe sein soll. Das wiederum sei besonders wichtig bei der Entwicklung einer AGI.
Die Teilnahme verteilt sich auf zwei Tage mit jeweils 4,5 Stunden Zeit. Wir hatten zuerst geschrieben, es seien insgesamt 4,5 Stunden. Danke für den Hinweis an einen aufmerksamen Leser.
(emw)