Neuer AGI-Test überfordert KI-Modelle
Die ARC Prize Foundation hat einen neuen Test für KI-Modelle veröffentlicht. Während viele Menschen den lösen können, scheitern die KI-Modelle.
(Bild: Anggalih Prasetya/Shutterstock.com)
Menschliche Intelligenz schlägt Künstliche Intelligenz (KI): Die ARC Prize Foundation hat einen Test entwickelt, um die Leistungsfähigkeit von aktuellen KI-Modellen zu testen. Währende Menschen den Test zumeist bestehen, scheitern die KI-Modelle daran.
In dem Test gilt es, Musteraufgaben zu lösen, wie sie auch in gängigen Intelligenztests auftauchen. So müssen etwa geometrischen Figuren nach bestimmten Kriterien Farben zugeordnet werden. In einer anderen Aufgaben müssen solche Figuren zusammengesetzt werden. Diese Aufgaben zwingen die KI-Modelle, sich an Probleme anzupassen, mit denen sie zuvor noch nicht konfrontiert waren.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Was für Menschen mit etwas Nachdenken gut lösbar ist – aus einer Kontrollgruppe mit mehr als 400 Probanden schafften das rund 60 Prozent -, waren die KI-Modelle damit komplett überfordert: Reasoning-Modelle wie o1 von OpenAI oder R1 von DeepSeek schafften 1 Prozent beziehungsweise 1,3 Prozent. Andere Modelle wie GPT-4.5, Claude 3.7 Sonnet oder Gemini 2.0 Flash schlossen den Test mit einem 1 Prozent ab.
Der Test mit der Bezeichnung ARC-AGI-2 wurde von der ARC Prize Foundation entwickelt und soll ein Benchmark für die Fähigkeiten der allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI) sein. Er ist der Nachfolger von ARC-AGI-1, für dessen Lösung die gemeinnützige Organisation im vergangenen Jahr eine Million US-Dollar auslobte.
Der Datensatz von ARC-AGI-1 ist fünf Jahre alt
Der Datensatz von ARC-AGI-1 stammt aus dem Jahr 2019. Für den Wettbewerb war gefordert, dass 85 Prozent des Tests gelöst werden. Zwar wurde bis Ende 2024 ein Leistungssprung von 33 auf 55,5 Prozent verzeichnet. Das gesetzte Ziel wurde jedoch nicht erreicht.
Der alte Datensatz hatte nach Ansicht der Initiatoren mehrere Schwächen und wurde deshalb durch den neuen ersetzt. Für ARC-AGI-2 wurde zudem Effizienz als neues Kriterium eingeführt. "Intelligenz wird nicht nur bestimmt durch die Fähigkeit, Probleme zu lösen oder High Scores zu erreichen. Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, bestimmende Komponente", schreibt Greg Kamradt, einer der beiden Gründer der ARC Prize Foundation, in einem Blogbeitrag. "Die Kernfrage, die sich stellt, ist nicht nur: 'Kann KI die Fähigkeit erlangen, eine Aufgabe zu lösen?', sondern auch: 'Mit welcher Effizienz oder zu welchen Kosten?'"
Videos by heise
Entsprechend wurden auch die Bedingungen für die neue Auflage des Wettbewerbs angepasst: Das KI-Modell muss nicht nur die Aufgaben zu 85 Prozent lösen, sondern soll dabei auch sehr effizient sein, also wenig Kosten pro Task erzeugen. Angestrebt sind 42 US-Cent.
(wpl)