Apple-Paper: Warum Reasoning-Modelle wohl nicht denken
Sie brauchen viel Leistung, liefern aber nicht immer bessere Ergebnisse: Large Reasoning Models sollen die KI revolutionieren. Eine Apple-Studie kritisiert das.
Kopfmodell mit Phrenologie-Aufdruck: Pseudowissenschaft beim Denkverständnis gab es auch beim Menschen. Gilt das auch für Reasoning-Modelle?
(Bild: life_in_a_pixel / Shutterstock)
Apples Forschungsgruppe für Machine Learning kommt in einer Forschungsarbeit zu sogenannten Large Reasoning Models (LRMs) zu dem Schluss, dass es sich beim "Denken" von LRMs zumindest teilweise um eine Illusion handeln könnte. Ein Problem sei auch, dass Reasoning-Modelle deutlich mehr Energie und Leistung abfordern, was sich schon an den längeren Antwortzeiten zeigt.
LRMs sind KI-Modelle, die regulären Sprachmodellen die Fähigkeit logischen Denkens verleihen sollen. Dabei versuchen die Systeme, Aufgaben in verschiedene Gedankenschritte zu zerlegen, die dem Nutzer gegenüber auch ausgegeben werden. Allerdings ist bislang unklar, ob das System intern wirklich "denkt" oder es sich beim Reasoning nicht nur um zusätzlich generierte Inhalte handelt, die nur wenig Einfluss auf das Endergebnis haben.
Zwei LRMs gegen ihre LLM-Varianten
Apples KI-Forscher schauten sich für ihr Paper zwei LRMs an: Claude 3.7 Sonnet Thinking sowie DeepSeek-R1. Die verwendeten Aufgaben waren vor allem Puzzles, darunter das River-Crossing-Problem und der Tower of Hanoi – mit unterschiedlichem Komplexitätsgrad. Es zeigte sich, dass die beiden LRMs im Vergleich zu ihrer Variante ohne Reasoning bei einfachen Aufgaben genauer und effizienter arbeiteten – bei geringerem Leistungsverbrauch. Mittelschwere Aufgaben schienen den Reasoning-Modellen zu liegen. Mit weiter ansteigendem Komplexitätsgrad war es dann schließlich egal, wie viel Leistung den LRMs zur Verfügung stand: Die Genauigkeit fiel massiv ab.
Videos by heise
"Wir haben festgestellt, dass LRMs bei der exakten Berechnung Einschränkungen aufweisen: Sie verwenden keine expliziten Algorithmen und argumentieren über Rätsel hinweg inkonsistent", so die Apple-Forscher. Allerdings werden LRMs keineswegs nur für Puzzle verwendet – in anderen Themenbereichen können sie zumindest hilfreich sein.
Leistungsabfall bleibt unerklärt
In der KI-Szene wurde die Apple-Untersuchung unterschiedlich aufgenommen. Manche Experten halten sie für zu kurz gegriffen, andere lobten die Herangehensweise. Tatsächlich haben die Forscher keine echte Erklärung für den Leistungsabfall der LRMs bei schwierigeren Aufgaben gefunden – was allerdings auch schwierig ist, da man in LRMs genauso wenig unproblematisch "hineinschauen" kann wie in regulären großen Sprachmodellen (Large Language Models, LLMs). Zudem stellt sich die Frage, wie stark sich die Ergebnisse generalisieren lassen: Die gewählten Aufgaben waren sehr speziell.
Das räumen aber auch die Apple-Forscher ein: "Wir sind uns bewusst, dass unsere Arbeit Grenzen hat. Unsere Puzzle-Umgebungen ermöglichen zwar kontrollierte Experimente mit einer detaillierten Steuerung der Problemkomplexität, sie stellen jedoch nur einen kleinen Ausschnitt von Denkaufgaben dar und erfassen möglicherweise nicht die Vielfalt realer oder wissensintensiver Denkaufgaben." Wie illusionär das "Denken" von LRMs also ist, bleibt noch offen.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(bsc)