KI und logisches Denken: Apple-Forscher zweifeln – und warnen
"Reasoning" ist der neue Hype-Begriff bei großen Sprachmodellen. Eine Studie von Forschern des iPhone-Konzerns hat sich das nun näher angesehen.
Ein Team aus Apples KI-Forschungsabteilung hat sich die aktuellen Fähigkeiten für logisches Denken in großen Sprachmodellen (Large Language Models, LLMs) angesehen und kommt zu dem Schluss, dass es hier noch an einigen Stellen hakt – beziehungsweise es sogar schwerfällt, dieses "Reasoning" überhaupt dauerhaft nachzuweisen. Dabei wurden die mathematischen Fähigkeiten von LLMs in den Blick genommen, wie es in der Preprint-Studie heißt.
"Fortschrittliches Pattern-Matching" statt Mathegenie
Die Forscher wollten unter anderem herausfinden, ob LLMs mathematische Konzepte tatsächlich verstehen oder dies nur den Anschein hat. Wie sich zeigte, tun LLMs meistens genau das, was man von ihnen erwartet: Sie verwenden ein (sehr) fortschrittliches Pattern-Matching, um Antworten zu finden. Das gilt auch für aktuelle Systeme wie neuere Versionen von Metas Llama-Modellen oder das o1 von OpenAI, das besonders mit seinen "Denk"-Fähigkeiten beworben wird.
Die Apple-Forscher sehen vor allem dann Probleme, wenn Nutzer ihre Anfragen nicht genau genug formulieren oder Inhalte nutzen, die das Modell ablenken können. Dabei verändern sich dann auch die Ergebnisse teils signifikant. Bei einem einfachen Problem, bei dem es um das Sammeln von Obststücken über mehrere Tage ging, führte die Einführung einer irrelevanten Information über die Größe einiger dieser Obststücke dazu, dass die Antwort um 10 Prozent daneben lag. Offenbar ist das Pattern-Matching hier sehr fragil, so die Apple-Gruppe. Teilweise lagen die Ergebnisse sogar um 65 Prozent daneben.
Neuer Logik-Benchmark für LLMs von Apple
Insgesamt, so die Hypothese der Apple-Forscher, findet in den Modellen kein logisches Denken statt, was sich bei einer "Verwirrung" der Modelle durch zusätzliche Informationen zeigt, was wiederum das Ergebnis verschlechtert. "Wir vermuten, dass dieser Rückgang auf die Tatsache zurückzuführen ist, dass die derzeitigen LLMs nicht zu echtem logischen Denken fähig sind; stattdessen versuchen sie, die Reasoning-Schritte, die in ihren Trainingsdaten beobachtet wurden, nachzuahmen." Das heißt: Auch eine "denkende KI" orientiert sich stets an dem, was sie aus den Trainingsdaten kennt.
Um die Mathematik-Fähigkeiten großer Sprachmodelle künftig besser bewerten zu können, führen die Apple-Forscher in ihrer Studie auch ein neues Benchmarking-System namens GSM-Symbolic ein, das den bisherigen GSM8K-Benchmark (auf Volksschulniveau) ablösen soll, um LLMs genauer zu bewerten. Bis es zu weiteren Verbesserungen kommt, hilft vor allem, Anfragen genauer zu formulieren – und vor allem unnötige Bestandteile wegzulassen, die das Modell auf die falsche Fährte schicken könnte.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(bsc)