KI-Modelle lernen auswendig und schlussfolgern nicht

Auch wenn die Anbieter behaupten, KI-Modelle seien gut im Reasoning – eine Studie legt nahe, dass sie nur rezipieren.

(Bild: Tatiana Shepeleva/Shutterstock.com)

15.07.2024, 11:29 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Große Sprachmodelle geben laut einer Studie oft eher auswendig gelernte Lösungen wieder, als dass sie tatsächlich schlussfolgern – das zeigt eine Studie des Massachusetts Institute of Technology (MIT) und der Universität Boston. Dabei behaupten Anbieter von Sprachmodellen oft und gerne, ihre Modelle seien besonders gut im sogenannten Reasoning. Damit ist die Fähigkeit gemeint, logisch zu denken, was in den Augen vieler ein wesentlicher Knackpunkt bei der Entwicklung einer Artificial General Intelligence (AGI) ist.

Untersucht wurden die Fähigkeiten der Sprachmodelle mittels Aufgaben zum kontrafaktischen Denken. Das sind Aufgaben, bei denen es um nicht eingetretene Ereignisse geht, also darum, Annahmen zu treffen, was passiert wäre oder passieren würde, wenn bestimmte Ereignisse stattgefunden hätten oder nicht eingetreten wären. Insgesamt wurden elf Aufgaben erdacht, bei denen die Regeln oder Bedingungen jeweils leicht von bestimmten Standardaufgaben abgewichen sind. Beispielsweise sollten die Modelle Additionen in anderen Zahlensystemen durchführen, als dem Dezimalsystem. Sie sollten einen Becher mit Bubble Tea auf dem Kopf darstellen, einen Schachzug bewerten und mehr.

(Bild: [Link auf https://arxiv.org/pdf/2307.02477])

GPT-4 versagt bei kinderleichten Aufgaben

Während etwa GPT-4 laut Studie, die bei arxiv veröffentlicht wurde, die Standardaufgaben nahezu alle lösen kann, sieht es bei den abgewandelten Aufgaben deutlich schlechter aus. Wobei die Forscher darauf hinweisen, dass die Häufigkeit der richtigen Antworten darauf schließen lässt, dass die Modelle eine gewisse Fähigkeit zur Verallgemeinerung besitzt, also in einem bestimmten Rahmen logisch denken kann. Jedoch sind die Ergebnisse lange nicht so gut, wie Anbieter und gängige Benchmarks erwarten lassen. Das Ergebnis deutet darauf hin, dass die Sprachmodelle also viel auswendig lernen und so wiedergeben, wie gelernt, aber dass sie auch einen kleinen Teil erschließen.

In der Studie ist auch eine Grafik enthalten, die Zeichnungen und dazugehörige Aufgaben von GPT-4 zeigt. Das Modell sollte ein Haus, einen Pinguin, einen Kuchen und ein Einhorn zeichnen. Alle vier Objekte wurden zunächst grundsätzlich richtig dargestellt. Aufgabe war dann, die Objekte zu spiegeln, um 90 Grad zu drehen und auf den Kopf zu stellen. Das klappte nahezu gar nicht.

Abschließend fragen auch die Autoren der Studie, ob Menschen vielleicht ähnlich schlecht auf die abweichenden Fragen antworten könnten. Sie kommen zu dem Ergebnis, dass Menschen zwar auch länger zur Beantwortung der Fragen brauchen könnten, aber dann besser antworten würden, als die KI-Modelle.

Es ist nicht die erste Untersuchung, die zeigt, dass Große Sprachmodelle (Large Language Models, LLMs) nicht besonders gut bei Aufgaben aus dem Bereich Reasoning abschneiden – entgegen den Angaben der Anbieter. Beispielsweise zeigte eine andere Studie, dass LLMs Aufgaben nicht lösen konnten, die für Grundschüler keine große Herausforderung darstellen.

(emw)