Reasoning Fail: Gängige LLMs scheitern an kinderleichter Aufgabe

Um logisches Denken steht es bei den aktuell gängigen KI-Modellen einfach nicht gut, das haben Forscher erneut bewiesen.

In Pocket speichern vorlesen Druckansicht 361 Kommentare lesen
Buchstaben aus Holzklötzen zeigen die Worte F(AI)L.​

Buchstaben aus Holzklötzen zeigen die Worte F(AI)L.

(Bild: Shutterstock/FrankHH)

Lesezeit: 3 Min.

Die Aufgabe ist eigentlich ziemlich leicht: "Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alices Bruder?" Während die meisten Erwachsenen – und laut der Autoren einer Studie auch Kinder – die Aufgabe wohl lösen können, scheitern die gängigen Großen Sprachmodelle, Large Language Models (LLM). Noch schlimmer, wie die Forscher finden, denn die KI-Modelle behaupten auch noch steif und fest, die richtige Antwort herausgefunden zu haben, wenn es die falsche war, und sie argumentieren logisch klingend, aber ebenfalls falsch. Ein bekanntes Problem der Sprachmodelle, das dennoch immer wieder überrascht – vor allem, da die Anbieter oft laut tönen, wie gut ihre Modelle bereits im sogenannten Reasoning seien – damit ist logisches Denken gemeint.

Getestet wurden OpenAIs GPT 3.5, 4 und 4o, Claude 3 Opus von Anthropic, Googles Gemini sowie die offenen Modelle Llama 2 und 3 von Meta und Mistral und Mixtral von Mistral AI, Dbrx von Mosaic und Command R+ von Cohere. Die Antworten wurden statistisch erfasst und zeigen einen "starken Zusammenbruch beim logischen Denken und eine Unfähigkeit, die einfache, oben formulierte Frage zu beantworten". Ausnahmen machten GPT-4 und Claude 3, die zumindest manchmal richtig antworteten, heißt es in dem Paper, das von Forschenden des Juelich Supercomputing Center, dem Research Center Juelich, der School of Electrical und Electronic Engeneering der Universität Bristol und Laion veröffentlicht wurde. Laion ist eine Non-Profit-Organisation aus Deutschland, die Datensets und Modelle bereitstellt.

Nimmt man die weitläufig bekannte Metapher daher, LLMs seien stochastische Papageien, die also nur wiedergeben, was sie aufgeschnappt hätten, verwundert es nicht, dass sie an solchen Aufgaben scheitern. Der Vergleich mit dem Papageien stammt aus einem Paper von führenden KI-Forschern und Kritikern, zu denen unter anderem Emily M. Bender und Timnit Gebru gehören. Die Anbieter der gängigen KI-Modelle machen allerdings immer wieder große Versprechungen, wie gut ihre Modelle in Tests zum logischen Denken abschnitten.

Dagegen halten die Forschenden des Papers "Alice in Wonderland", wie sie das Problem mit dem Beantworten der Fragen zu Alice und ihren Geschwistern bezeichnen, die fehlenden Fähigkeiten für gefährlich: "Dieser Zusammenbruch kann nicht nur deshalb als dramatisch angesehen werden, weil er bei einem so scheinbar Problem passiert, sondern auch, weil die Modelle dazu neigen, ihre falschen Lösungen als richtig zu bezeichnen, während sie oft Konfabulationen liefern, um die gegebene Antwort zusätzlich zu erklären, wobei sie einen argumentationsähnlichen Tonfall imitieren, aber unsinnige Argumente als Unterstützung für die ebenso unsinnigen, falschen, endgültigen Antworten liefern." Deshalb schlagen die Wissenschaftler auch vor, man müsse die bisherigen Benchmarks überdenken, da sie so simple Reasoning-Defizite nicht entdeckten.

In eigener Sache: heise online bei WhatsApp

Keine Tech-News mehr verpassen: heise online auch bei WhatsApp abonnieren!

Wir schicken einmal am Tag die wichtigsten Nachrichten aus der Redaktion.

(emw)