Vision Language Modelle versagen bei einfachen Bildtests
Auch die größten Vision-Language-Models von OpenAI, Google und Meta können laut einer Studie ganz simple Aufgaben nicht lösen.

Buchstaben aus Holzklötzen zeigen die Worte F(AI)L.
(Bild: Shutterstock/FrankHH)
Kinder können ähnliche Aufgaben schon im Kindergarten lösen: In welche Richtung geht eine Spirale auf? Welche Elemente sind vertikal und welche horizontal ausgerichtet? Was für Menschen trivial klingt, stellt auch die größten Vision-Language-Models (VLMs) vor große bis unmögliche Herausforderungen. Das zeigt eine Studie der TU Darmstadt, der Universität Eindhoven, dem Deutschen Forschungszentrum für KI und hessian.ai.
OpenAI versichert, GPT-4o sei zwar besser geworden, im "logischen Denken", heißt es in der Studie, doch die "Tiefe dieser Fortschritte in der sprachgeleiteten und abstraktem Denken sind noch nicht ausreichend erforscht." Dabei sei unklar, ob die Modelle ihre ehrgeizigen Versprechen halten könnten. Deshalb, begründen die Forscher, begebe man sich in das "Wunderland der Bongard-Probleme". Mikhail Moiseevich Bongard war ein sowjetischer Computerwissenschaftler. Er entwarf in den 1960er Jahren eine Reihe an Aufgaben, die kleine Rätsel darstellen. Es geht um Mustererkennung. Die VLMs sollten beispielsweise erkennen, welche Objekte konvex und welche konkave sind beziehungsweise zusammengehören.
Das Ergebnis beschreiben die Forscher so: "Und selbst wenn sie aufgefordert werden, sich explizit auf diese Konzepte zu konzentrieren und sie zu analysieren, scheitern sie weiterhin, was nicht nur auf ein mangelndes Verständnis dieser elementaren visuellen Konzepte hinweist, sondern auch auf die Unfähigkeit zur Verallgemeinerung auf ungesehene Konzepte." Daraus ziehen sie auch den Schluss, dass ein erheblicher Unterschied besteht zwischen dem menschlichen Denken und maschineller Kognition.
Visuelle Fähigkeiten als Grundlage für KI-Agenten
Dabei nutzen derzeit alle großen KI-Anbieter ihre VLMs, um etwa KI-Agenten auf den Markt zu bringen. Diese sollen, so erträumt es sich etwa Google, für die Menschen die Internet-Recherche erledigen, einkaufen und sogar Flüge buchen. Auch OpenAI und Microsoft arbeiten an KI-Agenten. Bei Microsoft geht es zunächst um die Erstellung einzelner Agenten mit spezialisierten Aufgaben, keine Generalisten. Anthropic hat für Claude bereits einen generellen KI-Agenten für Entwickler verfügbar gemacht, der die Maus steuern kann, Felder ausfüllen und ziemlich autonom agieren kann. All diese Agenten werten Screenshots aus, um daraufhin zu handeln.
Die Wissenschaftler sehen im visuellen Verständnis eine wichtige Grundlage dafür, wie der Mensch sich in seiner Umwelt zurechtfindet und mit Objekten interagieren kann. KI würde das nun versuchen, nachzustellen. Wegen ihrer Fähigkeit, sehr menschlich klingelnd zu antworten, würden VLMs auch oft wirken, als wären sie intelligent. Tatsächlich zeigten sie "dramatische Mängel" beim Reasoning und in der visuellen Wahrnehmung.
(Bild:Â TU Darmstadt)
Auch der Versuch, den VLMs Multiple-Choice-Lösungen (100 Antworten) vorzugeben, half nur wenig. Erst die weitere Einschränkung dieser Auswahlmöglichkeit auf 10 Antworten führte zu besseren Ergebnissen. Das heißt jedoch nach wie vor nur eine Trefferquote von im besten Fall etwa 60 bis 70 Prozent. Grund für das Scheitern ist laut der Forscher teilweise bereits die fehlende Fähigkeit, ein Bild zu erkennen. Hinzukommt der Mangel an logischem Denken und Schlussfolgern.
Zwar schneiden die getesteten Modelle in anderen Benchmarks deutlich besser ab, für diese sind sie jedoch oftmals auch direkt trainiert worden. Es gibt weitere Studien, die zeigen, dass schon kleinste Abweichungen der Aufgaben dazu führen, dass sich die Ergebnisse deutlich verschlechtern. Die Autoren dieser Studie geben zu bedenken, dass die gängigen Benchmarks vielleicht gar nicht so sinnvoll sind, um die logischen Denkfähigkeiten von KI-Modellen zu testen. Andere zweifeln gar daran, ob sie überhaupt logisch denken können.
(emw)