GPT-3 schlägt Studierende im analogen Denken
Laut einer Studie ist GPT-3 in der Lage, aus Ähnlichkeiten logische Schlüsse zu ziehen. In einem Punkt sind die Menschen der KI aber überlegen – noch.
- Eike KĂĽhl
Um Probleme zu lösen, greifen wir Menschen instinktiv auf Analogien zurück: Ein neues Problem gehen wir an, indem wir uns ähnliche, bereits bekannte Fragestellungen ins Gedächtnis rufen und versuchen, deren Lösung auf die neue Situation übertragen. Dieses "analoge Denken", sprich die Fähigkeit, aus Ähnlichkeiten logische Schlüsse zu ziehen, ist ein wichtiger Bestandteil des menschlichen Denkapparats. Nun wollen Forscherinnen und Forscher herausgefunden haben, dass auch große Sprachmodelle wie GPT über diese Fähigkeit verfügen.
Ein Team von der University of California in Los Angeles (UCLA) wollte herausfinden, ob künstliche Intelligenz in der Lage ist, Aufgaben und Probleme zu lösen, mit denen sie zuvor noch nicht in Berührung gekommen ist. Die Studie ist im Fachmagazin "Nature Human Behaviour" erschienen.
Für die Untersuchung hat das Team um den Hirn- und KI-Forscher Taylor Webb in zwei Testrunden jeweils rund 50 Studierende der UCLA gegen das Sprachmodell GPT-3 antreten lassen (das aktuelle GPT-4 war zu Beginn der Studie noch nicht verfügbar). Dabei ging es darum, drei Aufgabenblöcke zu lösen, die analoges Denken erfordern. Die Aufgaben wurden eigens für die Studie erstellt, sodass sie nicht in den Trainingsdaten der KI auftauchen, orientieren sich aber an standardisierten Tests, wie sie etwa für die Aufnahmeprüfungen an US-Universitäten oder bei Intelligenztests eingesetzt werden.
GPT ĂĽbertrifft Studierende
In einem ersten Aufgabenblock ging es darum, sogenannte progressive Matrizen zu lösen. Die Probanden und die KI mussten ein ihnen vorgelegtes Textmuster verstehen und das fehlende Teil aus einer Reihe möglicher Teile richtig auswählen. Im zweiten Block mussten sie Buchstabenreihen ergänzen, also etwa aus der vorgegebenen Folge a b c d a b c e ableiten, was aus i j k l folgt. Im dritten Block bestand die Aufgabe darin, Wortfolgen zu ergänzen (beispielsweise 'Liebe' ist für 'Hass' was 'reich' zu '?' ist), sowie aus kurzen Geschichten inhaltliche Analogien zu ziehen, sprich die richtigen kausalen Zusammenhänge zwischen mehreren Texten zu verstehen.
Bei den ersten drei Aufgaben schnitt GPT-3 durchweg besser ab als die Studierenden. Am größten war der Unterschied bei den Matrizen, die das Sprachmodell mit 80-prozentiger Trefferquote richtig gelöst hatte, während die menschlichen Teilnehmer nur auf knapp 60 Prozent kamen. Bei den Buchstaben- und Wortfolgen war der Vorsprung der KI insgesamt geringer, aber trotzdem deutlich.
Im inhaltlichen Vergleich trumpften dagegen die Studentinnen und Studenten auf: Wenn es darum ging, kausale Analogien aus Geschichten zu ziehen, lag die Erfolgsquote bei ĂĽber 80 Prozent. GPT-3 kam in diesem Fall nur auf rund 70 Prozent. Je komplexer die Geschichte war, desto mehr Probleme hatte die KI, sie mit anderen in Relation zu setzen. Jedenfalls, wenn sie nicht gezielt darauf hingewiesen wurde.
Schlau bei manchen, doof bei anderen Problemen
Die Forscherinnen und Forscher schreiben, dass die Ergebnisse darauf hindeuten, dass GPT-3 "einen abstrakten Begriff der Nachfolge entwickelt hat". Das sei nicht überraschend, denn die natürliche Sprache des Menschen sei voller Analogien und wenn die großen Sprachmodelle darauf trainiert sind, menschliche Sprache möglichst getreu wiederzugeben, erhalten sie quasi im Vorbeigehen die Fähigkeit, logische Schlüsse zu ziehen.
Gleichzeitig weist das Team auf diverse Einschränkungen hin. So erkannte die Software nicht immer von selbst, was sie mit den präsentierten Problemen eigentlich machen sollte und musste per Prompt dazu aufgefordert werden.
"So beeindruckend unsere Ergebnisse auch sein mögen, es ist wichtig zu betonen, dass dieses System erhebliche Einschränkungen aufweist. Es kann zwar analoge Überlegungen anstellen, scheitert aber bei Aufgaben, die uns Menschen sehr leicht fallen", sagt Studienleiter Taylor Webb. Für den Moment jedenfalls. Denn vorläufige Tests mit GPT-4 deuten bereits darauf hin, dass das neue Sprachmodell noch einmal deutlich bessere Ergebnisse liefert.
(jle)