KI: Warum wir groĂźe Sprachmodelle nicht wie Menschen behandeln sollten

Angesichts der Befürchtungen, die mit KI einhergehen, wird es Zeit, sich zu verständigen, was sie wirklich leisten kann. Das beginnt schon bei Testverfahren.

In Pocket speichern vorlesen Druckansicht 50 Kommentare lesen

(Bild: Skorzewiak/Shutterstock.com)

Lesezeit: 21 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Als Taylor Webb Anfang 2022 mit GPT-3 herumspielte, war er überwältigt von dem, was das große Sprachmodell (Large Language Model, LLM) von OpenAI zu leisten schien. Denn es handelte sich ja schließlich nur um ein neuronales Netzwerk, das darauf trainiert war, das nächste Wort in einem Textblock vorherzusagen – eine Autovervollständigung auf Speed, sozusagen. Und doch gab das LLM auf viele der abstrakten Aufgaben, die Webb ihm stellte, die richtigen Antworten, so wie das auch bei einem IQ-Test der Fall wäre. "Ich war wirklich schockiert von der Fähigkeit, diese Probleme zu lösen", sagt der Wissenschaftler. "Das LLM hat praktisch alles, was ich für mich vorhergesagt hatte, auf den Kopf gestellt."

Webb ist Psychologe an der University of California in Los Angeles und erforscht, wie Menschen und Computer abstrakte Probleme lösen. Er war daran gewöhnt, neuronale Netze herzustellen, die mit speziellen Fähigkeiten ausgestattet waren. Aber GPT-3 schien diese Eigenschaften quasi umsonst gelernt zu haben. Im Juli veröffentlichten Webb und seine Kollegen dann schließlich einen Artikel im Journal Nature, in dem sie die Fähigkeit von GPT-3 beschrieben, eine Reihe von Tests zu bestehen, die eigentlich für Menschen gedacht waren. Sie sollen bewerten, ob der Proband in der Lage ist, Analogien zur Lösung von Problemen zu verwenden. Bei einigen dieser Tests schnitt GPT-3 besser ab als eine Gruppe von Studenten. "Analogien sind ein zentrales Element des menschlichen Denkens", sagt Webb. "Wir gehen davon aus, dass sie eine der wichtigsten Eigenschaften ist, die jede Art von maschineller Intelligenz aufweisen müsste."

Webbs Forschungsergebnisse sind nur die jüngsten in einer langen Reihe bemerkenswerter neuer Methoden, die von großen Sprachmodellen angewandt werden können. Als OpenAI beispielsweise im März den Nachfolger von GPT-3, GPT-4, vorstellte, veröffentlichte das Unternehmen eine beeindruckende Liste von beruflichen und akademischen Prüfungen, die sein neues großes Sprachmodell angeblich mit Bravour bestanden hat – darunter einige Dutzend Highschool-Tests und Anwaltsprüfungen in den USA. Etwas später arbeitete OpenAI dann mit Microsoft zusammen, um zu zeigen, dass GPT-4 Teile der "United States Medical Licensing Examination" bestehen kann, einen zentralen Test für die Zulassung von Medizinern. Einige Forscher glauben zudem, dass große Sprachmodelle längst auch Tests bestehen können, die darauf abzielen, bestimmte kognitive Fähigkeiten beim Menschen zu ermitteln – vom schrittweisen Durcharbeiten eines Problems bis zur sogenannten Theory of Mind, dem Erraten, was andere Menschen denken.

Diese Art von Ergebnissen nährte Schlagzeilen, in denen vorhergesagt wurde, dass KIs bald Lehrer, Ärzte, Journalisten und Anwälte ersetzen könnten. Der berühmte KI-Forscher Geoffrey Hinton nannte die Fähigkeit von GPT-4, scheinbar vernünftige Gedanken aneinanderzureihen, als einen der Gründe, warum er jetzt Angst vor der Technologie hat, deren Vater er ist. Aber bei all dem Wirbel gibt ein Problem: Es besteht wenig Einigkeit darüber, was diese Ergebnisse wirklich praktisch bedeuten. Einige Beobachter lassen sich blenden von dem, was sie als Schimmer menschenähnlicher Intelligenz sehen, andere sind überhaupt nicht überzeugt von dem, was ChatGPT und Co. leisten. "Es gibt mehrere kritische Punkte bei den derzeitigen Bewertungstechniken für große Sprachmodelle", sagt Natalie Shapira, Informatikerin an der Bar-Ilan-Universität im israelischen Ramat Gan. "Sie erwecken die Illusion, dass sie über größere Fähigkeiten verfügen, als wirklich vorhanden sind."

Aus diesem Grund möchte eine wachsende Zahl von Forschern – Informatiker, Kognitionswissenschaftler, Neurowissenschaftler und Linguisten – die Art und Weise überarbeiten, wie LLMs bewertet werden. Sie fordern eine strengere und umfassendere Bewertung der Systeme. Einige gehen davon aus, dass die Praxis, Maschinen in menschlichen Tests zu bewerten, schlichtweg falsch ist und abgeschafft gehört. "Seit den Anfängen der künstlichen Intelligenz werden Maschinen mit Intelligenztests für den Menschen, etwa für den IQ, bewertet", sagt Melanie Mitchell, Forscherin für künstliche Intelligenz am Santa Fe Institute in New Mexico, die als Kritikerin des KI-Hypes gilt. "Die Frage ist immer, was es bedeutet, wenn man eine Maschine auf diese Art testet. Es bedeutet eben nicht das Gleiche wie bei einem Menschen."

"Es kommt zu einer Menge Anthropomorphisierung", kritisiert die Forscherin. "Und das färbt auf die Art und Weise ab, wie wir über diese Systeme denken und wie wir sie testen." Da Hoffnungen wie Befürchtungen in Bezug auf die KI-Technologie so groß sind, ist es von entscheidender Bedeutung, dass die Menschheit einen soliden Überblick darüber bekommt, was LLMs wirklich leisten können und was nicht. Die meisten Probleme bei der Überprüfung solcher Systeme lassen sich auf die Frage zurückführen, wie die Ergebnisse interpretiert werden sollten.

Bei Verfahren, die für Menschen konzipiert wurden – etwa Schulprüfungen und IQ-Tests – wird eine Menge als selbstverständlich vorausgesetzt. Wenn Menschen gut bei solchen Tests abschneiden, kann man davon ausgehen, dass sie über das Wissen, das Verständnis beziehungsweise die kognitiven Fähigkeiten verfügen, die mit dem Test gemessen werden sollen. In der Praxis bleibt das allerdings nur eine Annahme: Akademische Prüfungen spiegeln nicht immer die wahren Fähigkeiten der Lehrenden wider. Und IQ-Tests messen zwar eine bestimmte Reihe von Fähigkeiten, aber nicht die allgemeine Intelligenz. Hinzu kommt: Solche Tests begünstigen schlicht Menschen, die in solchen Tests gut sind.

Wenn nun ein großes Sprachmodell bei solchen Tests gut abschneidet, stellt sich die Frage, ob überhaupt klar ist, was gemessen wurde. Ist ein gutes Testergebnis ein Beweis für tatsächliches Verständnis in die Materie? Handelt es sich vielleicht um einen sinnlosen statistischen Trick? Wird nur auswendig Gelerntes (also von der KI im Modell erfasstes) wiedergekäut?