Warum es bisher keine gute Methode gegen KI-Halluzinationen gibt

Sprachmodelle wie ChatGPT erfinden Fakten. Doch es gibt verschiedene Arten von Halluzinationen. Das erleichtert es nicht gerade, diese zu verhindern.

39

(Bild: PopTika / Shutterstock.com)

21.02.2024, 10:17 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Eike Kühl

Wer ChatGPT etwas fragt, hofft auf faktisch korrekte Antworten. Auf Code, der funktioniert. Auf richtig gelöste Matheaufgaben. Auf akkurat zusammengefasste Bücher. Auf korrekte Daten in Biografien und richtige Mengenangaben bei Rezepten. In der Praxis ist das aber häufig nicht der Fall. Weltweit arbeiten Forschungsgruppen an Methoden, um das zu verhindern. Doch bislang gelingt es ihnen nur, Halluzinationen einzuschränken, aber nicht völlig zu unterbinden, berichtet MIT Technologie Review in seiner aktuellen Ausgabe.

Zwar gibt es zahlreiche Vermutungen darüber, wie und warum große Sprachmodelle halluzinieren. "Die Mechanismen von KI-Halluzinationen sind aber noch nicht vollständig geklärt", sagt Iryna Gurevych, Leiterin des Ubiquitous Knowledge Processing Lab der TU Darmstadt. "Was damit zusammenhängt, dass man die internen Prozesse eines großen Sprachmodells nur schwer nachvollziehen kann."

Videos by heise

Verschiedene Definitionen von KI-Halluzinationen

Dafür ist bereits die Definition des Problems unerwartet komplex: Eine Übersichtsstudie der Hong Kong University of Science and Technology (HKUST) listet unterschiedliche Spielarten von KI-Halluzinationen auf, die jeweils von der Aufgabe und dem Kontext – sprich der aktuellen Anfrage – an ein Sprachmodell abhängen. Davon, ob die Antwort den in der Frage enthaltenen Informationen widerspricht oder ob sie einer Anfrage zusätzliche, nicht ohne Weiteres überprüfbare Informationen hinzufügt (extrinsische Halluzination). Davon, ob sich das Modell auf ein antrainiertes Weltwissen beziehen soll (Faktizität) oder konsistent mit dem vorliegenden Kontext sein soll (Treue). Daraus ergeben sich Halluzinationen, die sowohl faktische Fehler als auch nicht überprüfbare Informationen, unsinnige Aussagen sowie unplausible Szenarien umfassen. Und nur manche dieser Halluzinationsformen lassen sich tatsächlich auch technisch bekämpfen.

Cover der neuen Ausgabe der MIT Technology Review

Die Krisen unserer Zeit vermengen sich: Krieg, Klimaerwärmung, Umweltprobleme und technologische Entwicklungen. Es hat den Anschein eines Labyrinths, bei dem der Ausweg einfach nicht in Sicht kommen will. Die aktuelle Ausgabe versucht wenigstens, etwas Ordnung reinzubringen. Highlights aus dem Heft:

Mit am einfachsten zu erkennen, sind noch die faktischen Halluzinationen. Um die einzugrenzen wird meist eine Technik namens Retrieval-Augmented-Generation (RAG) angewandt. "Hierbei wird das Sprachmodell um eine zweite, externe Wissenskomponente erweitert", sagt Patrick Schramowski, Forscher am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Bevor das Modell eine Antwort erzeugt, extrahiert es die relevanten Informationen der Anfrage und gleicht diese sowohl mit seinem parametrischen, antrainierten Wissen ab als auch mit externen Quellen wie dem offenen Internet oder Fachbibliotheken. Dadurch werden die Antworten, gerade im Hinblick auf aktuelle Ereignisse oder in Dialogen, zuverlässiger. "Im Idealfall benötigt das System allerdings noch einen Faktencheck, um dieses externe Wissen zu verifizieren. Da wird es dann schon kompliziert", sagt Schramowski.

Möglichkeit zum Faktencheck

Denn zum einen funktioniert ein Abgleich mit externen Quellen natürlich nur, wenn diese Quellen auch verlässlich sind. So wird in vielen Arbeiten mit RAG beispielsweise auf Wikipedia zurückgegriffen. Deren Faktentreue wird allerdings in der Wissenschaft sehr unterschiedlich bewertet – von 80 bis über 99 Prozent – je nachdem, welche Artikel die Autoren überprüft haben. Zum anderen "verstehen" Sprachmodelle den Sinn einer Aussage nicht wirklich. Ob die Aussagen sich mit denen einer externen Quelle decken, wird deshalb in der Regel mit einer mathematischen Funktion überprüft, die lediglich die formale Ähnlichkeit beider Aussagen berechnen kann. Ob eine Aussage letztlich als wahr oder falsch eingestuft wird, hängt also von diversen Details ab.

Ungünstig ist auch die Intransparenz vieler Modelle. "ChatGPT ist eine Blackbox. Man kann damit zwar Forschung betreiben, indem man immer wieder verschiedene Anfragen stellt und den Output analysiert. Das eignet sich für kritische Betrachtungen. Aber wenn es darum geht, die Modelle zu verbessern, dann bieten offene Modelle uns Forschenden mehr Möglichkeiten", sagt Schramowski. Bei proprietären, geschlossenen Modellen wie ChatGPT können allein die Hersteller gegen Halluzinationen vorgehen.