KI und die Halluzinationen: Warum sind so viele Antworten falsch?

Falsche Informationen, unstimmige Zusammenhänge und sogar ausgedachte Quellen: Das weiterhin ungelöste Problem der KI-Modelle.

vorlesen Druckansicht 285 Kommentare lesen
Die Buchstaben KI umfliegen Haken und Warndreiecke.

(Bild: tadamichi/Shutterstock.com)

Lesezeit: 6 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Dass KI halluziniert und Fehler macht, ist bekannt. Ebenfalls, dass die KI-Anbieter keine Lösung für das Problem haben. Wie viele Antworten schlicht falsch sind, wenn es um Nachrichten geht, zeigt nun eine neue Studie der Europäischen Rundfunkunion (EBU). Demnach enthält jede dritte Antwort der gängigen Chatbots Fehler. Die Gründe hierfür sind unterschiedlich, gemein haben sie, dass es bisher keine Lösung für sie gibt.

Auffällig ist, dass es sich nicht bloß um ausgedachte Informationen handelt, sondern laut Studie auch die Quellen häufig komplett erfunden waren. Das erschwert die nötige Kontrolle der Nutzenden. Immerhin besagt die Studie, dass sich die Ergebnisse im Vergleich zu einer früheren Studie verbessert hätten: konkret von rund der Hälfte falscher Antworten auf etwa 37 Prozent. Untersucht wurden Copilot, ChatGPT, Perplexity und Gemini.

Letztgenanntes schnitt überraschenderweise besonders schlecht ab. Eigentlich beruht Googles Chatbot Gemini sowohl auf der Echtzeitsuche als auch der Wissensdatenbank Knowledge Graph. Zudem hat Google die meiste Erfahrung darin, das Internet auf Informationen abzusuchen. Allerdings ist Gemini auch nicht mit der KI-Übersicht oder dem KI-Modus in der Suche gleichzusetzen. Diese könnten besser abschneiden.

Von allen Antworten enthielten 45 Prozent zumindest einen Fehler. Mit 31 Prozent waren falsche Quellen das häufigste Problem. Die Autoren der Studie schreiben, dass es für Verlage vor allem ein Problem sei, wenn ihnen Inhalte zugeschrieben werden, die ihnen nicht entsprechen – beispielsweise falsche Informationen. An der Studie unter Federführung der BBC waren 22 öffentlich-rechtliche Rundfunkanstalten aus 18 Ländern mit 14 Sprachen beteiligt.

Die Gründe für falsche Informationen liegen in den KI-Modellen selbst. Diese verknüpfen bisweilen etwa Wissen falsch. So hat ein Chatbot bereits aus einem Gerichtsreporter einen Mörder gemacht, weil die KI Namen und Artikel zwar in Einklang brachte – aber in völlig falscher Weise. Antworten beruhen auf Wahrscheinlichkeiten und der gelernten Nähe von Informationen. Weil Reporter und Gerichtsprozess aus ein und derselben Quelle stammen, also nah beieinander genannt werden, lernt die KI den Zusammenhang falsch. Sie versteht die Konzepte Artikel, Berichterstatter und Vorfall nicht. Eins und eins kann bei KI auch mal drei ergeben. Und da ein KI-Modell nicht zählen kann, ist es auch noch immer ein Problem, die richtige Anzahl an Es im Wort Erdbeere wiederzugeben. Klappt es doch, liegt das daran, dass das Modell die Information gefunden hat, nicht jedoch daran, dass es plötzlich zählen kann.

Ein weiteres Problem können Trainingsdaten sein, die bereits falsche Informationen enthielten. Diese lernt ein KI-Modell ganz direkt. Schon eine verzerrte Darstellung von einer Sache kann dazu führen, dass KI falsche Schlüsse zieht. Für die Trainingsdaten wird bekannterweise alles herangezogen, was verfügbar ist. Klickarbeiter bearbeiten und reinigen diese Daten dann, sodass unter anderem strafbare Inhalte als solche erkannt werden. Ein belastender Job für die Menschen, die dieses Material anschauen müssen. Mercor etwa ist ein solches Unternehmen, für das rund 30.000 Menschen weltweit diese Aufgabe erfüllen. Bewertung des Unternehmens: 10 Milliarden US-Dollar. Zu den Kunden gehören OpenAI und Anthropic. Meta setzt auf Scale AI, bei denen sie auch finanziell eingestiegen sind.

KI-Modelle sind zudem bestrebt, immer Antworten zu finden, die dem Nutzer gefallen und mit denen sie am wahrscheinlichsten richtig liegen. Das kann ebenfalls dazu führen, dass sie sich lieber etwas ausdenken, als zu sagen, dass sie etwas nicht wissen. Ein sehr menschlich wirkendes Verhalten, das aber schlicht mit dem Aufbau und den Vorgaben zusammenhängt. KI-Modelle werden quasi belohnt für richtige Antworten. Das führt zum einen dazu, dass sich die Qualität der Antworten verbessert – im Sinne des Lernprozesses. Zum anderen hat es aber auch den Nachteil, dass diese Art von Gefallsucht zu Falschinformationen führt. Es ist wie ein Mensch bei einem Multiple-Choice-Test lieber irgendwas auswählt, als gar kein Kreuz zu setzen. Kein Kreuz würde bedeuten, dass man definitiv falsch liegt, ein Kreuz erhöht die Chancen, richtigzuliegen, je nach Anzahl der Auswahlmöglichkeiten.

Videos by heise

In einer zweiten Untersuchung hat die BBC herausgefunden, dass mehr als ein Drittel der Erwachsenen in Großbritannien sagen, sie würden KI vollkommen vertrauen. Bei den unter 35-Jährigen sei es sogar die Hälfte der Befragten. Aus der Studie ging auch hervor, dass die Konsumenten bei falschen Informationen nicht nur den Chatbots die Schuld gaben, sondern auch den verlinkten Quellen – selbst wenn diese nichts mit den Fehlern zu tun hätten.

Die Autoren der aktuellen Studie fordern, dass KI-Anbieter das aus den falschen Informationen und der Glaubwürdigkeit von KI-Chatbots resultierende Problem priorisieren. Zudem verlangen sie mehr Kontrollmöglichkeiten für Verlage, wie ihre Inhalte verarbeitet werden. Dazu gehöre etwa eine einheitliche Zitationsweise. Zu guter Letzt werfen die Autoren die Frage auf, wie KI-Anbieter für Inhalte verantwortlich gemacht werden können. Das Problem dabei, Antworten sind nicht generell reproduzierbar. Wenn ein Chatbot sagt, die Banane ist blau, heißt das nicht, dass auch bei allen anderen Fragen zu Bananen diese falsche Information herauskommt. In einem so einfachen Fall ließe sich dem KI-Modell mitgeben, dass der Fakt Banane=blau nicht stimmt und nicht wieder gesagt werden darf. Dabei kann aber auch herauskommen, dass das Modell in der Folge Gespräche über Bananen verweigert. Die Kontrollmöglichkeiten sind eingeschränkt.

Die Autoren plädieren auch dafür, dass Nutzer ein besseres Verständnis für die Funktionsweise von KI bräuchten.

(emw)