Fragwürdige "Forschung" aus generativer KI bei Google Scholar

Heimlich KI-generierte "Forschungsergebnisse" bergen das Risiko, Wissenschaft zu unterminieren, warnen schwedische Forscher. Das bedroht die Gesellschaft.

vorlesen Druckansicht 20 Kommentare lesen
Ein mit Müll überquellender Coloniakübel

(Bild: RitaE, gemeinfrei)

Lesezeit: 4 Min.
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Alarm schlagen schwedische Forscher: Heimlich KI-generierte "Forschungsergebnisse" tauchen in Google Scholar, diversen Datenbanken und sogar angesehenen Fachzeitschriften auf. Die Fülle der falschen Information könne die Qualitätskontrolle in den Wissenschaften überfordern und so die Integrität der Aufzeichnungen wissenschaftlicher Erkenntnisse gefährden, warnen die Schweden.

Zweitens könnten mit generativen Künstlichen Intelligenzen absichtlich irreführende Dokumente erstellt werden, die überzeugend wissenschaftlich wirken und zudem so optimiert sind, dass sie von öffentlichen Suchmaschinen bevorrangt werden, insbesondere Google Scholar. Diese Möglichkeit untergrabe das Vertrauen in die Wissenschaften und stelle eine ernste Gefahr für die Gesellschaft dar. Schließlich könnten falsche "Ergebnisse" platziert werden, um eine Gesellschaft oder deren Entscheidungsträger zu bestimmten Entscheidungen zu verleiten.

Eine Gruppe aus drei Wissenschaftlern der Hochschule Borås und einer der Schwedischen Universität für Agrarwissenschaften haben bei Google Scholar eine Stichprobe aus angeblich wissenschaftlichen Dokumenten gezogen. Die Latte haben sie dabei sehr niedrig gelegt: Nur wenn mindestens eine von zwei Fehlermeldungen, wie sie für generative Ausgaben der GPT-Versionen 3.5 und 4 typisch sind, vorkam, luden sie das Dokument herunter.

Videos by heise

Diese verräterischen Ausgaben waren "as of my last knowledge update" und "I don’t have access to real-time data". 227 solche Suchergebnisse luden die Forscher via Google Scholar herunter. Davon konnten sie 88 ausscheiden, weil sie entweder die Nutzung generativer KI offengelegt haben oder deren Einsatz sonst legitim war. Damit blieb eine Stichprobe aus 139 Dokumenten, die zumindest teilweise heimlich KI-generiert waren und deren Verbreiter bei der Verheimlichung ihrer Vorgehensweise selbst die grundlegendste Sorgfalt vermissen haben lassen.

Bei der Analyse der Stichprobe zeigte sich, dass fast jedes siebte dieser Dokumente sogar in einer angesehenen wissenschaftlichen Zeitschrift erschienen ist. Fast zwei Drittel sind in anderen wissenschaftlichen Zeitschriften erschienen. Knapp ein Siebtel waren Studentenarbeiten aus Datenbanken diverser Universitäten, nur ein kleiner Teil entfiel auf Diskussionspapiere (working papers). Inhaltlich dominierten die Themen Informatik, Umwelt und Gesundheit. Führendes Thema der untersuchten Fake-Forschung waren laut Untersuchungsergebnis Fische und deren Zucht. Mehrere der zweifelhaften Werke fanden die Forscher anderswo wieder, etwa bei Researchgate, IEEE, diversen Webseiten und in Sozialen Netzen.

Eine einfache Lösung kennen auch die schwedischen Forscher nicht. Sie erachten gleichzeitige Ansätze bei Technik, Bildung und Regulierung für notwendig. Es werde nicht reichen, betrügerische Arbeiten zu erkennen; wichtig sei auch, zu verstehen, wie diese ihr Publikum erreichen und warum einige in Umlauf bleiben.

Hilfreich wäre demnach, wenn Suchmaschinen Filtermöglichkeiten anböten, beispielsweise nach bestimmten Klassen wissenschaftlicher Zeitschriften oder begutachteten Quellen (peer reviewed). Der Suchindex müsse transparenten erstellt werden und sich an wissenschaftlichen Kriterien orientieren. "Da Google Scholar keinen wirklichen Mitbewerber hat, gibt es gewichtige Gründe, eine frei verfügbare, allgemeine Wissenschaftssuchmaschine zu etablieren, die nicht aus wirtschaftlichen Gründen, sondern im öffentlichen Interesse betrieben wird", empfehlen die Autoren.

"Es ist wichtig, dies nicht als technisches Problem darzustellen, das nur wegen KI-Texterzeugung besteht", fügen sie hinzu. Vielmehr sei das Problem im Kontext des "kaputten" wissenschaftlichen Publiziersystems und ideologischer Kämpfe über die Kontrolle von Wissen anzugehen. Zu den Vorschlägen gehört zudem die Bildung von Bewusstsein für das Problem, insbesondere bei Entscheidungsträgern und Multiplikatoren wie Journalisten.

Die schwedische Untersuchung GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation wurde begutachtet (peer reviewed) und im September in der Zeitschrift Misinformation Review der Harvard Kennedy School veröffentlicht. Ziel der Studie war keine statistische Erfassung des Problems, sondern ein Hinweis auf die Spitze des Eisberges. "Unsere Analyse zeigt, dass fragwürdige und potenziell manipulative, mit GPT fabrizierte Paper die Forschungsinfrastruktur durchdringen und wahrscheinlich ein weit verbreitetes Phänomen werden", schreiben die Schweden, "Unsere Ergebnisse unterstreichen, dass das Risiko falscher wissenschaftlicher Aufsätze, die als böswillig manipulative Beweise eingesetzt werden, ernst genommen werden muss."

(ds)