Nie wieder Rechenfehler? KI prüft Paper auf Irrtümer – warum das nicht reicht

Forschende entwickeln KI-Tools zur Erkennung von Fehlern in wissenschaftlichen Veröffentlichungen. Diese Innovation birgt jedoch auch Risiken und Grenzen.

33

(Bild: worker/Shutterstock.com)

19.03.2025, 15:32 Uhr

Lesezeit: 4 Min.

Von

Dr. Wolfgang Stieler

Die Idee klingt bestechend einfach: Künstliche Intelligenz soll inhaltliche Fehler in wissenschaftlichen Veröffentlichungen finden – möglichst noch während der Begutachtungsphase. Zwei vielversprechende Projekte haben bereits erste Erfolge vorzuweisen, berichtet das Wissenschaftsjournal Nature.

Das "Black Spatula Project" ist ein Open-Source-Projekt, das bisher etwa 500 Artikel auf Fehler analysiert hat. Der Name des Projektes geht auf einen Fachartikel zurück, laut dem schwarze Kochutensilien aus Kunststoff besorgniserregende Mengen an krebserregenden Flammschutzmitteln enthalten sollten. Die Forschungsarbeit erregte großes Aufsehen – allerdings enthielt sie einen simplen Rechenfehler. Der wurde zwar recht schnell entdeckt und ist mittlerweile korrigiert, führte aber zunächst zu zahlreichen altruistischen Medienberichten.

Das zweite Projekt heißt YesNoError. Laut Nature hat das KI-Tool in zwei Monaten seit dem Start bereits mehr als 37.000 Artikel analysiert. Auf seiner Website werden die Artikel aufgeführt, in denen Fehler gefunden wurden – die meisten müssen allerdings noch von Menschen überprüft werden.

KI-Tools für Wissenschafts-Paper: Wie das funktioniert

Die Idee ist in beiden Fällen ähnlich: Sowohl das Black Spatula Project als auch YesNoError verwenden Large Language Models (LLMs), um verschiedene Fehler in den Aufsätzen zu erkennen, falsch zitierte Fakten, Fehler in Berechnungen, Fehler in der Methodik aber auch Fehler in den Verweisen auf wissenschaftliche Quellen.

Eigentlich ist dafür ja das Peer-Review da, die Prüfung wissenschaftlicher Artikel durch Fachleute vor der Veröffentlichung. Dieser Prozess ist aber schon länger in der Kritik, weil er ziemlich langsam, manchmal interessengeleitet ist – und auch nicht alle Fehler findet.

Black Spatula ist noch kein fertiges Werkzeug. Die Gruppe um das Projekt testet im Moment noch, welche Vorgehensweise zu den besten Ergebnissen führt. Dafür sammeln die Forschenden frei zugängliche Paper, die erwiesenermaßen Fehler enthalten, Prompts für verschiedene große Sprachmodelle und die entsprechenden Ausgaben der Sprachmodelle.

Die Forschenden testen die Prompts mit Modellen wie OpenAIs o1 oder Claude 3.5 von Anthropic. Die Kosten für die Analyse jedes einzelnen Papiers liegen zwischen 15 Cent und einigen US-Dollar, je nach Länge des Papiers und der verwendeten Abfragesequenz. Die Rate der Fehlalarme liegt laut dem Nature-Bericht für das Black Spatula Project bei rund zehn Prozent.

YesNoError hat nach eigenen Angaben Agenten, die mit OpenAIs o1 arbeiten und mithilfe von synthetischen Daten darauf trainiert sind, jeweils bestimmte Fehlerarten – etwa Rechenfehler – zu finden. Das proprietäre Tool setzt dann mehrere dieser Agenten parallel auf das zu prüfende Paper an und fasst mithilfe des Sprachmodells die Ergebnisse der einzelnen Agenten zu einem konsistenten Gesamtergebnis zusammen.

KI-Update abonnieren

Dreimal die Woche Updates zu den wichtigsten KI-Entwicklungen.

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Flaschenhals Überprüfung

Um sicher zu sein, dass es sich tatsächlich um Fehler handelt, müssen die von den KI-Tools gefundenen Fehler von Menschen geprüft werden – möglichst natürlich von Expertinnen und Experten auf dem betreffenden Gebiet. Diese zu finden, sei der größte Engpass des Projektes, sagte Steve Newman, Gründer Black Spatula Project gegenüber Nature.

YesNoError plant, dieses Problem mithilfe finanzieller Anreize zu lösen. Das Projekt arbeitet mit ResearchHub zusammen, einer Online-Plattform, die gegründet wurde, um die digitale Veröffentlichung und Zusammenarbeit von Forschenden zu beschleunigen. 2024 führte die Plattform eine eigene Kryptowährung ein, um Engagement in der Zusammenarbeit – die Prüfung eines Aufsatzes, das Schreiben von Code etc. – zu belohnen. YesNoError will diesen Mechanismus auch zur Überprüfung der Ergebnisse seines Tools nutzen.

Dieser Beitrag ist zuerst bei t3n.de erschienen.