Neurologie: Nur 4 von 13 Gutachtern erkannten den von der KI verfassten Abstract

ChatGPT verfasst Abstracts von Veröffentlichungen in der Neurologie – und Experten haben es teils schwer diese von menschlichen Textern zu unterscheiden.

In Pocket speichern vorlesen Druckansicht 18 Kommentare lesen
Papierstapel, Bürokratie, Zettelwirtschaft

(Bild: Moobin/Shutterstock.com)

Lesezeit: 5 Min.

Können Experten aus verschiedenen Zusammenfassungen von wissenschaftlichen Veröffentlichungen eindeutig feststellen, welches von einem menschlichen Verfasser und welches von ChatGPT stammt? Dieser Frage ging Samira Abani nach. Abani ist Neurowissenschaftlerin für Tiermedizin und wissenschaftliche Mitarbeiterin an der Stiftung Tierärztliche Hochschule Hannover (TiHo). Zusammen mit Kollegen aus einem interdisziplinären Team hat sie das Ergebnis ihrer Untersuchung in "Frontiers in Veterinary Science" veröffentlicht. Das Fazit: Je weniger die Experten fachlich mit dem Thema des Papers vertraut waren, desto weniger konnten sie den KI-Text eindeutig identifizieren.

"Ich war überrascht, dass die Texte von ChatGPT in manchen Fällen so schwierig zu erkennen waren, denn ich hatte ehrlich gesagt Zweifel an der Performance von ChatGPT in einem so stark spezialisierten Gebiet wie der Neurologie in der Tiermedizin", sagt Abani. Für die Studie entwickelte sie ein Setting, das speziell auf den Fachbereich der Neurologie zugeschnitten war. Drei ausgewählte Veröffentlichungen zwischen November 2022 und April 2023 aus verschiedenen Bereichen der Neurologie dienten als Testexemplare. Es ging um Hunde, die SARS-Cov2 erschnüffeln können, Biomarker für Entzündungen im Gehirn von Hunden und die Immunreaktion eines Rezeptors bei Epilepsie in Hunden.

Für diese drei Paper sollte ChatGPT je eine Zusammenfassung (Abstract) sowie je eine Einleitung (Introduction) mitsamt Referenzen erstellen. Der Prompt für den Abstract bestand aus dem Titel des Papers sowie der Aufforderung sich an dem Schreibstil des Autors (nach Position, Geschlecht und Alter) zu orientieren. Für die Einleitung änderten die Forscher den Prompt und gaben den Titel des Papers sowie maximal acht Keywords an. Als dritter Prompt diente die Aufforderung "Erstelle 15 Referenzen, um den Inhalt zu untermauern".

Die generierten Texte erhielten 13 ausgewählte Neurologen aus Großbritannien, Deutschland und Spanien. Unter die KI-Texte mischte das Forschungsteam die ursprünglichen, von menschlichen Autoren verfassten Zusammenfassungen und Einleitungen. Jeder dieser Experten war mal mehr, mal weniger mit dem Thema der Veröffentlichung vertraut. Im Test 1 waren die Experten mit den Hunden, die SARS-Cov2 erschnüffeln können, weniger vertraut. Im Test 2 waren die Biomarker für Entzündungen im Gehirn von Hunden sehr vertraut. Test 3 wurde so eingeordnet, dass die Experten mäßig ("moderately familiar") damit vertraut waren.

"Bei dem am wenigsten vertrauten Thema erkannten nur vier von 13 Gutachtern den von der künstlichen Intelligenz verfassten Abstract richtig, während sich diese Quote bei einem vertrauteren Thema auf etwa die Hälfte erhöhte, wobei sieben von 13 Gutachtern die von der künstlichen Intelligenz verfasste Zusammenfassung richtig erkannten", schreiben Abani und ihre Kolleginnen und Kollegen. Hatten aber die Fachleute mehr Text zur Analyse zur Verfügung, einschließlich Einleitung und Referenzliste, konnten sie den KI-Text jedoch besser erkennen. Bei den Experten handelt es sich laut Abani um erfahrene Neurologen, die mit den Feinheiten des wissenschaftlichen Schreibens vertraut sind.

Professor Holger Volk Leiter der Klinik für Kleintiere und ebenfalls Autor der Studie, sagt: "Die Studie zeigt, dass selbst erfahrene Gutachterinnen und Gutachter getäuscht werden können, da Sprachmodelle wie ChatGPT darauf trainiert sind, menschliche Schreibstile nahtlos zu imitieren. Die Auswirkungen für die wissenschaftliche Gemeinschaft sind tiefgreifend und erfordern eine Neubewertung herkömmlicher Bewertungskriterien."

Die Ergebnisse der TiHo-Studie bestätigte eine Untersuchung aus einem anderen wissenschaftlichen Fachbereich. So konnten etwa Linguisten in einer Untersuchung der University of South Florida in nur knapp 40 Prozent der Fälle bei Abstracts richtig feststellen, dass es sich um einen Text einer KI handelt.

"Oberflächlich betrachtet lesen sich die Abstracts und Einführungen von ChatGPT manchmal sehr gut, aber je besser man sich fachlich auskennt, desto offensichtlicher werden Unklarheiten, etwa bei statistischen Angaben", sagt Abani. Zum derzeitigen Zeitpunkt würde sie selbst ChatGPT und anderen generativen Modellen nicht vollständig vertrauen. Immer noch gebe es zu viele Begrenzungen für einen bedenkenlosen Einsatz. Dennoch sieht sie einen Vorteil: "Die Anwendung kann Dokumente für die englische Sprache für nicht Muttersprachler überarbeiten und die Nachteile nicht englischsprachiger Forschender überwinden."

Ob und wie KI-Software für wissenschaftliche Paper eingesetzt werden kann, wird schon länger untersucht. Es gibt immer noch eine Lücke zwischen KI-generiertem, scheinbar plausiblem wissenschaftlichen Inhalt und der Expertise sowie der fachlichen Tiefe menschlicher Experten. Falls Studierende oder Wissenschaftler ChatGPT oder andere Modelle für das Schreiben ihrer Arbeiten verwenden, ist es erforderlich, diese Diskrepanz im Blick zu haben. So sieht auch Abani, dass es in der Wissenschaft und Lehre vor allem um die Sensibilisierung von Studenten gehe: "Es bedarf an Training und Kompetenz im Umgang mit den KI-Tools und einer Kennzeichnung, wenn man Chatbots wie ChatGPT für seine Arbeiten benutzt."

(jle)