Künstliche Intelligenz: ChatGPT übertrifft Studenten in Einführungskursen
In einem Test mit Psychologie-Studenten blieben 94 Prozent der KI-Antworten unentdeckt, fast 84 Prozent waren besser als die menschlicher Kommilitonen.
Peter Scarfe, Forscher an der Fakultät für Psychologie und klinische Sprachwissenschaften der britischen Universität Reading, hat zusammen mit seinem Team ein Experiment durchgeführt, um die Anfälligkeit des Prüfungssystems gegenüber Antworten auf Basis Künstlicher Intelligenz (KI) zu testen. Für die "strenge Blindstudie" speisten die Wissenschaftler über 30 vollständig von ChatGPT-4 generierte Texte in das Prüfungssystem ein. Insgesamt wurden fünf Bachelor-Module über alle Studienjahre hinweg damit gefüttert, die normalerweise als Basis für einen Abschluss in Psychologie an der renommierten Hochschule dienen.
Das Ergebnis war, dass 94 Prozent der KI-Eingaben unentdeckt blieben. Die nicht eingeweihten Prüfer vergaben dafür zudem Noten, die durchschnittlich eine halbe Stufe über denen echter Studierender lagen. Über alle Module hinweg bestand eine 83,4-prozentige Chance, dass die KI-Einreichungen zu einem Modul besser abschneiden würden als eine zufällige Auswahl der gleichen Anzahl echter Antworten.
Die Ergebnisse hat das Team jetzt in einer Online-Fachzeitschrift der Public Library of Science, PLOS One, veröffentlicht. Demnach gab es zwei Arten von Prüfungen: Zum einen waren Kurzantworten (KAWs) gefragt, bei denen vier aus sechs Fragen mit jeweils 200 Wörtern eingereicht werden mussten. Dazu kamen Aufgaben, bei denen ein Essay mit 1500 Wörtern eingereicht werden musste. KAWs sollten die Studierenden in einem Zeitfenster von 2,5 Stunden bearbeiten. Für längere Aufsätze hatten sie 8 Stunden Zeit. Beide Prüfungen wurden zu Hause durchgeführt, wo die Studierenden Zugriff auf Kursmaterialien, wissenschaftlichen Arbeiten, Bücher und das Internet hatten und möglicherweise mit Kommilitonen zusammenarbeiten oder generative KI verwenden konnten.
Beim Abschlussexamen schnitten Menschen besser ab
Für die KI-Lösungen nutzten Scarfe und seine Mitstreiter standardisierte Eingabeaufforderungen für GPT-4. Bei den KAW-Prüfungen lautete der Prompt: "Beantworte die folgende Frage in 160 Wörtern, einschließlich Verweisen auf akademische Literatur, aber ohne separaten Referenzabschnitt". Für die Aufsätze verwendeten sie die Eingabeaufforderung: "Schreibe einen 2000 Wörter langen Essay", der Rest blieb unverändert. Die Forscher setzten die Längenvorgaben anders als gewünscht, weil sie feststellten, dass GPT-4 bei korrekt angegebener Wortgrenze in KAWs oft zu viele Wörter und bei Essays zu wenige produzierte. Mit den geänderten Limits entsprachen die Ausgaben bei den kurzen Antworten ungefähr der Zielwortzahl. Bei den Aufsätzen war es immer noch notwendig, die Maschine aufzufordern, in ihrer Antwort "fortzufahren", bis es vom Umfang her halbwegs passte.
Zum Zeitpunkt der Durchführung der Studie im Sommer 2023 war der Einsatz von KI zur Bearbeitung von Prüfungen an der Uni nicht erlaubt. Die für die Einreichung und Benotung von Prüfungen verwendeten Softwaresysteme verfügten nicht über einen "KI-Detektor". Die Kollegen erhielten von der Schule Standardanleitungen zum Erkennen schlechter akademischer Praktiken und Fehlverhaltens. Sie mussten darauf achten, ob Antworten "zu gut klingen, um wahr zu sein". Die Alarmglocken sollten auch schrillen bei einem auffälligen Schreibstil, einem Inhaltsniveau oder einer Qualität, die von einem Bachelorstudenten, der eine zeitgesteuerte Prüfungsarbeit anfertigt, nicht erwartet wurden. Doch nur im Abschlussmodul, das die Studierenden unmittelbar vor dem Verlassen der Uni belegten, erhielten sie aufgrund der darin geforderten höheren inhaltlichen Ansprüche bessere Noten als die KI.
(usz)