38C3: Mit KI-Chatbots in Schulen Noten würfeln?
Lehrer nutzen KI-Tools, um Arbeiten zu konzipieren und Schüler zu bewerten. Forscher zeigen, warum die Systeme vor deren Verbreitung evaluiert werden sollten.
Generative Künstliche Intelligenz ist längst in Schulen angekommen. Teilweise werden bereits KI-Lehrer erprobt, in Großbritannien starteten Lehrer-freie KI-Klassen als Pilotprojekt. Hierzulande nutzen Lehrer KI-Tools als Hilfe, da sie unter anderem Aufgaben und auch deren Korrekturen erstellen und Lehrkräfte entlasten sollen. Das am weitesten in Deutschland verbreitete Angebot für Schulen, das vom Anbieter Fobizz stammt, haben Forscher unter die Lupe genommen und ihre Studienergebnisse auf dem 38. Chaos Communication Congress vorgestellt. Inzwischen gibt es für Fobizz sogar Landeslizenzen für Rheinland-Pfalz, Mecklenburg-Vorpommern und Sachsen.
Benotung der Schüler gewürfelt?
Laut eigenen Angaben nutzen über 500.000 Lehrkräfte an über 7.500 Schulen das Angebot. Doch die Effektivität und Zuverlässigkeit von Fobizz halten einer genaueren Analyse nicht stand. Diese zeigte Mängel bei der Ausgestaltung der Prompts auf, die für die Bewertung der Texte von Schülern zum Einsatz kommen. Dabei zeigte das Tool laut der Studie von Prof. Rainer Mühlhoff und Marte Henningsen eine große Varianz in der Bewertung der Texte. Bei mehrmaliger Verarbeitung des gleichen Textes schwankten die Noten demnach teilweise sehr stark. In einem Text, den das Tool bewertet hatte, wich die Note in mehreren Durchläufen zwischen einem und 14 Punkten ab. "Das ist im Grunde so ein Auswürfeln [...] wenn mir die Bewertung nicht gefällt, drücke ich einfach auf 'Redo' und dann kommt eine neue Bewertung heraus", erklärt Mühlhoff. Weitere Bedenken bestehen hinsichtlich der Ausgestaltung des Datenschutzes: "Wir haben es mit hochsensiblen Daten von Minderjährigen zu tun, die dort preisgegeben und an die Unternehmen übergeben werden", mahnt Henningsen.
Zudem habe das Tool falsche Informationen in Texten oft nicht erkannt und konnte nicht zuverlässig zwischen relevanten und irrelevanten Inhalten unterscheiden. Auch wenn man die von Fobizz vorgeschlagenen Verbesserungen einarbeitete, wurden diese bemängelt, außer man bat ChatGPT um Hilfe. Wenn das Tool korrekt angewendet wird, halte es seine Versprechen nicht. Es würde nicht so viel Zeit sparen und nicht ausreichend entlasten. Die Ergebnisse, die Lehrer erhielten, müssten sorgfältig geprüft werden.
Die Studie hebt hervor, dass die aktuelle Nutzung solcher Tools möglicherweise nicht die versprochene Zeitersparnis und Entlastung bietet und betont die Notwendigkeit einer sorgfältigen Evaluation solcher Technologien, und zwar vor dem flächendeckenden Einsatz. Nicht angemessen evaluierte KI-Tools könnten daher nicht mit gutem Gewissen auf Schulen losgelassen werden. Auf Nachfrage bei den Landesschulbehörden in den verschiedenen Bundesländern hat Rheinland-Pfalz laut Henningsen angegeben, dass eine Jahreslizenz für Fobizz 1,75 Millionen Euro koste. Gleichzeitig seien dort Referendare über die Sommerferien nicht bezahlt worden.
Anstelle von technologischen Lösungen wie KI-Tools solle mehr in die Verbesserung der Arbeitsbedingungen der Lehrkräfte und in Bildung insgesamt investiert werden. "Wir bräuchten eigentlich mehr Lehrkräfte und dafür [...] mehr Investitionen ins Bildungssystem und meinetwegen auch KI, wo es sinnvoll ist. [...] Hier scheint es eher nicht sinnvoll", so Mühlhoff. Politische Maßnahmen seien stattdessen notwendig, um die Bildungskrise zu stoppen.
Fobizz hat Änderungen vorgenommen
Prompt nach der Veröffentlichung der Studie hat Fobizz auf einige der Kritikpunkte reagiert und Anpassungen am Tool vorgenommen. Der Prompt wurde an die Studienergebnisse angepasst. Den ursprünglichen Prompt habe Fobizz gegenüber den Forschern nicht offenlegen wollen.
(mack)