Outsourcing: Gigworker, die KI trainieren helfen, lassen sich von KI helfen
Gigworker stehen oft unter Druck und sind schlecht bezahlt. Setzen sie aber auf KI, könnte das zu weiteren Verzerrungen in ohnehin fehleranfälligen KIs führen.​
- Rhiannon Williams
Um KI-Systeme so zu trainieren, dass sie bestimmte Aufgaben genau und zuverlässig ausführen, sind unglaublich viele Daten erforderlich. Um sie erhalten, bezahlen viele Unternehmen sogenannte Gigworker. Das sind Auftragsarbeiter auf Plattformen wie Mechanical Turk, die schwer automatisierbare Aufgaben erledigen. Dazu gehören etwa das Lösen von Captchas, das Etikettieren von Daten und das Annotieren von Texten und Bildern. Solche Daten werden dann in KI-Modelle eingespeist, um sie zu trainieren.
Die Gig-Arbeiter werden allerdings schlecht bezahlt und müssen oft viele Aufgaben sehr schnell erledigen. Kein Wunder, dass sich einige mit KIs wie ChatGPT behelfen, um ihre Verdienstmöglichkeiten zu maximieren. Doch wie viele tun das? Um das herauszufinden, hat ein Forscherteam der Eidgenössischen Technischen Hochschule (EPFL) 44 Personen auf der Gigwork-Plattform "Amazon Mechanical Turk" angeheuert, um 16 Auszüge aus medizinischen Forschungsarbeiten zusammenzufassen.
Suche nach Zeichen von ChatGPT
Dann analysierten sie ihre Antworten mit einem selbst trainierten KI-Modell, das nach verräterischen Signalen für ChatGPT-Ausgaben sucht, zum Beispiel eine mangelnde Vielfalt in der Wortwahl. Sie extrahierten auch die Tastenanschläge der Arbeitnehmer, um herauszufinden, ob sie ihre Antworten kopiert und eingefügt hatten. Das würde darauf hindeuten, dass sie ihre Antworten nicht selbst erstellt hatten.
Die Wissenschaftler schätzten, dass zwischen 33 und 46 Prozent der Arbeitnehmer KI-Modelle wie ChatGPT von OpenAI verwendet hatten. Dieser Prozentsatz wird wahrscheinlich noch weiter steigen, da ChatGPT und andere KI-Systeme immer leistungsfähiger und leichter zugänglich werden, schreiben die Autoren in der Studie, die auf dem preprint-Server arXiv veröffentlicht wurde und deren Fachbegutachtung noch aussteht.
"Ich glaube nicht, dass dies das Ende von Crowdsourcing-Plattformen bedeutet. Es verändert nur die Dynamik", sagt Robert West, Assistenzprofessor an der EPFL, der die Studie mitverfasst hat. Allerdings könnte der Einsatz von KI-generierten Daten zum Training von KI weitere Fehler in ohnehin schon fehleranfällige Modelle einspeisen.
Fehler von KI-Modellen verstärken sich
Große Sprachmodelle geben regelmäßig falsche Informationen als Fakten aus. Werden solche Fehler von KI-Modellen übernommen, verstärken sie sich mit der Zeit und es immer schwieriger, ihre Ursprünge aufzuspüren, sagt Ilia Shumailov, ein Junior Research Fellow in Computerwissenschaften an der Universität Oxford, der nicht an dem Projekt beteiligt war.
Noch schlimmer ist, dass es keine einfache Lösung gibt. "Das Problem ist, dass man bei der Verwendung künstlicher Daten die Fehler aus den Missverständnissen der Modelle sowie statistische Fehler übernimmt", sagt er. "Man muss sicherstellen, dass die eigenen Fehler nicht die Ergebnisse anderer Modelle verfälschen, und das lässt sich nicht so einfach bewerkstelligen."
Die Studie unterstreicht die Notwendigkeit neuer Methoden, um zu ĂĽberprĂĽfen, ob die Daten von Menschen oder von KI erstellt wurden. Es zeigt auch eines der Probleme auf, die sich aus der Tendenz der Tech-Unternehmen ergeben, sich auf Gigworker zu verlassen, die die lebenswichtige Arbeit der Datenbereinigung fĂĽr KI-Systeme ĂĽbernehmen.
"Ich glaube nicht, dass alles zusammenbrechen wird", sagt West. "Aber ich denke, die KI-Gemeinschaft genau untersuchen muss, welche Aufgaben am ehesten automatisiert werden können, und daran arbeiten müssen, das zu verhindern."
(jle)