Studie: Bessere Arbeitsbedingungen fürs Training von KI-Modellen nötig

Viele Click-Worker sind nötig, um Künstliche Intelligenz möglich zu machen. Laut britischen Forschern wird deren Arbeit mit mehr Geld und klaren Regeln genauer.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Ein weiblich anmutender Roboter sitzt vor einem Mischpult mit Bildschirmen und singt oder spricht in ein Mikrofon

(Bild: Bild: KI Stable Diffusion | Bearbeitung c't)

Lesezeit: 3 Min.

Es ist ein offenes Geheimnis, dass hinter Systemen mit Künstlicher Intelligenz (KI) vor allem eine massive Ausbeutung natürlicher Intelligenz, Daten und Ressourcen steckt. OpenAI etwa hat die Aufgabe, Texte und Bilder für ein Sicherheitssystem für sein ChatGPT-Modell mit Beschreibungen von Gewalt, Hassreden und sexuellem Missbrauch zu versehen, an Arbeiter in Kenia ausgelagert. Sie verdienten weniger als 2 US-Dollar pro Stunde. Zwei Wissenschaftler des Internetinstituts der Universität Oxford legen nun zusammen mit einer Kollegin vom University College London nahe, dass die Arbeitsbedingungen solcher Click-Worker verbessert werden sollten. Unternehmen können ihnen zufolge "eine Rendite in Form einer höheren Genauigkeit" beim Kennzeichnen von Daten für KI erwarten, wenn sie finanzielle Anreize erhöhen und klare Regeln vorgeben.

Das menschliche Kategorisieren und Labeln von Datensätzen sei für das Training, Testen und Validieren von Modellen fürs Maschinenlernen "von entscheidender Bedeutung", schreiben die Forscher in ihrer noch nicht von unabhängigen Experten geprüften Studie. Sie verweisen auf das Beispiel ImageNet. Die Trainingsdatenbank enthält mehr als 14 Millionen manuell beschrifteter Bilder von Objekten. Entsprechende Datenannotationen sind der Analyse zufolge ein entscheidender Aspekt des Entwicklungszyklus einer KI. Sie spielten eine wichtige Rolle, um Vorurteile zu reduzieren und Fairness bei Vorhersagen zu sichern. Werde diese Arbeit nicht gut gemacht, könne sie aber etwa auch zu Diskriminierungen führen. Die Annotation stehe so in direktem Zusammenhang mit dem verstärkten Ruf nach menschlicher Aufsicht über KI, der sich etwa im EU AI Act und einer Anordnung von US-Präsident Joe Biden manifestiere.

In seiner Studie mit 307 Datenkennzeichnern untersucht das Trio sechs Gruppen mit unterschiedlichen Aufgabenanweisungen und monetären Anreizen. Die Ergebnisse zeigen, dass Zuarbeiter mit klaren Vorgaben um 14 Prozent höhere Genauigkeitsraten aufweisen als Kollegen mit vagen Anleitungen. Ferner schnitten Plattformarbeiter, die einen zusätzlichen finanziellen Anreiz erhielten, noch einmal deutlich besser ab. Die trefflichsten Ergebnisse mit einer 87,5-prozentigen Genauigkeit der Beschreibungen verzeichnete die Gruppe, die sowohl mit eindeutigen Regeln als auch mit monetären Anreizen ausgerüstet war.

Die Wissenschaftler wollen mit der Untersuchung die Debatte "über die wirtschaftlichen, ethischen und rechtlichen Überlegungen von KI-Technologien" beflügeln. Sie unterstreichen die Notwendigkeit eines ausgewogenen Ansatzes zur Optimierung von Datenannotationsprozessen für eine effiziente und ethische KI-Entwicklung und -Nutzung. Der globale Markt für das Kategorisieren und Labeln von Daten werde auf 1,3 Milliarden US-Dollar geschätzt und bis Ende 2035 voraussichtlich auf 14 Milliarden US-Dollar wachsen. Die menschliche Arbeitskomponente sei damit zu einem "bedeutenden Wirtschaftsfaktor bei der Produktion von KI-Anwendungen geworden".

Noch versuchen Firmen laut den Autoren, ihre wirtschaftliche Belastung zu reduzieren, indem sie Annotationsarbeiten an herkömmliche Outsourcing-Unternehmen sowie an Online-Arbeitsplattformen auszulagern. Das einschlägige Auftragsvolumen gehe häufig in Länder im Globalen Süden, "wo die Löhne niedriger und die Arbeitsvorschriften weniger klar definiert sind". Wie die Resultate zeigten, drehe sich die Debatte nicht nur darum, die Lebensbedingungen von Millionen Klickarbeitern weltweit zu verbessern. Zu bedenken seien vielmehr auch die "direkten Auswirkungen auf die Qualität von KI-Anwendungen, die auf diesen annotierten und kuratierten Daten aufbauen". Im Mittelpunkt stünden "die Gesetze und Ökonomien der menschlichen Überwachung von KI".

(fds)