iX Special 2023
S. 40
Basics
Datenqualität

Data-centric AI: Wie Datenqualität Fairness beeinflusst

Während die Forschung sich bisher vor allem auf das Modelltraining konzentriert hat, lässt die Qualität der Trainingsdaten oft noch zu wünschen übrig. Dabei ist Datenqualität hoch relevant, wie am Beispiel der Fairness eines ML-Modells gezeigt wird.

Von Isabel Bär

Bisher war es gängige Praxis, sich auf das Modelltraining zu konzentrieren, um ML-Modelle hinsichtlich prädiktiver Performance und Fairness zu verbessern. Neue Forschungsarbeiten verlagern im Sinne eines datenzentrierten Ansatzes den Fokus von Algorithmen auf die Daten und heben die wichtige Rolle der Datenqualität für Performance und Fairness hervor. Das Ziel ist, nicht nur die Modelloptimierung, sondern verstärkt auch die Entwicklung von Verfahren zur Verbesserung der Datenqualität in den Blick zu nehmen. Die neue Richtung wird unter dem Begriff Data-centric AI zusammengefasst. Dieser Artikel nimmt eine solche datenzentrierte Perspektive ein, um den Zusammenhang von Datenqualität und Fairness zu analysieren und Datenqualitätseigenschaften festzulegen, die einen Einfluss auf die Fairness eines ML-Modells haben.

Die Relevanz hoher Datenqualität lässt sich treffend mit dem Prinzip Garbage in, Garbage out (Müll rein, Müll raus) beschreiben, dem zufolge niedrige Datenqualität zwangsläufig zu schlechten Ergebnissen führt. Dabei spielen die Qualitätsanforderungen an die Test-, Validierungs- und Trainingsdaten sowohl aus informatischer als auch aus rechtlicher Sicht eine immer wichtigere Rolle. So veröffentlichte die EU-Kommission im April 2021 eine Verordnung als ersten Rechtsentwurf für KI, der bestehende Regularien ab 2024 ergänzen könnte. Artikel 10 Absatz 2 ist darin eine der zu erfüllenden Vorgaben für Hochrisikosysteme und bezieht sich konkret auf Daten und Daten-Governance. Er beschreibt die Pflicht zur Entwicklung von Modellen auf der Grundlage von Trainings-, Validierungs- und Testdatensätzen, die relevant, repräsentativ, fehlerfrei und vollständig sein müssen und den Merkmalen der zugrunde liegenden geografischen, verhaltensbezogenen und funktionalen Rahmenbedingungen zu entsprechen haben.

Kommentieren