KI: Studie findet viele falsche Beschreibungen in Machine-Learning-Datensätzen

Gut drei Prozent der Labels in zehn verbreiteten Audio-, Text-, und Bilddatensätzen für Machine Learning sind laut einer Untersuchung fehlerhaft.

In Pocket speichern vorlesen Druckansicht 17 Kommentare lesen

(Bild: Shutterstock)

Lesezeit: 3 Min.
Von
  • Rainald Menge-Sonnentag

In einer Studie haben zwei Wissenschaftler vom MIT zusammen mit einem Amazon-Mitarbeiter die Zuverlässigkeit von Machine-Learning-Datensätzen untersucht. Dazu haben sie die Labels in zehn der am häufigsten verwendeten Datensätze zunächst selbst mit der Methoden des Confident Learning überprüft, und anschließend haben menschliche Prüfer die aufgespürten Fehler validiert.

Das Ergebnis der Untersuchung präsentiert das Team auf einer eigenen Website. Im Fokus standen insgesamt sechs Bild- und drei Textdatensätze sowie ein Audiodatensatz. Bei Letzterem handelt es sich um AudioSet, Erstere umfassen ImageNet, CIFAR-10, CIFAR-100, Caltech-256, Quickdraw und MNIST. Die untersuchten Texte entstammen Datensätzen zu Amazon Reviews, IMDB und einem Datensatz zu 20 Newsgruppen.

Im Durchschnitt hat die Untersuchung 3,4 Prozent fehlerhafte Labels gefunden. Die Zahl wirkt auf den ersten Blick nicht hoch, aber die Datensätze gelten häufig als Referenz für eigene Trainings. Der Lehrmeister vermittelt somit eine Fehlinformation. Die tatsächliche Fehlerquote variiert recht stark: Während die Untersuchung des MNIST-Datensatzes mit handgeschriebenen Ziffern lediglich auf 0,15 Prozent falsch gelabelter Daten kam, ergab die Analyse des QuickDraw-Datensatzes mit von Hand gezeichneten Doodles 10,12 Prozent falsch ausgezeichneter Inhalte. In dem für die Bildklassifikation häufig verwendete ImageNet-Datensatz hat die Prüfung eine Fehlerquote von 5,83 Prozent ausgemacht.

Die obere Tabelle gibt die Ergebnisse des Confident Learning wieder und die untere die anschließende Analyse durch menschliche Prüfer.

(Bild: Abhandlung "Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks")

Die Methode des Confident Learning stammt unter anderem von Curtis G. Nothcutt, der auch an der aktuellen Studie beteiligt ist. Das Verfahren dient zum Aufspüren fehlerhafter Labels, um die Qualität der (Trainings-)Daten zu bewerten. Üblicherweise beschreibt die Konfidenz im Machine Learning quasi wörtlich übersetzt das Selbstvertrauen, das ein Modell in die eigenen Vorhersagen hat. Die Beschreibung des Confident Learning bezieht sich dagegen auf die Zuverlässigkeit der Labels.

Um sich nicht auf die ebenfalls maschinell ermittelten Untersuchungsergebnisse zu verlassen, hat die MIT-Studie die als fehlerhaft identifizierten Einträge einer menschlichen Untersuchung unterzogen und dabei Amazons Crowdsourcing-Marktplatz Mechanical Turk genutzt. Die menschlichen Prüfer haben dabei wohl weitgehend die gefundenen Fehler bestätigt.

Die Labels sind teilweise schlicht falsch: Ein Dachs wird zum Wiesel, ein Murmeltier zum Biber oder ein Jaguar zum Tiger. Andere Labels wählen ein Objekt aus, das zwar auf dem Bild zu sehen ist, unterschlagen dabei aber andere womöglich wesentlichere Elemente: Ein Halloween-Kürbis wird auf die in ihm leuchtende Kerze reduziert und das Bild eines Bootanlegestegs auf ein im Vordergrund liegendes Küchenpapier.

Während manche Labels schlicht falsch sind, verpassen andere das Wesentliche.

(Bild: labelerrors.com)

Bei der Untersuchung hat eine Erkenntnis das Team überrascht: Modelle mit einer niedrigeren Kapazität haben sich wohl für Real-World-Datensätzen mit Abbildungen aus der realen Welt als nützlicher erwiesen als solche mit hoher Kapazität. Vereinfacht ausgedrückt beschreibt die Kapazität die Komplexität eines ML-Modells. So hat wohl ResNet-18 beim Klassifizieren des ImageNet-Datensatzes mit korrigierten Labels besser abgeschnitten als ResNet-50. Dasselbe gilt für die Untersuchung des korrigierten CIFAR-10-Testdatensatzes, bei dem VGG-11 den großen Bruder VGG-19 ausgestochen hat.

Weitere Details lassen sich der Studie "Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks" von Curtis G. Northcutt, Anish Athalye und Jonas Mueller entnehmen. Die Ergebnisse präsentiert das Team auf der Website Label Errors in ML Test Sets.

(rme)