Tool-Tipp: Cleanlab entrümpelt Trainingsdaten für Machine-Learning-Modelle
Das Tool Cleanlab erkennt automatisch Probleme in Trainingsdaten für Machine-Learning-Modelle.

(Bild: Erstellt mit Midjourney durch heise online)
- Ramon Wartala
Cleanlab ist ein Open-Source-Tool, das Machine-Learning-Trainingsdaten automatisiert prüft. Von diesen Daten hängt die Qualität moderner Machine-Learning-Modelle ab: Die Modelle können nur so gut sein wie die Daten, mit denen man sie trainiert. Somit entfällt ein großer Teil der Arbeit von Data Engineers und Data Scientists darauf, richtige und gute Trainingsdaten zusammenzustellen.
Besonders komplexe Machine-Learning-Modelle wie im Deep Learning üblich sind jedoch mit sehr vielen Daten zu trainieren, um eine hohe Vorhersagequalität zu liefern. Daher hat man es mit Tausenden von Datensätzen und ihren Labels zu tun, die sich nicht nur im richtigen Dateiformat und örtlich nahe an der Trainingshardware befinden müssen, sondern für ausgewogene Modelle auch noch eine ähnliche Anzahl Beispiele pro Trainingsklasse erhalten sollen.
Vor allem beim Training von Objekterkennungs- und Objektsegmentierungsmodellen können viele Labels pro Bild fehlen oder falsch sein, denn meist erstellen immer noch Menschen die Labels per Hand. Umgekehrt können auch zu viele Labels zu einem Verrauschen der Trainingsdaten führen.
Das war die Leseprobe unseres heise-Plus-Artikels "Tool-Tipp: Cleanlab entrümpelt Trainingsdaten für Machine-Learning-Modelle". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.