Tool-Tipp: Cleanlab entrümpelt Trainingsdaten für Machine-Learning-Modelle

Das Tool Cleanlab erkennt automatisch Probleme in Trainingsdaten für Machine-Learning-Modelle.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht

(Bild: Erstellt mit Midjourney durch heise online)

Lesezeit: 4 Min.
Von
  • Ramon Wartala
Inhaltsverzeichnis

Cleanlab ist ein Open-Source-Tool, das Machine-Learning-Trainingsdaten automatisiert prüft. Von diesen Daten hängt die Qualität moderner Machine-Learning-Modelle ab: Die Modelle können nur so gut sein wie die Daten, mit denen man sie trainiert. Somit entfällt ein großer Teil der Arbeit von Data Engineers und Data Scientists darauf, richtige und gute Trainingsdaten zusammenzustellen.

Besonders komplexe Machine-Learning-Modelle wie im Deep Learning üblich sind jedoch mit sehr vielen Daten zu trainieren, um eine hohe Vorhersagequalität zu liefern. Daher hat man es mit Tausenden von Datensätzen und ihren Labels zu tun, die sich nicht nur im richtigen Dateiformat und örtlich nahe an der Trainingshardware befinden müssen, sondern für ausgewogene Modelle auch noch eine ähnliche Anzahl Beispiele pro Trainingsklasse erhalten sollen.

Mehr zum Thema Machine Learning
Ramon Wartala

Ramon Wartala ist Associate Partner bei IBM Consulting in Hamburg. Als Berater entwirft und implementiert er mit seinem Team Datenarchitekturen für Machine-Learning-Lösungen seiner Kunden.

Vor allem beim Training von Objekterkennungs- und Objektsegmentierungsmodellen können viele Labels pro Bild fehlen oder falsch sein, denn meist erstellen immer noch Menschen die Labels per Hand. Umgekehrt können auch zu viele Labels zu einem Verrauschen der Trainingsdaten führen.

Das war die Leseprobe unseres heise-Plus-Artikels "Tool-Tipp: Cleanlab entrümpelt Trainingsdaten für Machine-Learning-Modelle". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.