Tool-Tipp: Cleanlab entrümpelt Trainingsdaten für Machine-Learning-Modelle

Das Tool Cleanlab erkennt automatisch Probleme in Trainingsdaten für Machine-Learning-Modelle.

Artikel verschenken

(Bild: Erstellt mit Midjourney durch heise online)

07.03.2023, 08:00 Uhr

Lesezeit: 4 Min.

iX Magazin

Von

Ramon Wartala

Cleanlab ist ein Open-Source-Tool, das Machine-Learning-Trainingsdaten automatisiert prüft. Von diesen Daten hängt die Qualität moderner Machine-Learning-Modelle ab: Die Modelle können nur so gut sein wie die Daten, mit denen man sie trainiert. Somit entfällt ein großer Teil der Arbeit von Data Engineers und Data Scientists darauf, richtige und gute Trainingsdaten zusammenzustellen.

Besonders komplexe Machine-Learning-Modelle wie im Deep Learning üblich sind jedoch mit sehr vielen Daten zu trainieren, um eine hohe Vorhersagequalität zu liefern. Daher hat man es mit Tausenden von Datensätzen und ihren Labels zu tun, die sich nicht nur im richtigen Dateiformat und örtlich nahe an der Trainingshardware befinden müssen, sondern für ausgewogene Modelle auch noch eine ähnliche Anzahl Beispiele pro Trainingsklasse erhalten sollen.

Ramon Wartala ist Associate Partner bei IBM Consulting in Hamburg. Als Berater entwirft und implementiert er mit seinem Team Datenarchitekturen für Machine-Learning-Lösungen seiner Kunden.

Vor allem beim Training von Objekterkennungs- und Objektsegmentierungsmodellen können viele Labels pro Bild fehlen oder falsch sein, denn meist erstellen immer noch Menschen die Labels per Hand. Umgekehrt können auch zu viele Labels zu einem Verrauschen der Trainingsdaten führen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

3D-Druck: Tipps und Tricks zum Slicen

Kniffe aus der Make-Redaktion für schönere, stabilere und schnellere 3D-Drucke.

Smartphone‑Teleaufsätze im Praxistest: Was die Technik kann – und was nicht

Mehr Brennweite per Aufsatz klingt großartig. Doch was bleibt übrig, wenn Optik, Software und Physik aufeinandertreffen? Unser Test von Oppo und Vivo zeigt’s.

Neun Drucker mit Tinte oder Toner im Test

Brauchen Sie einen günstigen Heimdrucker oder ein Tintentankmodell für die Familie? Unsere c’t-getestete Druckerauswahl hilft bei der Entscheidung.

Interview: Warum die Schwarz-Gruppe Microsoft Office ablöst

Die Schwarz-Gruppe verspricht ein souveränes Office – ausgerechnet mithilfe von Google. Damit löst sie auch intern Microsoft Office ab. Wir haben nachgehakt.

Tschüss Big Tech: Vierzehn sichere E-Mail-Alternativen aus Europa im Vergleich

Gmail, iCloud, Outlook – die größten E-Mail-Anbieter sitzen in den USA. Mit diesen europäischen Alternativen erklären Sie Ihre digitale Unabhängigkeit.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.