iX 4/2023
S. 146
Praxis
Tools und Tipps

Cleanlab entrümpelt Trainingsdatensätze

Das Tool Cleanlab erkennt automatisch Probleme in Trainingsdaten für Machine-Learning-Modelle.

Von Ramon Wartala

Cleanlab ist ein Open-Source-Tool, das Machine-Learning-Trainingsdaten automatisiert prüft. Von diesen Daten hängt die Qualität moderner Machine-Learning-Modelle ab: Die Modelle können nur so gut sein wie die Daten, mit denen man sie trainiert. Somit entfällt ein großer Teil der Arbeit von Data Engineers und Data Scientists darauf, richtige und gute Trainingsdaten zusammenzustellen.

Besonders komplexe Machine-Learning-Modelle wie im Deep Learning üblich sind jedoch mit sehr vielen Daten zu trainieren, um eine hohe Vorhersagequalität zu liefern. Daher hat man es mit Tausenden von Datensätzen und ihren Labels zu tun, die sich nicht nur im richtigen Dateiformat und örtlich nahe an der Trainingshardware befinden müssen, sondern für ausgewogene Modelle auch noch eine ähnliche Anzahl Beispiele pro Trainingsklasse erhalten sollen.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,60 € 1,49 € / Woche

Nach Testphase 2,60 € wtl.

  • Zugriff auf alle iX-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der iX-App für unterwegs
  • Über 35% günstiger im Testzeitraum
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

9,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren