Machine Learning: Labeling von Datensätzen mit Active Learning in der Praxis

Das Labeln großer Datensätze für das überwachte Training von ML-Modellen ist aufwendig. Active Learning findet die Datenpunkte, bei denen die Mühe lohnt.

Artikel verschenken

24.02.2022, 08:00 Uhr

Lesezeit: 11 Min.

iX Magazin

Von

Maximilian Blanck
Matthias Richter

Machine Learning: Labeling von Datensätzen mit Active Learning in der Praxis
- Twitter-Posts labeln
Trainingsdaten auswerten
Nutzen von Daten analysieren
Praktische Umsetzung
Fazit

Artikel in iX 3/2022 lesen

Drei Dinge sind für überwachtes maschinelles Lernen essenziell: Daten, Algorithmen und Labels. An den ersten beiden herrscht kein Mangel. Bei Labels – also den Kategorien, in die Trainingsdaten eingeordnet werden – sieht es anders aus.

Während Beispieldatensätze aus dem Netz oft sorgfältig gelabelt sind, sind bei Daten aus der Praxis unvollständige oder mangelhafte Labels eher die Regel als die Ausnahme. Soll ein Algorithmus etwa im echten Leben Kreditkartenbetrug erkennen, hat selten mehr als eine Handvoll Daten die richtigen Labels.

In den meisten Fällen muss man seine Daten manuell labeln. Das ist zeitraubend, kostspielig, fehleranfällig und kann zu suboptimalen Modellen führen. Ganz besonders ärgerlich wird es dann, wenn viele der Labels für den Lernalgorithmus gar nicht wichtig sind, weil er entweder schon genug ähnliche Datenpunkte gesehen hat oder es sich um Ausreißer handelt. Hier hilft Active Learning: Der Algorithmus sucht aktiv nach interessanten Datenpunkten und legt sie einem Menschen zum Labeln vor. Das minimiert einerseits den Aufwand und führt andererseits zu robusteren Modellen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

KI lokal auf dem PC: Der c’t-Bauvorschlag 2026 als künstlicher Schlauberger

Viele KI-Anwendungen laufen auf flotten PCs gut genug. Wir probieren aus, was der c’t-Bauvorschlag mit AMD Ryzen, 32 GByte RAM und 16-GByte-GPU schafft.

Plattenspieler-Kaufberatung: Worauf Sie achten sollten

Musik auf Vinyl liegt weiter im Trend und die Auswahl an Plattenspielern steigt. Darauf sollten Sie achten, wenn Sie ins Vinyl-Hobby einsteigen möchten.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.

iPhone, Mac, iPad: So geht KI auch „for free“

Von Text über Bild bis zu Transkription: So nutzen Sie KI mit clever optimierten Bordmitteln und geschicktem App-Einsatz kostenlos auf Apple-Hardware.

Audi Q5 e-hybrid: Plug-in-Hybrid mit starker Konkurrenz im Test

Der dritte Q5 bietet auch in Kombination mit dem Plug-in-Hybrid für sich betrachtet ein feines Fahrerlebnis. Doch der Druck durch Elektroautos wächst.