Machine Learning: Labeling von Datensätzen mit Active Learning in der Praxis

Das Labeln großer Datensätze für das überwachte Training von ML-Modellen ist aufwendig. Active Learning findet die Datenpunkte, bei denen die Mühe lohnt.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 11 Min.
Von
  • Maximilian Blanck
  • Matthias Richter
Inhaltsverzeichnis

Drei Dinge sind für überwachtes maschinelles Lernen essenziell: Daten, Algorithmen und Labels. An den ersten beiden herrscht kein Mangel. Bei Labels – also den Kategorien, in die Trainingsdaten eingeordnet werden – sieht es anders aus.

Während Beispieldatensätze aus dem Netz oft sorgfältig gelabelt sind, sind bei Daten aus der Praxis unvollständige oder mangelhafte Labels eher die Regel als die Ausnahme. Soll ein Algorithmus etwa im echten Leben Kreditkartenbetrug erkennen, hat selten mehr als eine Handvoll Daten die richtigen Labels.

Mehr zum Thema Machine Learning

In den meisten Fällen muss man seine Daten manuell labeln. Das ist zeitraubend, kostspielig, fehleranfällig und kann zu suboptimalen Modellen führen. Ganz besonders ärgerlich wird es dann, wenn viele der Labels für den Lernalgorithmus gar nicht wichtig sind, weil er entweder schon genug ähnliche Datenpunkte gesehen hat oder es sich um Ausreißer handelt. Hier hilft Active Learning: Der Algorithmus sucht aktiv nach interessanten Datenpunkten und legt sie einem Menschen zum Labeln vor. Das minimiert einerseits den Aufwand und führt andererseits zu robusteren Modellen.

Das war die Leseprobe unseres heise-Plus-Artikels " Machine Learning: Labeling von Datensätzen mit Active Learning in der Praxis". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.