"It's the dataset, stupid!" – Was einen guten Datensatz ausmacht

Was ist ein guter Datensatz? Für Machine Learning ist das grundlegend. Insbesondere für die Frage, warum Maschinen (noch) keine besseren Entscheidungen treffen.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen

(Bild: kentoh/Shutterstock.com)

Lesezeit: 20 Min.
Von
  • Thordis Taag
Inhaltsverzeichnis

Autonome Fahrzeuge, die im Graupelschauer stehen bleiben. Sprachgesteuerte Smart-Home-Assistenten, die nur männliche Stimmen verstehen. Trotz Innovationsschub und verfeinerter Technik steht das maschinelle Lernen (ML) oft vor unerwarteten Herausforderungen. Es wird viel darüber geschrieben und diskutiert, was schlechte Datensätze im Machine Learning bewirken können. Doch was ist eigentlich ein guter Datensatz?

"It's the dataset, stupid!" – Fachliteratur

Daniel Kondermann stellte diese pragmatische Frage schon vor über zehn Jahren. Der Forscher im Bereich Computervision an der Universität Heidelberg hat sich auf die Qualitätssicherung von Datensätzen spezialisiert und ein System entwickelt, das hochwertige Datensätze generiert. Im Gespräch mit der Autorin erläutert er auch, wie dieses System einen Beitrag dazu leisten könnte, eine ethisch verantwortungsvolle, sicherere und transparente Anwendung von KI- und ML-Systemen zu erreichen. Um die Relevanz dieser Frage zu verstehen, gilt es zuerst genauer zu betrachten, was das maschinelle Lernen derzeit hemmt.

Dr. Daniel Kondermann – Spezialist für Datensätze
Dr. Daniel Kondermann, Gründer und CEO Quality Match

Daniel Kondermann forscht seit 2009 an der Frage, was ein guter Datensatz für den Bereich Computervision ist. Im Jahr 2016 hat er sich auf dem Gebiet habilitiert. In dieser Zeit hat er mit verschiedenen Teams zahlreiche Publikationen zu guten Datensätzen veröffentlicht.

Im Rahmen seines ersten Start-ups, der Pallas Ludens GmbH, hat er außerdem maßgeblich zu dem Datensatz "Cityscapes" und zu einer Erweiterung des Datensatzes "KITTI" des Karlsruhe Institute of Technology (KIT) beigetragen: The KITTI Benchmark Suite, Semantic Segmentation Evaluation.

Seit 2019 unterstützen Kondermann und sein Team des Start-ups Quality Match Unternehmen darin, die richtigen Fragen zu stellen, um gute Datensatz-Beispiele zu finden. Ziel ist es, durch das Herausfiltern von Fehlern, Inkonsistenzen und Doppeldeutigkeiten den Datensatz so repräsentativ, akkurat und diffizil wie möglich – eben RAD – zu machen. Sein Motto lautet: "Wenn Daten das neue Öl sind, ist Quality Match die Raffinerie."

Was es mit der RAD-Methode (Representativeness, Accuracy, Difficulty) auf sich hat, erläutert der Artikel.

Mit der Entwicklung neuronaler Netzwerke ist der gordische Knoten im Bereich der künstlichen Intelligenz (KI) geplatzt. Plötzlich schien alles möglich: Es ist eine neue globale Industrie entstanden und namhafte Unternehmen überschlagen sich damit, die KI in immer innovativeren Machine-Learning-Projekten anzuwenden: von selbstfahrenden Fahrzeugen zu Smart-Home-Assistenten, vom Spamfilter zur Übersetzungssoftware. Mithilfe des maschinellen Lernens lassen sich Börsencharts analysieren und Herzrhythmen auf Unregelmäßigkeiten überprüfen.

Und doch stagniert der Machine-Learning-Markt. Nach der Einschätzung des IT-Marktforschungsunternehmens Gartner schaffen es nur 53 Prozent aller KI-Prototypen in die Produktion, und das ist wohl noch eine schmeichelhafte Einschätzung: Laut dem IT-Portal VentureBeat erreichen die allermeisten Data-Science-Projekte nicht die Produktionsreife.

Woran liegt das? Wieso bleibt Waymos selbstfahrendes Taxi ratlos vor ein paar Baustellenhütchen stehen? Wieso kommt noch kein selbstfahrendes Fahrzeug mit Regen, Schnee oder Schneeregen klar? Nachdem viele Gedanken und Energie in Code und Modelle gesteckt wurden, rückt nun der Datensatz in den Fokus.

Auf einem Workshop im Jahr 2013 war Daniel Kondermann mit seiner Meinung, man müsse auch ein Augenmerk auf gute Trainingsdatensätze haben, noch ein Außenseiter. Wozu, wenn man doch auch einfach die Machine-Learning-Methoden optimieren könne? Zum Zeitpunkt dieses Workshops steckten alle Methoden der Datenerzeugung für die Computervision noch in den Kinderschuhen. Ob spezielle Messtechnik, die Computergrafiksimulation oder das Annotieren – wobei unter anderem das Annotieren von Texten schon in der Branche angekommen war, wie das Beispiel der Sprachlern-App Duolingo zeigt.

Inzwischen sind die ML-Methoden präzise, doch die ebenso guten Ergebnisse lassen auf sich warten. So wird in der Branche erst jetzt klar, dass man sich auch über gute Datensätze Gedanken machen muss. Firmen entwickeln zunehmend Systeme, die Datensätze inkrementell verbessern – beispielsweise mithilfe automatischer und manueller Qualitätssicherungsschritte.

Um das zu verdeutlichen, ist zunächst ein Verständnis davon notwendig, wie das maschinelle Lernen genau funktioniert.