Datenmanagement für KI: Machine-Learning-Versionierung mit Data Version Control

Änderungen an Code, Daten und Modellen müssen nachvollziehbar und reproduzierbar sein, damit bei der KI-Entwicklung die Übersicht gewahrt bleibt.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 10 Min.
Von
  • Nico Axtmann
Inhaltsverzeichnis

In klassischen Softwareprojekten gehören Tools wie Git für die Codeverwaltung zum Standardrepertoire. Bei KI-Projekten ist darüber hinaus die Verwaltung von Daten und Modellen wichtig. Denn schließlich sollten alle Schritte der Datenaufbereitung und Modellentwicklung reproduzierbar sein, um Fehler zu vermeiden, Pipelines robuster zu gestalten und Modelle schneller von der Entwicklung in die Produktion zu bringen.

Mehr zum Thema Machine Learning

Gegenüber der Softwareentwicklung gibt es bei Data Science und KI zwei wesentliche Unterschiede. Erstens arbeiten Data Scientists mit Daten, Code und Modellen in Form interaktiver Experimente. Zum Zweiten eignet sich Git als das mit weitem Abstand populärste Versionskontrollsystem nicht zur Verwaltung großer Datenmengen und von Daten im Binärformat, die bei der KI-Entwicklung nötig ist. Nicht zuletzt deshalb sind in der Branche Antipatterns wie die händische Verwaltung von Datensätzen oder das ineffiziente Experiment Tracking in Excel-Tabellen weit verbreitet.

Data Version Control (DVC) ist eine Open-Source-Software zur Versionsverwaltung, die speziell auf KI und Data Science zugeschnitten ist. Sie ist eng mit Git verzahnt, das nach wie vor die Verwaltung des Codes übernimmt. DVC erweitert Git und ist für das Tracking von Daten, Modellen und Experimenten zuständig. Die Software arbeitet sprachunabhängig und setzt auf dem Entwicklungsrechner lediglich Git und Python voraus.