Datenmanagement für KI: Machine-Learning-Versionierung mit Data Version Control

Änderungen an Code, Daten und Modellen müssen nachvollziehbar und reproduzierbar sein, damit bei der KI-Entwicklung die Übersicht gewahrt bleibt.

Artikel verschenken

1

21.04.2022, 06:15 Uhr

Lesezeit: 10 Min.

iX Magazin

Von

Nico Axtmann

Datenmanagement für KI: Machine-Learning-Versionierung mit Data Version Control
Remote-Speicher, Data Pipeline
Experiment Tracking
Fazit

Artikel in iX 5/2022 lesen

In klassischen Softwareprojekten gehören Tools wie Git für die Codeverwaltung zum Standardrepertoire. Bei KI-Projekten ist darüber hinaus die Verwaltung von Daten und Modellen wichtig. Denn schließlich sollten alle Schritte der Datenaufbereitung und Modellentwicklung reproduzierbar sein, um Fehler zu vermeiden, Pipelines robuster zu gestalten und Modelle schneller von der Entwicklung in die Produktion zu bringen.

Gegenüber der Softwareentwicklung gibt es bei Data Science und KI zwei wesentliche Unterschiede. Erstens arbeiten Data Scientists mit Daten, Code und Modellen in Form interaktiver Experimente. Zum Zweiten eignet sich Git als das mit weitem Abstand populärste Versionskontrollsystem nicht zur Verwaltung großer Datenmengen und von Daten im Binärformat, die bei der KI-Entwicklung nötig ist. Nicht zuletzt deshalb sind in der Branche Antipatterns wie die händische Verwaltung von Datensätzen oder das ineffiziente Experiment Tracking in Excel-Tabellen weit verbreitet.

Data Version Control (DVC) ist eine Open-Source-Software zur Versionsverwaltung, die speziell auf KI und Data Science zugeschnitten ist. Sie ist eng mit Git verzahnt, das nach wie vor die Verwaltung des Codes übernimmt. DVC erweitert Git und ist für das Tracking von Daten, Modellen und Experimenten zuständig. Die Software arbeitet sprachunabhängig und setzt auf dem Entwicklungsrechner lediglich Git und Python voraus.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Besser texten mit Office-Alternativen: LanguageTool in LibreOffice einrichten

Verbessern Sie die Textprüfung von LibreOffice mit LanguageTool als Online-Dienst oder lokale Installation.

Tschüss Big Tech: Acht sichere E-Mail-Alternativen aus Europa im Vergleich

Gmail, iCloud, Outlook – die größten E-Mail-Anbieter sitzen in den USA. Mit diesen europäischen Alternativen erklären Sie Ihre digitale Unabhängigkeit.

Autark im Ernstfall: Fünf Notfallradios mit Kurbel- und Solarladung im Test

Notfallradios versprechen überlebenswichtige Informationen auch ohne Steckdose und Internet. Wir testen fünf kurbel- und solarbetriebene Modelle.

Linux und macOS: Kommandozeile mit Lernspielen meistern

In diesen kurzweiligen Spielen erkunden Sie magische Königreiche, klären einen Mord auf und lernen nebenbei Linux oder macOS per Kommandozeile zu bedienen.

Solaranlagen im Winter: Warum Kälte gut und Schnee oft kein Problem ist

Mehr als ein netter Bonus? Wie viele Kilowattstunden eine PV-Anlage im Winter realistisch erzeugt und mit welchen Maßnahmen man diesen Ertrag steigern könnte.

Interview: Warum die Schwarz-Gruppe Microsoft Office ablöst

Die Schwarz-Gruppe verspricht ein souveränes Office – ausgerechnet mithilfe von Google. Damit löst sie auch intern Microsoft Office ab. Wir haben nachgehakt.