Von Daten, Rollen und Modellen – ein Bauplan für KI-Anwendungen

Seite 2: Ohne Daten keine datengetriebenen Anwendungen

Inhaltsverzeichnis

Der Auslöser für die Überlegungen in Richtung ML-/KI-Techniken ist häufig ein übergeordnetes Softwareprojekt. Die Beteiligten vermuten zunächst, dass sich für einen Teilaspekt des Projekts datengetriebene Anwendungen eignen. Ein Stück weit ist diese Phase des Prozesses zufallsgetrieben. Es gibt Indikatoren, die Hinweis auf ein mögliches ML-/KI-Potenzial geben. Beispielsweise wenn das zu lösende Problem aufgrund seiner Komplexität mit einem klassischen regelbasierten System nicht abzubilden ist.

Um bei der Absatzprognose zu bleiben: Die große Anzahl von Einflussfaktoren lässt sich händisch kaum zu einem Regelwerk zusammenzufassen. Ein weiterer Indikator sind wirtschaftliche Aspekte des Problems. Eventuell waren für die Absatzprognose bisher zahlreiche Experten wie Statistiker oder Mathematiker notwendig. Die Fachleute analysierten das Datenmaterial und sprachen daraufhin Handlungsempfehlungen aus. In dieser Konstellation kann ein ML-/KI-Business-Case stecken, der sich aufgrund des Automatisierungspotenzials der Prognose rechnet.

Am Anfang steht das Gefühl, dass ML-/KI-Anwendungen für eine Aufgabe geeignet sein können. Aber Gefühle können täuschen. Deswegen folgt eine intensive Analysephase. Hinter der schlichten Frage "Sind ML-/KI-Techniken geeignet?" steckt eine ganze Reihe an Fragestellungen und Entscheidungen. Die Projektbeteiligten investieren in diese Analyse viel Zeit und Energie. Hier stellen sie die Weichen für das gesamte Projekt. Eine Garantie für eine erfolgreiche Umsetzung gibt es nicht. Ein Scheitern des Projekts nach der positiven Datenanalyse durch die entsprechenden Experten ist jedoch unwahrscheinlich. Ziel ist es, möglichst früh ein detailliertes Bild über Inhalt, Qualität und Konsistenz der Datenbasis zu haben. Die dafür notwendigen Schritte lassen sich wie in Abbildung 2 dargestellt beschreiben.

Die Analysephase zu Beginn des Prozesses (Abb. 2)

Der Ausgangspunkt ist die Frage nach der Verfügbarkeit von Daten – ohne sie keine datengetriebenen Anwendungen. Sind sie vorhanden, prüft der Data Scientist, ob ML- oder KI-Techniken die Ansätze sind, um die Aufgabenstellung zu lösen. Stecken beispielsweise in den historischen Daten über die Absatzzahlen der Vergangenheit Informationen, die dazu geeignet sind, die Entwicklung zu erklären? Dieses Prüfen der Daten kann zu drei Ergebnissen führen: Die Daten sind geeignet, dann geht es weiter in die Phase des Model Requirement.

Oder die Daten sind nicht die richtigen. Dann ist der Weg in Richtung ML-/KI-Anwendung versperrt. Die Aufgabe geht wieder zurück in den übergeordneten Softwareentwicklungsprozess. Eventuell prüfen die Beteiligten hier regelbasierte Ansätze. Oder die Beteiligten versuchen, die Aufgabe anders zu schneiden, um so den Einsatz von ML-/KI-Ansätzen doch noch zu ermöglichen. Die dritte Antwortoption: Der Data Scientist kann die Frage nach Eignung der Daten mit seinem Kenntnisstand nicht eindeutig beantworten. Dann folgt die Phase "Data Exploration", dazu später mehr.

Zunächst geht es im Entscheidungsbaum der Analysephase mit dem Strang "Es sind keine Daten vorhanden" weiter. Diese Situation bedeutet nicht das Ende der ML-/KI-Pläne. Um zu entscheiden, ob die Techniken auch bei dieser Ausgangslage zum Einsatz kommen können, prüft das Projektteam zunächst, welche Informationen notwendig wären. Um beim Beispiel der Absatzprognose zu bleiben: Wenn das Unternehmen Absatzzahlen und mögliche Einflussfaktoren bislang nicht systematisch nachverfolgt hat, können die Verantwortlichen zu dem Schluss kommen, dass diese in Zukunft gemessen werden sollen. In der Regel führt das dazu, dass es zunächst wieder eine regelbasierte Umsetzung gibt, die die Datengrundlage für die spätere ML-/KI-Anwendung schafft. Alternativ kann das Unternehmen fehlende Daten hinzukaufen, beispielsweise Rohstoffpreise oder Wetterdaten.

Auf Basis dieses Verfahren bewertet das Projektteam die Eignung von ML-/KI-Techniken. Ist die abschließende Beurteilung positiv, prüft der Data Domain Expert im nächsten Schritt, ob die Beteiligten die notwendigen Daten beschaffen können, sei es aus internen oder externen Quellen. Wenn ja, dann gelangt das Projekt in die Model-Requirements-Phase. Andernfalls geht die Aufgabenstellung auch hier zurück ins übergeordnete Softwareprojekt.

Diese Phase ist der Besonderheit des Umgangs mit Daten in ML-/KI-Projekten geschuldet. Wenn die Unsicherheit bezüglich Datenqualität und -aufbereitung in der frühen Projektphase zu groß ist, steigen die Experten tiefer in die Analyse der vorhandenen Daten ein. EDDA sieht dafür die sogenannte Data Exploration vor. Der iterative Prozess sorgt dafür, dass alle Beteiligten ein besseres Verständnis für die Daten entwickeln. Ein Verständnis, von dem der ganze Folgeprozess profitieren soll.

Data Scientists analysieren zunächst die Struktur und Muster in den Daten. Sie überarbeiten sie und visualisieren Zusammenhänge. Ziel ist, dass die Data-Domain- und Domain-Experten eine genaue Vorstellung von der Datenbasis gewinnen. In einem wöchentlichen Meeting – in Anlehnung an die Begriffe aus der agilen Softwareentwicklung als "weekly data scrum" bezeichnet – erörtert das Team die neuen Erkenntnisse. Den Fortschritt [–] das kann neuer Programmcode, aber auch das Prüfen weiterer Hypothesen sein – hält es im sogenannten Data Report fest. In ihm dokumentieren sie Daten, Cluster oder Verbindungen, aber auch das Fehlen von Datensätzen. Auf der Basis dieser Erkenntnisse und des besseren Datenverständnisses konkretisieren die Domain-Experten die Anforderungen an die zu entwickelnde ML-/KI-Anwendung. Die Ziele halten sie in einem Backlog fest. Auch das ist ein aus der agilen Entwicklung bekanntes Instrument.

Die Phase Data Exploration endet, wenn das Team zur Übereinkunft kommt, dass es die Anforderungen an die ML-/KI-Anwendung mit der Datenbasis erfüllen kann – oder eben nicht. Im letzten Fall geht die Aufgabe, wie bereits bekannt, zurück ins übergeordnete Softwareprojekt.