Drei Fragen und Antworten: Qualität schlägt Quantität bei Daten für KI

Daten sind das A&O für KI-Projekte. Doch ist die Menge allein das Entscheidende? Und wie kann man mit besonders geschützten Informationen umgehen?

(Bild: iX)

18.06.2024, 13:36 Uhr

Lesezeit: 4 Min.

iX Magazin

Von

Harald Weiss

Viele Studien belegen es: Die Qualität einer KI-Lösung hängt nahezu ausschließlich von der Qualität der Trainingsdaten ab. Knapp gesagt: Garbage in – Garbage out. Dabei ist die Frage nach der Datenqualität komplex. Was ist ein guter, was ein schlechter Wert, oder was ist ein unbrauchbarer Wert, wie schaut es mit der Nutzung von besonders geschützten Daten, wie Personendaten oder Geschäftsgeheimnisse aus, wie ist es mit dem Löschen nicht mehr benötigter sensibler Informationen? Fragen über Fragen. Wir sprachen mit Patrick Heinen, KI-Experte bei Salesforce, über das Datenproblem im Allgemeinen und über die Datennutzung innerhalb von Einstein, der KI-Plattform von Salesforce.

Patrick Heinen ist seit mehr als 12 Jahren bei Salesforce tätig und aktuell als Co-Leiter der Pre-Sales-Organisation für den technischen Vertrieb in Deutschland und Österreich verantwortlich. Der KI-Spezialist ist zudem Host des Podcast #PromptZumErfolg, in dem er regelmäßig mit Experten und Entscheidern über den Einsatz von KI diskutiert.

Viele aktuelle KI-Projekte scheitern, oder haben Probleme, weil die Trainingsdaten schlecht sind. Wie sehen Sie dieses Problem und was ist zu tun, um es zu lösen?

Dass schlechte Daten schlechte KI-Ergebnisse liefern, hat sich herumgesprochen. Viele Unternehmen glauben aber noch immer, dass es auf die Datenmenge ankommt, nicht auf die Qualität. Doch es geht nicht darum, so viele Daten wie möglich zu sammeln, sondern die nötigen Daten auszuwählen und zu bereinigen. Um welche es sich dabei im Einzelnen handelt, hängt vom Use Case ab. Die richtige Nutzung von KI beginnt also nicht bei den Daten, sondern mit der Frage: Wo sehe ich den Business-Mehrwert von generativer KI? Erst danach ist zu klären, welche Daten dafür erforderlich sind, wo sie sind und welche Qualität sie haben. Nach dem Modelltraining sind dann Tests zu machen, um zu prüfen, ob man mit der KI – und den zugehörigen Daten – das Ziel erreicht hat, also einen Business-Value schaffen konnte.

Welche Daten nutzt denn Einstein für seine Empfehlungen (beispielsweise next best action), nur die Unternehmens-eigenen Daten oder die von allen Salesforce-Kunden?

Technisch gesprochen ist es so, dass die Daten von allen Kunden in einer Datenbank sind, wobei die Daten jedes Kunden logisch voneinander getrennt sind. Wir haben aber gar keinen Zugriff auf die Daten selbst, sondern nur auf die Metadaten, also beispielsweise Daten, die anonymisiert Aufschluss über das Nutzerverhalten geben. Das heißt, die Daten bleiben beim Kunden. Es erlaubt den Kunden aber, im Kontext von Einstein die eigenen Daten für das KI-Training zu nutzen. Das heißt, Einstein nutzt für seine KI-Anwendungen ausschließlich die eigenen Kundendaten des jeweiligen Unternehmens.

Salesforce rühmt sich seines "Trust-Layers" bei Einstein, der die Kundendaten schützt. Wie ist das praktisch zu verstehen: Ein KI-Modell kann ja nicht erkennen, ob es sich bei einem Wert um eine personenbezogene Information handelt, welche unter die DSGVO fällt, oder ob es sich um andere besonders schützenswerte Informationen wie Patent- oder Umsatzdaten handelt. Und wie kann ein Kunde die Verwendung seiner Daten bei Salesforce kontrollieren? Ist das auditierbar?

Wir können kundenspezifische Informationen für den Prompt verwenden, ohne die Aspekte des Datenschutzes zu verletzen. Das funktioniert so, dass wir die kundenbezogenen Daten, die im CRM-System sind, für das sogenannte Grounding, also für die Anreicherung des Prompts, anonymisieren. Die Markierung von sensiblen Daten ist in der Metadatenstruktur abgelegt. Bei der Definition der Prompts werden diese Feldinformationen verwendet, sodass der Trust-Layer weiß: "Okay, hier müssen wir anonymisieren". Der Trust-Layer hat in diesem Zusammenhang eine Zero Retention, das heißt, anonymisierte Daten werden nicht zum KI-Training genutzt, sondern werden nach der Anfrage, beziehungsweise nach der Antwort, sofort gelöscht. Und ja, die Datennutzung im Trust-Layer wird genauestens dokumentiert und ist auditierbar.

Herr Heinen, vielen Dank für die Antworten!

In der Serie "Drei Fragen und Antworten" will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.