Wie synthetische Datensätze KI-Systeme verbessern sollen

Seite 2: Von Fahrzeuginspektion bis zur Medizin

Es werden nicht nur synthetische Menschen in Massenproduktion geschaffen. Das Startup Click-Ins verwendet zum Beispiel synthetische Daten für automatische Fahrzeuginspektionen. Mithilfe von Design-Software werden alle Automarken und -modelle, die die KI erkennen muss, neu erstellt und dann mit verschiedenen Farben, Schäden und Verformungen unter verschiedenen Lichtverhältnissen und vor verschiedenen Hintergründen gerendert. Auf diese Weise kann das Unternehmen sein KI-Modell aktualisieren, wenn Autohersteller neue Fahrzeugvarianten auf den Markt bringen. Außerdem wird so kein Datenschutz verletzt in Ländern wie Deutschland, in denen Nummernschilder als private Informationen gelten und daher nicht in Fotos zum Training der KI enthalten sein dürfen.

Mostly.ai arbeitet wiederum mit Finanz-, Telekommunikations- und Versicherungsunternehmen zusammen, um Tabellen mit synthetischen Kundendaten bereitzustellen. Auf diese Weise können die Unternehmen den Aufbau ihrer Kundendatenbank mit externen Dienstleistern auf rechtskonforme Weise teilen. Denn selbst wenn Daten anonymisiert werden, schützt dass zuweilen nicht ausreichend die Privatsphäre der Menschen. Mit den synthetischen Daten lassen sich Datensätze mit den gleichen statistischen Eigenschaften wie die der echten Daten eines Unternehmens generieren. So können auch Daten simuliert werden, die das Unternehmen noch gar nicht hat, zum Beispiel von hypothetischen zukünftigen Kundengruppen oder Szenarien betrügerischer Aktivitäten.

Proponenten synthetischer Daten sagen, dass diese auch bei der Bewertung der Fähigkeiten von KI helfen können. Ein Beispiel zeigten Suchi Saria, Professorin für maschinelles Lernen und Gesundheitswesen an der Johns Hopkins University, und ihre Mitautoren, in einer kürzlich auf einer KI-Konferenz veröffentlichten Arbeit: Mit Hilfe von Techniken zur Datengenerierung ließen sich verschiedene Patientengruppen aus einem einzigen Datensatz extrapolieren. Das könnte nützlich sein, wenn ein Unternehmen etwa nur Daten von der eher jugendlichen Bevölkerung von New York City vorliegen hat, aber verstehen möchte, wie seine KI bei einer alternden Bevölkerung mit einer höheren Diabetesprävalenz funktioniert. Um solche medizinische KI-Systeme zu testen, gründet Saria nun ihr eigenes Unternehmen namens Bayesian Health.

Datenschutz nicht automatisch gewährleistet

Doch gibt es um synthetische Daten einen unnötigen Hype? In Sachen Datenschutz "bedeutet die Tatsache, dass die Daten 'synthetisch' sind und nicht direkt den realen Benutzerdaten entsprechen, nicht, dass sie keine sensiblen Informationen über reale Personen enthalten", sagt Aaron Roth, Professor für Computer- und Informationswissenschaften an der University of Pennsylvania. Es habe sich gezeigt, dass einige Datengenerierungstechniken Bilder oder Texte aus ihren (echten) Trainingsdaten einfach nur abkupfern.

Das mag für eine Firma wie Datagen in Ordnung sein, deren synthetische Daten nicht dazu gedacht sind, die Identität der Personen zu verbergen, denn die haben dem Scan zugestimmt. Aber es wäre eine schlechte Nachricht für Unternehmen, die in der Methode eine Möglichkeit sehen, sensible Finanz- oder Patientendaten zu schützen.

Bisherige Forschung legt nahe, dass insbesondere die Kombination von zwei Techniken für synthetische Daten – die sogenannte Differential Privacy und Generative Adversarial Networks (GANs) – für guten Schutz sorgen kann, sagt Bernease Herman, Datenwissenschaftler am University of Washington eScience Institute. Skeptiker befürchten jedoch, dass dieser Aspekt im Marketing-Jargon der Anbieter synthetischer Daten verloren geht. Denn die sprechen nicht immer offen darüber, welche Techniken sie verwenden.

Voreingenommenheit nicht ausgeschlossen

Bislang deutet wenig darauf hin, dass synthetische Daten zuverlässig vor Voreingenommenheit schützen. Ist ein Datensatz verzerrt, so kommt man durch ein "Hochrechnen" nicht zu wirklich repräsentativen Daten. Die Rohdaten von Datagen enthalten zum Beispiel proportional weniger ethnische Minderheiten, was bedeutet, dass weniger reale Datenpunkte verwendet werden, um Fake-Menschen aus diesen Gruppen zu erzeugen. "Wenn Ihre Gesichter mit dunklerer Hautfarbe keine besonders guten Annäherungen an reale Gesichter sind, dann lösen Sie das Problem nicht wirklich", sagt O'Neil.

Zum anderen führen perfekt ausbalancierte Datensätze nicht automatisch zu perfekt fairen KI-Systemen, sagt Christo Wilson, außerordentlicher Professor für Informatik an der Northeastern University. Wenn ein Kreditkartenanbieter versucht, einen KI-Algorithmus zur Bewertung potenzieller Kreditnehmer zu entwickeln, würde er nicht alle möglichen Diskriminierungen beseitigen, indem er einfach Weiße genauso wie Schwarze in seinen Daten repräsentiert. Diskriminierung könnte sich immer noch durch Unterschiede zwischen Bewerbern aus verschiedenen Gruppen einschleichen.

Um die Sache weiter zu verkomplizieren, zeigen erste Forschungsergebnisse, dass es in manchen Fällen gar nicht möglich ist, mit synthetischen Daten sowohl die Privatsphäre zu schützen als auch eine faire KI zu entwickeln. In einer kürzlich auf einer KI-Konferenz veröffentlichten Arbeit versuchten Forscher der Universität Toronto und des Vector-Instituts dies mit Röntgenaufnahmen der Brust zu erreichen. Sie fanden heraus, dass sie nicht in der Lage waren, ein akkurates medizinisches KI-System zu erstellen, als sie versuchten, einen synthetischen Datensatz durch Kombination von Differential Privacy und GANs zu erstellen.

All dies heißt nicht, dass synthetische Daten nicht verwendet werden sollten. In der Tat kann das durchaus notwendig werden. Da die Aufsichtsbehörden KI-Systeme auf ihre Rechtskonformität hin überprüfen müssen, können sie möglicherweise nur so bedarfsgerechte, gezielte Testdaten generieren, so O'Neil. Aber dadurch ist es noch wichtiger, die Grenzen der Methode zu hinterfragen. "Synthetische Daten werden mit der Zeit wahrscheinlich besser werden", sagt sie, "aber nicht von alleine“.

(bsc)