Wie synthetische Daten dem Datenschutz helfen

Synthetische Daten könnten auch eine Rolle dabei spielen, KI datenschutzfreundlicher zu trainieren. Dazu bedienen sich Experten eines Tricks.

6

(Bild: rvlsoft/Shutterstock.com)

30.08.2021, 12:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Eva Wolfangel

Bekanntlich brauchen maschinelle Lernsysteme sehr viele Daten, um zu lernen. Dabei hat sich aber immer wieder gezeigt, dass sich selbst anonymisierte Datensätze de-anonymisieren lassen. Das heißt, es ist möglich, in anonymisierten Datensätzen Rückschlüsse auf Einzelne zu ziehen, denn oft gibt es weitere Zusammenhänge, die künstliche Intelligenz findet.

"Synthetische Daten helfen uns, die DSGVO umzusetzen", sagt Alexandra Ebert vom Start-up MostlyAI. Nvidias KI-Gesichter erschienen ihr als Beweis, dass diese Methode helfen könnte, Datensätze zu anonymisieren – oder eben nicht im klassischen Sinn zu anonymisieren, sondern auf deren Basis neue Datensätze mit den gleichen Eigenschaften zu konstruieren, die keine Rückschlüsse auf die ursprünglichen Daten zuließen und damit nicht de-anonymisierbar seien.

"Bei Nvidia ist es nicht vorgekommen, dass von einem Individuum auch nur ein Element übernommen wurde", sagt Ebert, "der Algorithmus hat die Regeln verstanden, wie menschliche Gesichter aussehen."

Videos by heise

Ein Kunde von MostlyAI ist die Ärztebank, und für Banken sind Daten interessant, die gleichzeitig aus Datenschutzgründen sehr heikel sind: Der Zusammenhang zwischen Vermögen, Lebensstil und Verhalten. Wer mehr über diese Zusammenhänge weiß, kann seine Produkte besser an die Kunden anpassen. "Diese Daten dürfen aber nicht verwendet werden", sagt Ebert.

Als Notlösung nutzen Entwickler bisher entweder ihre eigenen Daten oder arbeiteten mit sogenannten "Personas", groben Annäherungen an verschiedene Typen von Kunden auf der Basis von Hypothesen. Doch diese übereinfachten Personen halfen nicht wirklich weiter, weil sie viel zu pauschal waren. Damit ließen sich die Bedürfnisse einzelner Kunden nicht genau genug abbilden.

Dieser Beitrag stammt aus Ausgabe 6/2021 der Technology Review. Das Heft ist ab dem 19.08.2021 im Handel sowie direkt im heise shop erhältlich. Highlights aus dem Heft:

MostlyAI hat ein System des maschinellen Lernens entwickelt, das aus den Kundendaten der Ärztebank lernt, eine eigene Datenbank aus komplett künstlichen Daten zu erstellen – die aber die gleichen Eigenschaften haben. "Sie sind komplett repräsentativ und granular", schwärmt Ebert. Die Software sei direkt bei der Bank installiert und lerne dort aus deren Kundendaten. Das Start-up bekomme die Daten nicht zu sehen. Am Ende stünde ein komplett separater Datensatz ohne eine zurückverfolgbare Beziehung zwischen den echten und den synthetischen Menschen.

"Bei solchen Behauptungen bin ich sehr skeptisch", sagt Aaron Roth von der University of Pennsylvania: "Es ist noch nicht möglich, synthetische Datensätze mit strikten Datenschutzgarantien zu erstellen." So gebe es eine ganze Reihe an Forschungspapieren, die entsprechende Angriffe nachweisen, in denen sehr wohl Rückschlüsse gezogen werden konnte auf die Personen aus dem ursprünglichen Datensatz. Sogenannte "privacy attacks" werden auch dadurch gefördert, dass KI-Systeme in manchen Fällen dazu neigen, auswendig zu lernen – und damit im schlimmsten Fall eine Kopie des Datensatzes erstellen.

Generell ist Roth aber optimistisch, dass synthetische Daten helfen könnten, KI datenschutzfreundlich lernen zu lassen. "Prinzipiell sollte es möglich sein, synthetische Datensätze zu erstellen, von denen man die gleiche Antwort bekommt wie von einem realen Datensatz." Es gebe vielversprechende Forschungen dazu – aber eben auch bekannte Rückschläge.