Besserer Datenschutz: Wie Apples Differential Privacy funktioniert [Update]

Seite 2: Datenschutz: Anonymisierung reicht nicht

Inhaltsverzeichnis

Netflix zum Beispiel veröffentlichte im Jahr 2007 in guter Absicht Millionen Top-Film-Ranglisten von 500.000 Anwendern. Ziel war es, in einer Art Wettbewerb unter Datenexperten ein besseres Empfehlungssystem zu finden als das bisherige. Um seine Anwender zu schützen, anonymisierte Netflix deren persönlichen Daten. Zwei Wissenschaftlern gelang es jedoch durch die Verknüpfung der Netflix- mit öffentlichen Daten der Seite IMDb (Internet Movie Database), einige der Anwender eindeutig zu identifizieren, indem sie Ranglisten und Zeitmarken abglichen. Viele Anwender nutzen auf IMDb ihren Realnamen.

Möchte Apple neue, wertvolle Crowd-basierte Dienste entwickeln und gleichzeitig seine Privacy-Versprechen halten, galt es also neue Ansätze zu finden. Apple stellte dazu Differential Privacy auf der diesjährigen Entwicklerkonferenz WWDC vor – eigentlich ist das Konzept aber gar nicht so neu. Entwickelt wurde die Idee schon 2006 von Cynthia Dwork, einer Informatikerin und Forscherin am Microsoft Research Lab Silicon Valley. Weitere Forschungen und Veröffentlichungen erfolgten zusammen mit Aaron Roth, einem Informatik-Professor der Universität von Pennsylvania. Die MS-Forschungs-Einrichtung wurde Ende 2014 geschlossen und es ist auch nicht dokumentiert, dass der Hersteller DP in Windows oder in anderer MS-Software einsetzt.

In den Datenschutzerklärungen zu "Diaganose und Nutzungsdaten" auf macOS Sierra erwähnt Apple zwar erstmals Differential Privacy, geht aber auf keine Details ein.

Konkurrent Google nutzt Differential Privacy, um die Nutzungsgewohnheiten der Anwender seines Chrome Browsers auszuwerten. Anwender müssen die Option in den Einstellungen aktivieren ("Nutzungsstatistiken und Absturzberichte automatisch an Google senden").

Differential Privacy will sicherstellen, dass statistische Auswertungen über eine Gesamtheit möglich sind, Rückschlüsse auf einzelne Personen aber nicht. Diese Garantie muss mathematisch beweisbar sein. Das ist der Kern der Veröffentlichungen von Dwork und Co., daher finden sich darin zum großen Teil Formeln. Differential Privacy stellt aber an sich keinen Algorithmus dar, sondern eine Definition, ein Konzept.

Dies besagt vor allem, die erfassten Daten nach einem Zufallsprinzip zu manipulieren und zu verändern. Und das auf eine Weise, die eine sinnvolle statistische Analyse und Auswertung weiterhin ermöglicht, Aussagen über einen einzelnen aber praktisch wertlos sind, einfach weil man nicht mehr weiß, ob sie im konkreten Fall zutreffen. Damit wird auch der Abgleich mit anderen Datensammlungen sinnlos.

Um ein Bild aus der Akustik zu wählen: Differential Privacy fügt einem Musikstück ein starkes Rauschen hinzu. Die Melodie bleibt weiterhin gut hörbar, aber einzelne Instrumente lassen sich nicht mehr zweifelsfrei identifizieren. Wichtig: Das Rauschen wird bei DP direkt auf dem Gerät des Anwenders erzeugt, nicht erst in der Cloud beziehungsweise beim Hersteller.

Die Veröffentlichungen von Dwork und Roth beschreiben ein einfaches Beispiel, wie die Privatheit mit Hilfe eines Zufallsfaktors gewährleistet werden kann. In einer Untersuchung werden Teilnehmer etwa gefragt, ob sie schon mal etwas geklaut haben. Niemand würde das gerne zugeben. Bevor sie antworten, sollen sie eine Münze werfen. Bei Zahl antworten sie wahrheitsgemäß, bei Kopf werfen sie die Münze erneut.

Dieses Mal reagieren sie bei Kopf mit "Ja" und bei Zahl mit "Nein". Egal wie die Antwort am Ende lautet, der Betreffende kann sie immer plausibel bestreiten, wenn man ihn damit konfrontiert. Denn man kann nicht sicher sagen, ob das Ergebnis wahr ist oder durch Zufall verfälscht wurde. Durch die Kenntnis des Rauschfaktors wiederum lässt sich dieser aus dem Gesamtergebnis weitgehend herausrechnen und man erhält über eine Gesamtheit dennoch akkurate Aussagen.