DSGVO: Vermischte Spuren

Wenn ab Mai 2018 die Datenschutzgrundverordnung in Kraft tritt, sind private Daten deutlich besser geschützt. Viele Unternehmen fürchten daher Einbußen im digitalen Geschäft – zu Unrecht.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 6 Min.

Kaum ein Begriff fasst Fluch und Segen der Digitalisierung so prägnant zusammen wie "Big Data". Die automatisierte statistische Auswertung der gigantischen Datenmenge, die zig Millionen User jeden Tag hinterlassen, kann das Leben für den Kunden bequemer und netter machen und eröffnet Unternehmen zahlreiche neue Geschäftsmöglichkeiten. Gleichzeitig wächst die Angst vor unkontrollierbaren Datenkraken, die aus Bewegungs- und Kommunikationsprofilen, Suchanfragen, Abrechnungs- und Zahlungsdaten plötzlich Rückschlüsse auf privateste Geheimnisse ziehen können, die wir nicht einmal guten Freunden verraten würden. Zumindest in Europa wird der Umgang mit "personenbezogenen Daten" ab dem kommenden Jahr jedoch sehr viel restriktiver.

Nicht nur, dass jeder User laut der neuen Datenschutzgrundverordnung (DSGVO) künftig ein Recht darauf hat, jederzeit von jedem Unternehmen Auskunft über seine gespeicherten Daten zu bekommen – und diese Daten dann auf Verlangen auch löschen zu lassen. Betroffene müssen der Verarbeitung ihrer Daten auch ausdrücklich zustimmen. Diese Beschränkung steht besonders Big-Data-Prozessen entgegen, denn eine Einwilligung gilt nur noch für einen konkreten Zweck. Jeder neuen Verarbeitung der Daten zu einem anderen Zweck muss der Betroffene wieder neu zustimmen. Für Verbraucher ist die Regelung daher ein Segen.

Unternehmen dagegen sahen bisher vor allem die Nachteile: Sie fürchten, weiter an Boden gegenüber den US-Giganten wie Google, Facebook oder Amazon zu verlieren. Denn Daten sind für neue Technologien wie Erdöl: ein Schmiermittel. Ohne sie gibt es keine persönlichen Assistenten, keine digitalen Gesundheitsdienste und kein intelligentes Energiesystem.

Doch die Untergangsstimmung ist verfehlt. Denn aus der Zwickmühle gibt es einen Ausweg: die Daten zu anonymisieren. Da die anonymisierten Daten keinen Personenbezug mehr aufweisen, unterliegt ihre Verarbeitung auch nicht der DSGVO. "Die neue Verordnung lässt einem diese Freiheit", bestätigt Daniel Kraschewski vom IT-Beratungsunternehmen TNG Technology Consulting, der sich intensiv mit dem Spannungsfeld von Big Data und der DSGVO beschäftigt.

Der Trick ist nur, das richtige Maß zu finden – die Daten so geschickt zu anonymisieren, dass sie dennoch aussagekräftig bleiben. Weltweit arbeiten derzeit Forschungsgruppen und Unternehmen an technischen Lösungen für das Problem. Zu ihnen gehört auch das Berliner Start-up Statice, das mit seinem Verfahren die Verarbeitung und Weitergabe medizinischer Daten ermöglichen will – ohne die Privatsphäre der Patienten zu verletzen.

Die Idee dahinter: Statice generiert aus Produktivdaten sogenannte synthetische Daten, die keinerlei Rückschlüsse mehr auf den jeweiligen Patienten erlauben. "Unser Kernprodukt sind Algorithmen, die blind über die Kundendaten laufen und ihre Struktur analysieren", sagt Lynn Marx, Leiterin der Data Science bei Statice. Stellt man sich die Originaldaten abstrakt als große Tabelle vor, analysieren die Algorithmen beispielsweise die statistische Häufigkeitsverteilung in den einzelnen Spalten und die statistischen Korrelationen zwischen den Spalten – der Wert in einer Spalte könnte beispielsweise immer etwa doppelt so groß sein wie der zugehörige Wert in der Nachbarspalte.

Sobald das Modell gelernt wurde, erzeugt die Software komplett neue synthetische Daten mit genau denselben statistischen Eigenschaften, aus denen man genau wie bei den Originaldaten beispielsweise abfragen kann, wie hoch der Prozentsatz an männlichen Herzinfarkt-Patienten über 47 mit Übergewicht ist. Ganz verlustfrei ist die Prozedur zwar nicht – die Datenqualität sinkt um einige Prozent. Die synthetischen Daten können dafür aber problemlos weitergegeben werden: "Wir wollen den Unternehmen nicht nur ermöglichen, auf interessanten Daten zu arbeiten, sondern gemeinsam mit Partnern aus der Analyse neue Geschäftsmodelle entwickeln, ohne die Privatsphäre ihrer jeweiligen Kunden zu gefährden", sagt Statice-CEO Sebastian Weyer.

Synthetische Daten sind aber keineswegs die einzige Möglichkeit, sich aus der Zwickmühle zu befreien. Telefonica Deutschland (O2) stellt Partnern und Kunden bereits seit 2015 anonymisierte Ortsdaten seiner Telefonkunden zur Verfügung. Die dazu nötige "Data Anonymization Platform" wurde in der Entwicklung vom Bundesbeauftragten für den Datenschutz begleitet und entspricht deutschen Datenschutzverordnungen.  Durch eine unabhängige Prüfstelle lässt der Telefonprovider die Plattform nun auch auf Konformität mit der DSGVO prüfen. Vereinfacht gesagt beruht die Plattform auf dem Prinzip der "Secure Multi Party Computation", erklärt der Architekt der Plattform, Jonathan Ukena.

"Die Daten sind immer so über mehrere Bereiche verteilt und gekapselt, dass nur mehrere Parteien gemeinsam daraus Informationen ziehen können." Informationen wie Einbuchungen von Mobiltelefonen in Funkzellen, Zellenwechsel oder der Aufbau von Datenverbindungen sind getrennt gespeichert von statischen Datensets, die zum Beispiel Alter oder Geschlecht beschreiben. "Am Samstagnachmittag in der Innenstadt von München sehe ich vielleicht 500000 solcher Mobilfunk-Events. Wenn ich wissen will, wie die sich nach Alter und Geschlecht aufschlüsseln, schicke ich die Liste der IDs an den anderen Bereich", erklärt Ukena.

Diese Abfrage liefere aber keineswegs eine Liste mit den Daten aller Kunden, die an diesem Nachmittag in München telefoniert haben. Das Anfrageergebnis sei vielmehr "k-anonymisiert". Das Ergebnis enthält immer hinreichend große Gruppen von Datensätzen, in denen sich Personen statistisch nicht voneinander unterscheiden lassen. "Viele glauben, Anonymität und Big Data, das geht doch überhaupt nicht zusammen", sagt Ukena. "Aber im Wesentlichen geht es bei Big-Data-Anwendungen doch nicht um den Einzelnen. Es geht darum, statistische Signifikanzen herauszubekommen – also das Verhalten von gleichartigen Gruppen zu verstehen."

Juristen und Datenschützer diskutieren allerdings noch, ob – und wenn ja, unter welchen Bedingungen genau – solche technischen Verfahren dem verschärften Datenschutz genügen. In der DSGVO gibt es dazu nur sehr allgemeine Formulierungen. Synthetische Daten ohne Personenbezug fielen tatsächlich nicht unter die DSGVO, bestätigt Marit Hansen vom Unabhängigen Landeszentrum für Datenschutz Schleswig-Holstein. "Aber sie müssten so generiert werden, dass nicht aus Versehen doch ein Personenbezug enthalten ist", betont sie. Dies könnte beispielsweise passieren, "wenn einzelne Attribute in einer medizinischen Datenbank mit seltenen Werten auf echte Personen schließen lassen". "Es reicht nicht, sich zu überlegen, mit welchem technischen Verfahren man da rangeht", sagt auch TNG-Experte Kraschewski.

"Entscheidend ist, wie stark die anonymisierten Daten mit Einzelpersonen korreliert sind. Die DSGVO lässt offen, wie viel da zukünftig konkret erlaubt ist. Wir raten unseren Kunden daher, das Thema nicht ohne juristischen Beistand zum Datenschutz anzugehen." Wenn Unternehmen es klug anstellen, dürften sie damit einen noch größeren Schatz heben als die Daten ihrer Kunden: ihr Vertrauen.

(wst)