Trotz DSGVO: Kundendaten unumschränkt nutzen

Die DSGVO schiebt der ungehinderten Datennutzung einen Riegel vor. Wie können Unternehmen die Daten ihrer Kunden dennoch auswerten?

Trotz der Vorteile der DSGVO für den Datenschutz: In vielen Organisationen stößt die Datenschutz-Grundverordnung auf wenig Gegenliebe. Schließlich möchten Unternehmen ihre Daten möglichst ungehindert analysieren und auswerten. Vor allem die Kundendaten müssen analysiert werden, um die Klientel besser bedienen und das Business optimieren zu können.

Doch die DSGVO schiebt der unumschränkten Auswertung dieser Daten einen Riegel vor. Sie fordert, die persönlichen Daten der Kunden zu schützen und sie auf Wunsch sogar zu löschen. Damit sind den Unternehmen bei der Auswertung der Daten enge Grenzen gesetzt. Analysen über die Wünsche, Motive, Bedürfnisse sowie das Verhalten der Kunden – eines der häufigsten strategischen Ziele solcher Projekte – kollidieren mit den zu schützenden Kundendaten, heißt es in der BARC-Studie „Big Data Use Cases“.

Besonders betroffen vom Datenschutz-Dilemma sind Betriebe und Forschungseinrichtungen, die mit großen Datensätzen arbeiten und auf Analytics und neue Technologien wie Künstliche Intelligenz (KI) oder IoT angewiesen sind. Gerade KI braucht große Datenmengen, um in Machine-Learning-Modellen trainiert werden zu können. Nur können viele KI-Anwender diese Daten aufgrund der DGSVO-Vorgaben nicht verwenden.

In der Wissenschaft und Medizin kann der strenge Datenschutz den wissenschaftlichen Fortschritt und neue medizinische Erkenntnisse sogar behindern. Insider bemängeln, dass Gesundheitsdaten oft nur wegen der DSGVO weggeschlossen werden. Dabei haben diese Daten für die Forschung einen großen Mehrwert.

Mit Kundendaten frei agieren

Die gute Nachricht: Für Zwecke der analytischen Datenauswertung und KI-Trainings sind persönliche Daten nicht zwingend erforderlich. Man muss nicht wissen, dass Heinz Müller am 23.11.1960 geboren ist. Die DSGVO betont dies explizit im Erwägungsgrund 26.

Dort heißt es: „Die Grundsätze des Datenschutzes sollten nicht für anonyme Informationen gelten, d. h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann. Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymen Daten, auch für statistische oder für Forschungszwecke.“

Mit anderen Worten: Für anonymisierte Daten gilt die DSGVO nicht. Unternehmen können mit diesen Daten frei agieren: Sie auswerten, mit anderen teilen und weitergeben. Vorschriften wie die Zweckbindung der Datenverarbeitung oder die Einhaltung von Löschpflichten entfallen. Da anonymisierte Daten nicht mehr persönlich sind, lassen sie sich weitreichend und ohne datenschutzrechtliche Einschränkungen einsetzen.

So werden Daten anonymisiert

Wie aber können Datensätze mit persönlichen Kundendaten anonymisiert werden? Das ist die schlechtere Nachricht: Eine echte Anonymisierung der Daten unter Wahrung der Privatsphäre erfordert Zeit, Ressourcen und umfangreiche Fachkenntnisse. Zudem ergibt sich immer das Dilemma, zu viel oder zu wenig zu schützen. So kann die Anonymisierung nicht ausreichend sein und die Daten zu wenig schützen. Oder sie kann die Daten so stark verändern, dass sie für Auswertungen kaum mehr verwendbar sind. Hier gilt es das richtige Maß zu finden.

Etablierte Verfahren zu einer echten Datenanonymisierung gibt es inzwischen einige. Sie wurden auch bereits in Software-Produkten umgesetzt. Eine Standard-Anonymisierungstechnik ist k-Anonymity. Sie wird beispielsweise von Google verwendet. Der k-Anonymity liegt die Idee zugrunde, bestimmte Identifikatoren zu Gruppen mit gleichem Informationsgehalt zusammenzufassen, so dass die hinter den Daten stehenden Individuen nicht mehr unterscheidbar sind und eine Verknüpfung mit damit zusammenhängenden Informationen nicht mehr möglich ist.

Ein anderes Verfahren ist Differential Privacy. Es wurde Anfang der 2000er Jahre entwickelt und wird inzwischen von vielen IT-Konzernen genutzt. Google beispielsweise setzt es im Zusammenspiel mit k-Anonymity ein, ebenso Apple. Die großen Player verwenden Differential Privacy vor allem zur Veröffentlichung sensibler Informationen.

Ein jüngerer Ansatz, Daten konsequent zu anonymisieren ist, ist die Daten-Synthetisierung. Bei dieser Methode wird eine künstliche Repräsentation der zu schützenden Originaldaten generiert, die keinerlei Rückschlüsse mehr auf Personen erlaubt. Ein Machine-Learning-Algorithmus läuft dabei über die Kundendaten, analysiert deren Struktur und lernt durch Training die statistischen Informationen und statistischen Strukturen der Originaldaten. Mit diesem Wissen erzeugt der Algorithmus ganz neue künstliche Daten. Diese spiegeln den gesamten Datensatz mit seinen statistischen Informationen, statistischen Strukturen und Echtdaten wieder.

Software ist für alle Verfahren verfügbar, auch Dienstleister bieten Anonymisierungs-Services an.