Wie sensible Daten geschützt werden können

Seite 3: Zentrale und verteilte Datenverarbeitung

Inhaltsverzeichnis

Eine zentrale Speicherung schafft einzelne Ziele, die für Angreifer attraktiv sind, sodass es sich für organisierte Angreifer lohnt, ihre Ressourcen auf diese Ziele zu konzentrieren. Außerdem verlagert eine zentrale Speicherung die Verantwortung auf einzelne Parteien. Ein Gegensatz zur zentralen Speicherung bietet eine verteilte Speicherung von Daten, zum Beispiel lassen sich Daten dort speichern, wo sie erhoben wurden. Eine verteilte Speicherung von Daten wirft allerdings die Frage auf, wie die Daten so verarbeitet werden können, wie es bei einer zentralen Speicherung möglich wäre.

Die wissenschaftliche Literatur präsentiert viele Verfahren, um lokale gespeicherte Daten so zu verarbeiten, dass ein ähnliches Maß an Sicherheit erreicht werden kann wie in dem Fall, in dem alle Daten zentral gespeichert werden. Nennen wir solche Verfahren mal sichere verteilte Datenverarbeitungsverfahren.

Ein beliebtes verteiltes Verarbeitungsverfahren für maschinelles Lernen ist das föderierte Lernen, bei dem Daten lokal auf den Geräten der Nutzer gespeichert und nur Informationen über die gemachten Lernfortschritte an zentrale Systeme übermittelt werden. Diese klassische Art des föderierten Lernens ist allerdings unsicher, weil aus den Informationen über die Lernfortschritte die originalen, lokalen Daten rekonstruiert werden können ("Deep Leakage from Gradients" by Ligeng Zhu, Zhijian Liu, Song Han, appeared in Advances in Neural Information Processing Systems 32 (NeurIPS 2019)).

Für die sichere verteilte Datenverarbeitung hingegen gibt es sehr reichhaltige Literatur kryptographischer Verfahren. Diese Verfahren beginnen bei der überprüfbaren Berechnung auf verteilten Daten, über die Berechnung auf verschlüsselten Daten (homomorphe Verschlüsselung) bis hin zur sicheren Mehrparteienberechnung (Secure multi-party computation). Die Verfahren unterscheiden sich im Umfang der Funktionalität und in den Sicherheitseigenschaften, die sie erreichen. Vereinfacht gesagt geht es beim sicheren, verifizierbaren Rechnen auf verteilten Daten darum, sicherzustellen, dass das Ergebnis der Berechnung korrekt ist, ohne notwendigerweise auf alle Daten zugreifen zu können. Mit diesen kryptografischen Verfahren kann übrigens auch das föderierte Lernen so gehärtet werden, dass es sicher ist.

Wie der Name sagt, ist bei der Berechnung auf verschlüsselten Daten keine Entschlüsselung der Daten notwendig – alle Berechnungen können direkt auf den verschlüsselten Daten durchgeführt werden. Auch das Ergebnis der Berechnung liegt ausschließlich in verschlüsselter Form vor. Intuitiv kann man sich das so vorstellen: Die verschlüsselten Daten befinden sich in einer Box, die keine Informationen über die Daten preisgibt. Durch einen Schlitz in der Box kann ein Programm in die Box eingegeben werden. Die Box führt dann die Berechnung des Programms aus und speichert das Ergebnis wieder in der Box. Für die Box gibt es einen (geheimen) Schlüssel, mit dem man auf das Ergebnis zugreifen kann.

Beim letzten Verfahren, dem Secure Multi-party Computing, können beliebige Berechnungen verteilt auf alle Teilnehmer durchgeführt werden. Dieses Verfahren zeichnet sich durch folgende Eigenschaften aus

  1. Jeder Teilnehmer hat eine geheime Eingabe; Daten, die geschĂĽtzt werden mĂĽssen.
  2. Sichere verteilte Berechnungen sind in ihrer Funktionalität nicht eingeschränkt. Es können die gleichen Programme berechnet werden wie bei einer zentralisierten Lösung, bei der alle Daten auf einem Server verarbeitet werden.
  3. Die Sicherheitseigenschaften besagen, dass nur das Ergebnis der Berechnung offengelegt wird, jedoch keine (nicht-trivialen) Informationen ĂĽber die geheimen Daten der Teilnehmer an der verteilten Berechnung.

Als Beispiel dient das sogenannte Yao-Millionärsproblem. Dabei möchte eine Menge von Millionären herausfinden, wer von ihnen der reichste ist, ohne ihren Reichtum preiszugeben. Dies kann durch sicheres verteiltes Rechnen realisiert werden.

Ein wichtiger Punkt bei all diesen Verfahren ist jedoch, dass das Ergebnis der Berechnung die Privatsphäre der Dateneigentümer nicht schützt, das heißt, auch wenn man keinen direkten Zugriff auf die Daten hat, kann das Ergebnis als solches Informationen über die Dateneigentümer preisgeben. Dafür sind komplementär die oben diskutierten aggregationsbasierten Verfahren notwendig.

Selbst wenn alle Daten zentral gespeichert sind, ist beim Umgang mit hochsensiblen Daten Vorsicht geboten. Es gibt hier verschiedene Methoden, je nach Anwendungsfall mehr oder weniger gut geeignet. Bei der Verarbeitung mit Daten ist es beispielsweise ratsam, diese für die Sicherung von Edge-Computing-Umgebungen in einer vertrauenswürdigen Ausführungsumgebung (VAU) zu speichern. Die VAU kann sich auf einer extra Hardware befinden, die allerdings geklaut werden könnte. Daher sind hier kryptologische Verfahren besser geeignet.

Prof. Dominique Schröder (Friedrich-Alexander-Universität) hat bereits IT-Sicherheitsfragen im Gesundheitsausschuss beantwortet, Prof. Esfandiar Mohammadi (Universität zu Lübeck) leitet das vom Bund geförderte Forschungsprojekt AnoMed, das sich mit dem sicheren Umgang mit medizinischen Daten befasst und Prof. Pascal Berrang (University of Birmingham) forscht ebenfalls zur Sicherheit medizinischer Daten, Blockchain und KI.

(mack)