Machine Learning: TensorFlow führt experimentelle Privacy Testing Library ein

Das experimentelle Modul für die TensorFlow-Privacy-Bibliothek bringt Tutorials und Analysetools und soll Entwicklern bei Einhaltung des Datenschutzes helfen.

In Pocket speichern vorlesen Druckansicht
Datenschutz: TensorFlow führt eine neue Privacy Testing Library ein

(Bild: Illus_man/Shutterstock.com)

Lesezeit: 2 Min.
Von
  • Madeleine Domogalla

Das Kern-Entwicklerteam hinter TensorFlow, einem populären Machine-Learning-Framework, hat ein neues experimentelles Modul für die TensorFlow-Privacy-Bibliothek veröffentlicht. Die Privacy-Testing-Bibliothek ist gespickt mit Tutorials und Analysetools und soll Entwickler bei der Einhaltung des Datenschutzes unterstützen.

Die TensorFlow-Bibliothek für Datenschutz ist auf die Programmiersprache Python ausgelegt und ermöglicht die Implementierungen des TensorFlow Optimizers für das Training von Machine-Learning-Modellen mit Differential Privacy. Entwickler können damit offenbar die Privacy Properties ihrer Klassifizierungsmodelle bewerten. Differential Privacy soll verhindern, dass sich einzelne Datensätze identifizieren lassen, mit denen beispielsweise Rückschlüsse auf einzelne Personen möglich sind, ohne dabei die Datenqualität zur Genauigkeit zu reduzieren.

Datenschutz ist gemäß der Release Notes ein großes Thema im Bereich des maschinellen Lernens, und bisher gibt es noch keine kanonischen Richtlinien zur Erstellung eines Private Model. Es gebe immer mehr Forschungsergebnisse, die zeigen, dass ein Modell für maschinelles Lernen sensible Informationen des Trainings durchsickern lassen kann, wodurch ein Risiko für die Privatsphäre der Benutzer des Trainings entsteht.

Daher hat das Entwicklerteam hinter TensorFlow im vergangenen Jahr TensorFlow Privacy eingeführt, mit dem Entwickler ihre Modelle nach dem Prinzip der Differential Privacy trainieren können: Mittels Störgeräuschen lassen sich Datensätze verbergen, jedoch wurde dieses Rauschen offenbar für akademische Worst-Case-Szenarien ausgelegt, sodass es die Modellgenauigkeit erheblich beeinträchtigen kann.

Aufgrund dessen habe sich vor einigen Jahren nach eigenen Angaben die Forschung auf die Privacy Properties von ML-Modellen fokussiert. Sogenannte Membership-Inference-Attacken sagen offenbar voraus, ob ein bestimmtes Dateielement während des Trainings verwendet wurde.

Mittels interner Tests haben die Entwickler offenbar herausgefunden, dass die Differential Privacy dazu beiträgt, diese Schwachstellen zu reduzieren. Selbst bei sehr geringem Rauschen habe die Anfälligkeit abgenommen. Nun sollen sich auch extern Entwickler Membership Inference Tests probieren können, um sehr schützenswerte Modelle zu bauen und Architekturen zu identifizieren, die die Prinzipien des Privacy Designs sowie Data-Processing-Entscheidungen berücksichtigen.

Zukünftig möchte TensorFlow die Durchführbarkeit einer Ausweitung der Angriffe aus Membership Inference Tests – über die Klassifikatoren hinaus [---] untersuchen und neue Tests entwickeln. Geplant sei zudem eine Untersuchung, ob sich dieser Test durch Integration mit TFX in das Ökosystem von TensorFlow aufnehmen lässt, das zuletzt in Version 2.2 erschienen ist. Weitere Details können den Release Notes entnommen werden.

(mdo)