Machine Unlearning: Algorithmen können nichts vergessen

Weil wir nicht wissen, wie die Maschine genau denkt, können wir sie nur indirekt vergessen lassen. Das wurde auf der Konferenz Usenix Enigma deutlich.

In Pocket speichern vorlesen Druckansicht 83 Kommentare lesen
Schlanker weißer Mann in hellem Pullover an Rednerpult, dahinter hellblaue Wand mit Schriftzug "ENIGMA"

Prof. Nicolas Papernot während seines Vortrags auf der Usenix Enigma 2020.

(Bild: Daniel AJ Sokolov)

Lesezeit: 4 Min.
Inhaltsverzeichnis

Daten zu löschen ist in Zeiten des Machine Learning alles andere als einfach. Wurde ein Algorithmus einmal anhand großer Datenmengen trainiert, kann man ihn nicht einfach etwas vergessen machen. Daher befasst sich Professor Nicolas Papernot von der Universität Toronto mit dem jungen Thema des Machine Unlearning. Er empfiehlt, Löscherfordernisse schon in der Vorbereitung des Algorithmen-Trainings zu berücksichtigen.

Zwei Ansätze verfolgt der Forscher dafür: Erstens lassen sich statt eines großen Modells, das mit allen verfügbaren Daten trainiert wurde, mehrere kleinere Modelle erstellen, die jeweils auf einen Teil der Daten zurückgreifen. Im Anwendungsfall lässt man dann alle Modelle laufen und fasst ihre Ergebnisse zusammen, beispielsweise in Form einer Mehrheitsabstimmung. Hier kann es aber unter Umständen zu zusätzlichem Aufwand beim Einsatz der Algorithmen kommen. Der Betreiber muss also vorher abschätzen, wie oft er seine Modelle verwenden und wie oft er Daten zu löschen haben wird.

Zweitens kann man zunächst ein Modell mit einem Teil der Daten trainieren, beispielsweise zehn Prozent, und das Ergebnis speichern. Im nächsten Schritt wird das Modell genommen und mit einem weiteren Datenteil weiterentwickelt. Das Prozedere wird wiederholt, bis es ein mit allen Daten gefüttertes Modell gibt. Muss man später bestimmte Daten löschen, greift man auf jenen Zwischenstand zurück, der diese Datensätze noch nicht kannte, und trainiert nur von dort an neu. Sofern die zu löschenden Informationen nicht gerade im allerersten Modell enthalten sind, spart das später Zeit und Geld.

"Wir müssten nicht auf diese Lösungen zurückgreifen, wenn wir verstünden, wie Machine-Learning-Modelle ihre Vorhersagen treffen", erläuterte Papernot heise online am Montag auf der Konferenz Usenix Enigma in San Francisco. "Wir wissen nicht, welche Datensätze genau in eine bestimmte Berechnung eingeflossen sind. Daher können wir nicht garantieren, dass ein bestehender Algorithmus sich nicht mehr auf einen bestimmten Datensatz bezieht. Dieses Problem ist nicht gelöst."

Und einen Algorithmus von der Pike an neu zu schaffen kostet Zeit und Geld. Ein Paper zum Thema Machine Unlearning, zu dessen Autoren Papernot zählt, ist als Vorabdruck erhältlich. Es befindet sich gerade in der Peer Review.