Machine Unlearning: Algorithmen können nichts vergessen

Weil wir nicht wissen, wie die Maschine genau denkt, können wir sie nur indirekt vergessen lassen. Das wurde auf der Konferenz Usenix Enigma deutlich.

In Pocket speichern vorlesen Druckansicht 83 Kommentare lesen
Schlanker weißer Mann in hellem Pullover an Rednerpult, dahinter hellblaue Wand mit Schriftzug "ENIGMA"

Prof. Nicolas Papernot während seines Vortrags auf der Usenix Enigma 2020.

(Bild: Daniel AJ Sokolov)

Lesezeit: 4 Min.
Inhaltsverzeichnis

Daten zu löschen ist in Zeiten des Machine Learning alles andere als einfach. Wurde ein Algorithmus einmal anhand großer Datenmengen trainiert, kann man ihn nicht einfach etwas vergessen machen. Daher befasst sich Professor Nicolas Papernot von der Universität Toronto mit dem jungen Thema des Machine Unlearning. Er empfiehlt, Löscherfordernisse schon in der Vorbereitung des Algorithmen-Trainings zu berücksichtigen.

Zwei Ansätze verfolgt der Forscher dafür: Erstens lassen sich statt eines großen Modells, das mit allen verfügbaren Daten trainiert wurde, mehrere kleinere Modelle erstellen, die jeweils auf einen Teil der Daten zurückgreifen. Im Anwendungsfall lässt man dann alle Modelle laufen und fasst ihre Ergebnisse zusammen, beispielsweise in Form einer Mehrheitsabstimmung. Hier kann es aber unter Umständen zu zusätzlichem Aufwand beim Einsatz der Algorithmen kommen. Der Betreiber muss also vorher abschätzen, wie oft er seine Modelle verwenden und wie oft er Daten zu löschen haben wird.

Zweitens kann man zunächst ein Modell mit einem Teil der Daten trainieren, beispielsweise zehn Prozent, und das Ergebnis speichern. Im nächsten Schritt wird das Modell genommen und mit einem weiteren Datenteil weiterentwickelt. Das Prozedere wird wiederholt, bis es ein mit allen Daten gefüttertes Modell gibt. Muss man später bestimmte Daten löschen, greift man auf jenen Zwischenstand zurück, der diese Datensätze noch nicht kannte, und trainiert nur von dort an neu. Sofern die zu löschenden Informationen nicht gerade im allerersten Modell enthalten sind, spart das später Zeit und Geld.

"Wir müssten nicht auf diese Lösungen zurückgreifen, wenn wir verstünden, wie Machine-Learning-Modelle ihre Vorhersagen treffen", erläuterte Papernot heise online am Montag auf der Konferenz Usenix Enigma in San Francisco. "Wir wissen nicht, welche Datensätze genau in eine bestimmte Berechnung eingeflossen sind. Daher können wir nicht garantieren, dass ein bestehender Algorithmus sich nicht mehr auf einen bestimmten Datensatz bezieht. Dieses Problem ist nicht gelöst."

Und einen Algorithmus von der Pike an neu zu schaffen kostet Zeit und Geld. Ein Paper zum Thema Machine Unlearning, zu dessen Autoren Papernot zählt, ist als Vorabdruck erhältlich. Es befindet sich gerade in der Peer Review.

Gründe für notwendige Datenlöschung kann es mehrere geben: Einerseits könnten Bürger ihnen zustehende Datenlöschungen fordern, andererseits könnte ein Angreifer manipulierte Daten in die hinzugezogenen Datensätze eingeschleust haben. Auch Lizenzprobleme sind denkbar, beispielsweise wenn beim Machine Learning urheberrechtlich geschützte Werke ausgewertet wurden und eine entsprechende Lizenz abläuft oder sich im Nachhinein als ungültig erweist.

Mehr Infos

KI

Schließlich könnten sich auch Zweck oder Parameter des Algorithmuseinsatzes ändern. Als Beispiel zieht Papernot eine medizinische Anwendung heran, bei der sich später herausstellt, dass Daten von Patienten vor einem bestimmten Geburtsjahr nicht länger relevant sind. In solchen und ähnlichen Fällen hilft es dem Betreiber, wenn er sein Machine-Learning-Modell nicht ganz von vorne neu trainieren muss.

Wurden hingegen ganz einfach falsche Daten zum Training genutzt, ist es in der Regel möglich, dem Algorithmus dieses neu gewonnene Wissen nachträglich beizubringen, sagte Papernot. Das ist ein deutlich geringerer Aufwand als echte Machine Unlearning, bei dem einbezogene Daten verlässlich ausgenommen werden müssen.

Usenix Enigma ist eine jährliche Konferenz zu IT-Sicherheit und Datenschutz, die sich mit gegenwärtigen sowie sich anbahnenden Bedrohungen an der Schnittstelle von Gesellschaft und Technik befasst. Sie findet diese Woche mit zirka 450 Teilnehmern in San Francisco statt. Es ist die fünfte Auflage der Veranstaltung. (ds)