Machine Unlearning: Google will das Vergessen fördern

Deep Learning und KI sind fast überall und scheinen oft zu viel zu wissen. Das wollen Forscher bei Google mit der ersten "Machine Unlearning Challenge" ändern.

6

(Bild: metamorworks/Shutterstock.com)

10.07.2023, 16:02 Uhr

Lesezeit: 3 Min.

Developer

Von

Frank-Michael Schlede

Bei aller Begeisterung, die die Möglichkeiten und Ergebnisse der KI-Anwendungen und der Einsatz von neuronalen Netzwerkmodellen hervorrufen können, mehren sich die Stimmen, die vor dem allzu sorglosen Einsatz dieser Techniken warnen. Diese Befürchtungen tauchen nicht zuletzt deshalb auf, weil ein wichtiges Element der jüngsten Fortschritte die Verwendung großer Datensätze in Verbindung mit immer größeren Modellen ist. Das hat auch Auswirkungen auf den Datenschutz: Große Modelle neigen dazu, sich Details ihres Trainingssatzes zu merken. Um den zu gewährleisten, müssen die Daten nicht "einfach nur" aus den Datenbanken gelöscht werden, sondern es muss auch sichergestellt sein, dass insbesondere ihr Einfluss auf trainierte maschinelle Lernmodelle gelöscht wird.

Das Vergessen als Herausforderung

Die Forscher von Google streben nach eigener Aussage danach, KI-Techniken verantwortungsvoll zu entwickeln, indem sie potenzielle Risiken wie die Ausbreitung und Verstärkung unlauterer Vorurteile und den Schutz der Privatsphäre der Nutzer verstehen und abmildern. Dazu haben sie sich mit einer Reihe von Forschenden aus Wissenschaft und Industrie zusammengetan, um die erste "Machine Unlearning Challenge" zu organisieren.

Lesen Sie auch

Recht auf Vergessen: Keine Mitwirkungspflicht für Google bei Wahrheitsprüfung

Das Szenario des Wettbewerbs besteht darin, dass nach dem Training eine bestimmte Teilmenge der Trainingsbilder vergessen werden muss, um so die Privatsphäre oder die Rechte der betroffenen Personen zu schützen.

Machine Unlearning soll nicht nur Nutzer schützen

Wie das Google-Forschungsteam in seinem Blogeintrag betont, sollen die Bedeutung und der generelle Ansatz des maschinellen Unlearning weit über den Schutz der Nutzer und Nutzerinnen hinausgehen. So lässt sich dieses "Entlernen" dazu einsetzen, ungenaue oder veraltete Informationen aus den trainierten Modellen zu löschen, die beispielsweise aufgrund von Fehlern bei der Kennzeichnung oder Änderungen in der Umgebung hineinkamen. Eine weitere Einsatzmöglichkeit besteht darin, schädliche, manipulierte oder Ausreißer-Daten zu entfernen.

Ablauf des Unlearning: Ein Unlearning-Algorithmus nimmt als Eingabe ein vortrainiertes Modell und eine oder mehrere Proben aus der zu vernachlässigenden Trainingsmenge (die "Vergessensmenge").

(Bild: Google)

Zudem erläutern die Google-Forscher, dass das Gebiet des maschinellen "Entlernens" mit anderen Bereichen des maschinellen Lernens verwandt ist, wie zum Beispiel differenzielle Privatsphäre, lebenslanges Lernen und Fairness. Die differenzielle Privatsphäre zielt darauf ab, zu gewährleisten, dass kein bestimmtes Trainingsbeispiel einen zu großen Einfluss auf das trainierte Modell hat; ein stärkeres Ziel im Vergleich zum Unlearning, bei dem nur der Einfluss des vorgesehenen Vergessenssatzes gelöscht werden muss.

Ein vielschichtiges Problem

Das Problem des Unlearning ist komplex und vielschichtig, da es mehrere widersprüchliche Ziele beinhaltet: das Vergessen der angeforderten Daten, die Aufrechterhaltung des Nutzens des Modells (dazu gehört auch die Genauigkeit bei zurückgehaltenen und zurückgehaltenen Daten) und Effizienz. Deswegen gehen die vorhandenen Algorithmen zum Verlernen unterschiedliche Kompromisse ein. So wird unter anderem durch vollständiges Umlernen ein erfolgreiches Vergessen erreicht, ohne dass der Nutzen des Modells beeinträchtigt wird. Das geschieht allerdings mit geringer Effizienz, während durch Hinzufügen von Rauschen ein Vergessen auf Kosten des Nutzens erreicht wird.

Der Wettbewerb "Machine Unlearning Challenge" findet im Rahmen des Konferenz-Tracks NeurIPS 2023 Competition Track auf Kaggle statt und läuft zwischen Mitte Juli 2023 und Mitte September 2023. Dazu gehört ein Startset, das Interessierte auf GitHub finden können. Dieses Startpaket soll den Teilnehmern und Teilnehmerinnen eine Grundlage bieten, um ihre Unlearning-Modelle anhand eines Spieldatensatzes zu entwickeln und zu testen.

(fms)