Machine Unlearning: Google will das Vergessen fördern
Deep Learning und KI sind fast überall und scheinen oft zu viel zu wissen. Das wollen Forscher bei Google mit der ersten "Machine Unlearning Challenge" ändern.
- Frank-Michael Schlede
Bei aller Begeisterung, die die Möglichkeiten und Ergebnisse der KI-Anwendungen und der Einsatz von neuronalen Netzwerkmodellen hervorrufen können, mehren sich die Stimmen, die vor dem allzu sorglosen Einsatz dieser Techniken warnen. Diese Befürchtungen tauchen nicht zuletzt deshalb auf, weil ein wichtiges Element der jüngsten Fortschritte die Verwendung großer Datensätze in Verbindung mit immer größeren Modellen ist. Das hat auch Auswirkungen auf den Datenschutz: Große Modelle neigen dazu, sich Details ihres Trainingssatzes zu merken. Um den zu gewährleisten, müssen die Daten nicht "einfach nur" aus den Datenbanken gelöscht werden, sondern es muss auch sichergestellt sein, dass insbesondere ihr Einfluss auf trainierte maschinelle Lernmodelle gelöscht wird.
Das Vergessen als Herausforderung
Die Forscher von Google streben nach eigener Aussage danach, KI-Techniken verantwortungsvoll zu entwickeln, indem sie potenzielle Risiken wie die Ausbreitung und Verstärkung unlauterer Vorurteile und den Schutz der Privatsphäre der Nutzer verstehen und abmildern. Dazu haben sie sich mit einer Reihe von Forschenden aus Wissenschaft und Industrie zusammengetan, um die erste "Machine Unlearning Challenge" zu organisieren.
Das Szenario des Wettbewerbs besteht darin, dass nach dem Training eine bestimmte Teilmenge der Trainingsbilder vergessen werden muss, um so die Privatsphäre oder die Rechte der betroffenen Personen zu schützen.
Machine Unlearning soll nicht nur Nutzer schĂĽtzen
Wie das Google-Forschungsteam in seinem Blogeintrag betont, sollen die Bedeutung und der generelle Ansatz des maschinellen Unlearning weit über den Schutz der Nutzer und Nutzerinnen hinausgehen. So lässt sich dieses "Entlernen" dazu einsetzen, ungenaue oder veraltete Informationen aus den trainierten Modellen zu löschen, die beispielsweise aufgrund von Fehlern bei der Kennzeichnung oder Änderungen in der Umgebung hineinkamen. Eine weitere Einsatzmöglichkeit besteht darin, schädliche, manipulierte oder Ausreißer-Daten zu entfernen.
Zudem erläutern die Google-Forscher, dass das Gebiet des maschinellen "Entlernens" mit anderen Bereichen des maschinellen Lernens verwandt ist, wie zum Beispiel differenzielle Privatsphäre, lebenslanges Lernen und Fairness. Die differenzielle Privatsphäre zielt darauf ab, zu gewährleisten, dass kein bestimmtes Trainingsbeispiel einen zu großen Einfluss auf das trainierte Modell hat; ein stärkeres Ziel im Vergleich zum Unlearning, bei dem nur der Einfluss des vorgesehenen Vergessenssatzes gelöscht werden muss.
Ein vielschichtiges Problem
Das Problem des Unlearning ist komplex und vielschichtig, da es mehrere widersprüchliche Ziele beinhaltet: das Vergessen der angeforderten Daten, die Aufrechterhaltung des Nutzens des Modells (dazu gehört auch die Genauigkeit bei zurückgehaltenen und zurückgehaltenen Daten) und Effizienz. Deswegen gehen die vorhandenen Algorithmen zum Verlernen unterschiedliche Kompromisse ein. So wird unter anderem durch vollständiges Umlernen ein erfolgreiches Vergessen erreicht, ohne dass der Nutzen des Modells beeinträchtigt wird. Das geschieht allerdings mit geringer Effizienz, während durch Hinzufügen von Rauschen ein Vergessen auf Kosten des Nutzens erreicht wird.
Der Wettbewerb "Machine Unlearning Challenge" findet im Rahmen des Konferenz-Tracks NeurIPS 2023 Competition Track auf Kaggle statt und läuft zwischen Mitte Juli 2023 und Mitte September 2023. Dazu gehört ein Startset, das Interessierte auf GitHub finden können. Dieses Startpaket soll den Teilnehmern und Teilnehmerinnen eine Grundlage bieten, um ihre Unlearning-Modelle anhand eines Spieldatensatzes zu entwickeln und zu testen.
(fms)