KI: Warum es nicht ausreicht, unethisch gewonnene Daten zu löschen
Die KI-Community versucht, Fehler der Vergangenheit zu tilgen. Doch das Netz vergisst nicht.
- Karen Hao
In der Hoffnung, die Entwicklung der Gesichtserkennung voranzutreiben, veröffentlichte Microsoft 2016 die damals größte Gesichtsdatenbank der Welt. Sie trug den Namen "MS-Celeb-1M" und enthielt 10 Millionen Bilder von 100.000 Gesichtern prominenter Persönlichkeiten. Der Begriff "Berühmtheit" war allerdings sehr vage definiert.
Prominent oder nicht
Drei Jahre später durchforsteten die Forscher Adam Harvey und Jules LaPlace den Datensatz und fanden viele ganz gewöhnliche Menschen wie Journalisten, Künstler, Aktivisten und Akademiker, die im Rahmen ihres Berufslebens einfach nur eine Online-Präsenz unterhalten. Keiner von ihnen hatte sein Einverständnis gegeben, in die Datenbank aufgenommen zu werden, und doch hatten ihre Gesichter ihren Weg in den Datensatz und darüber hinaus gefunden. Unternehmen wie Facebook, IBM, Baidu und SenseTime, einer der größten chinesischen Gesichtserkennungsfirmen, die ihre Technologie an die chinesische Polizei verkauft, führten Studien und Projekte unter Verwendung der von Microsoft gesammelten Gesichter durch.
Kurz nach der Untersuchung von Harvey und LaPlace – und nach der Kritik von Journalisten – entfernte Microsoft den Datensatz mit einer simplen Erklärung: "Die Forschungs-Challenge ist vorbei". Aber die Bedenken hinsichtlich des Datenschutzes, die dadurch entstanden sind, bleiben im Internet für immer bestehen. Keiner weiß, wie viele Kopien noch herumfliegen. Und dieser Fall ist kaum der einzige.
Das Durchsuchen des Netzes nach Bildern und Texten galt einst als einfallsreiche Strategie zur Sammlung von Daten aus der realen Welt. Jetzt haben Gesetze wie die Europäische Datenschutzverordnung (DSGVO) und die wachsende öffentliche Sorge um Datenschutz und Überwachung diese Praxis rechtlich riskant und problematisch gemacht. Infolgedessen haben mehr und mehr KI-Forscher die auf diese Weise erstellten Datensätze zurückgezogen.
Löschen hilft leider nicht
Eine neue Studie zeigt jedoch, dass dies nur wenig dazu beigetragen hat, die Verbreitung und Nutzung der problematischen Daten zu verhindern. Die Autoren wählten drei der am häufigsten in der Forschung zitierten Datensätze mit Gesichtern oder Personen aus, von denen zwei zurückgezogen wurden – und sie verfolgten dann die Art und Weise, wie jeder dieser Datensätze kopiert, weiterverwendet wurde und in fast 1.000 Veröffentlichungen zum Einsatz kam.
Im Fall von "MS-Celeb-1M" existieren immer noch Kopien auf Websites Dritter und in abgeleiteten Datensätzen, die auf dem Original aufbauen. Open-Source-Modelle, die mit den Daten trainiert wurden, sind ebenfalls leicht verfügbar. Der Datensatz und seine Derivate wurden auch in Hunderten von Artikeln zitiert, die zwischen sechs und 18 Monaten nach der Rücknahme veröffentlicht wurden. DukeMTMC, eine Datenbank, die Bilder von Menschen enthält, die auf dem Campus der Duke University spazieren gehen, und die im selben Monat wie MS-Celeb-1M zurückgezogen wurde, ist ebenfalls in abgeleiteten Datensätzen und Hunderten von Zitaten in Veröffentlichungen zu finden.
Die Liste der Orte, an denen die Daten verbleiben, ist "umfangreicher, als wir ursprünglich gedacht hätten", sagt Kenny Peng, Student in Princeton und Mitautor der Studie. Und selbst das, sagt er, ist wahrscheinlich eine Unterschätzung, weil die Zitierungen in Forschungsarbeiten nicht immer die Möglichkeiten der kommerziellen Nutzung der Daten berücksichtigen. Laut der Princeton-Studie liegt ein Teil des Problems darin, dass diejenigen, die KI-Datenbanken zusammenstellen, schnell die Kontrolle über ihre Kreationen verlieren.
Missbrauch in anderen Bereichen
Daten, die für einen bestimmten Zweck freigegeben werden, können schnell für andere Zwecke verwendet werden, die von den ursprünglichen Schöpfern nie beabsichtigt oder erwogen wurden. MS-Celeb-1M zum Beispiel sollte die Gesichtserkennung von Prominenten verbessern, wurde aber inzwischen für allgemeinere Gesichtserkennung und die Analyse von Gesichtsmerkmalen verwendet, so die Autoren. Es wurde auch in abgeleiteten Datensätzen wie "Racial Faces in the Wild", das seine Bilder nach Rasse gruppiert, umbenannt oder andersartig verarbeitet, was die Tore zu kontroversen Anwendungen öffnet.
Die Analyse der Forscher deutet auch darauf hin, dass Labeled Faces in the Wild (LFW), eine 2007 eingeführte KI-Datenbank, die als erste aus dem Internet gesammelte Gesichtsbilder verwendete, sich in den fast 15 Jahren der Nutzung mehrfach verändert hat. Während sie zunächst als Ressource zur Bewertung von Gesichtserkennungsmodellen für die Forschung diente, wird sie heute fast ausschließlich zur Bewertung von Systemen verwendet, die in der realen Welt eingesetzt werden sollen. Und das trotz eines Warnhinweises auf der Website des Datensatzes, der vor einer solchen Verwendung warnt! Kürzlich wurde die Datenbank in einem Derivat namens SMFRD wiederverwendet, bei dem jedem der Bilder Gesichtsmasken hinzugefügt wurden, um die Gesichtserkennung während der Pandemie zu verbessern. Die Autoren weisen darauf hin, dass dies neue ethische Probleme aufwerfen könnte. Datenschützer haben kritisiert, dass solche Anwendungen die Überwachung vorantreiben und insbesondere die Identifizierung maskierter Demonstranten durch Behörden ermöglichen.
"Dies ist eine wirklich wichtige Arbeit, da die Komplexität und die potenziellen Schäden und Risiken solcher Daten den Menschen im Allgemeinen nicht bewusst waren", sagt Margaret Mitchell, eine KI-Ethikforscherin und führende Vertreterin einer verantwortungsvollen Datenpraxis, die nicht an der Princeton-Studie beteiligt war. "In der KI-Gemeinde wird seit langem davon ausgegangen, dass Daten existieren, um genutzt zu werden", fügt sie hinzu. Die Studie zeige, dass dies im Nachhinein zu Problemen führen kann. "Es ist wirklich wichtig, über die verschiedenen Werte nachzudenken, die eine Datenbank kodiert."
(bsc)