Apples Fotoanalyse gegen Kindesmissbrauch

Apple will iPhones nach Fotos von Kindesmissbrauch durchsuchen – trotz der Bedenken zahlreicher Kritiker. Ein Blick auf die Problemlage und Apples Scan-System.

1

(Bild: Joseph GTK/Shutterstock.com)

27.08.2021, 06:00 Uhr

Lesezeit: 7 Min.

c't Magazin

Von

Manche Medienschaffende hielten es zunächst für eine erfundene Meldung, was Apple bald selbst zur allgemeinen Verwunderung bestätigte: Mit dem kommenden iOS 15 und iPadOS 15 liefert die Firma Funktionen für iPhones und iPads aus, die die Geräte vor dem Upload von Fotos in Apples Cloud auf kindesmissbräuchliche Motive untersuchen. Dafür hat Apple einen Algorithmus implementiert, der auf den Geräten gespeicherte Bilder mit einer Datenbank des US-amerikanischen National Center for Missing and Exploited Children (NCMEC) vergleicht. Zudem soll bei iMessage-Chats eine KI Minderjährige vor nicht jugendfreien Inhalten schützen, indem sie Fotos vor Versand und Empfang prüft und gegebenenfalls unkenntlich macht sowie die Eltern informiert.

Das NCMEC will helfen, Kinder vor sexueller Misshandlung zu schützen. Dafür soll auch die Verbreitung von Missbrauchsfotos erschwert werden. Findet Apples Algorithmus eine gewisse Anzahl der bekannten Fotos, alarmiert er stillschweigend den Konzern, woraufhin einer seiner Mitarbeiter die verdächtigen Dateien prüft. Bewertet dieser die gemeldeten Bilder als harmlos, soll laut Apple nichts geschehen. Hält der Mitarbeiter die Fotos für "Child Sexual Abuse Material" (CSAM), informiert Apple das NCMEC, das nach eigenem Vergleich mit Originalbildern weitere Schritte unternehmen kann – bis hin zur Anzeige bei Behörden. Die neuen Kinderschutzfunktionen sollen zunächst in den USA eingeführt werden.

Datenschützern und Sicherheitsexperten bereitet Apples Plan heftige Kopfschmerzen: Aus ihrer Sicht stellen die Analysefunktionen Milliarden von Bürgern unter Massenüberwachung und greifen unverhältnismäßig in deren Privatsphäre ein. Außerdem baue Apple so eine Hintertür in sein System ein, die sich leicht missbrauchen lasse. Und wenn auf wenige Kriminelle viele Unschuldige kommen, produziert selbst ein System mit einer Genauigkeit von über 99 Prozent unverhältnismäßig viele falsch-positive Treffer, zum Beispiel Papa mit Kind in der Badewanne, Kind nackt tobend am Strand, Hoppe-Reiter-Spiele und Ähnliches.

Apple hält Kritikern entgegen, ein privatsphärewahrendes Verfahren entwickelt zu haben, das die Persönlichkeitsrechte seiner Kunden nicht verletze.

Spurensuche: Hash mich

Laut Apple läuft der Abgleich lokal auf den Geräten, die Fotos werden also nicht auf Apple-Servern verarbeitet. Außerdem durchkämmt der Algorithmus die lokale Bibliothek nicht laufend, sondern scannt nur Fotos vor der Synchronisierung mit der iCloud – das geschieht automatisch, sofern der Nutzer den iCloud-Abgleich nicht deaktiviert. Für den Vergleich speichert Apple eine Datenbank des NCMEC auf den Geräten. Sie enthält keine Missbrauchsbilder (deren Besitz ja strafbar ist), sondern algorithmisch erzeugte Hashes davon; die Zahlenwerte kann man sich wie Fingerabdrücke von Datensätzen vorstellen.

Eine solche Hash-Funktion muss einen sehr zuverlässigen Abgleich liefern und die damit erzeugten Hashes dürfen keine Rekonstruktion der Ursprungsbilder ermöglichen. Andernfalls würde Apple massenhaft strafbares Material auf iPhones und iPads verteilen. Die Firma hat dafür ein Verfahren namens NeuralHash entwickelt und dem NCMEC zur Verfügung gestellt. Die Berechnung der Hash-Werte erfolgt ausschließlich auf den Servern der US-Organisation.

Hash-Werte für den Fotovergleich zu generieren ist deutlich anspruchsvoller als etwa für Passwörter oder Benutzernamen. Ein eingegebenes Passwort ist nur dann korrekt, wenn es mit dem gespeicherten komplett übereinstimmt. Daher sind auch die Hash-Funktionen zum Passwortabgleich relativ einfach. Bei Fotos greifen solche Hash-Funktionen aber zu kurz, weil schon minimale Änderungen wie eine Tonwertkorrektur oder Neukomprimierung zu anderen Hash-Werten führen. NeuralHash erzeugt daher Fingerprints, die sich auf die Ähnlichkeit von visuellen Motiven beziehen. Es handelt sich also um einen perzeptiven Algorithmus, der die charakteristischen Merkmale der jeweiligen Motive miteinander vergleicht. NeuralHash lernt laut Apple anhand von Bildvergleichen eigenständig, welche Merkmale essenziell sind, um bekanntes Fotomaterial treffsicher zu identifizieren – und harmlose Familienfotos zu ignorieren.

Ein anderer Vertreter dieser Gattung ist PhotoDNA von Microsoft, den das NCMEC ebenfalls einsetzt. PhotoDNA ist nicht selbstlernend, sondern nutzt vordefinierte Merkmale.

Apples Fotoscanner schlägt ab etwa 30 verdächtigen Fotos Alarm. Die Schwelle hat zwei Funktionen: Sie soll die Anzahl der Fehlalarme reduzieren und verhindern, dass Nutzer mit wiederholten Tests die Funktionsweise des Algorithmus aufdecken. Die Wahrscheinlichkeit, dass ein Account fälschlich gemeldet wird, liegt laut Apple bei eins zu einer Billion.

Videos by heise

Statistische Beruhigungspille

Das klingt nach einem extrem unwahrscheinlichen Ereignis, so in der Kategorie von Jahrtausend-Unwettern, aber leider bleiben zu viele Fragen offen, um die Angabe einordnen zu können. Man erfährt zum Beispiel nicht, anhand welcher (unverfänglicher) Fotos NeuralHash das Unterscheiden gelernt hat und wie groß etwa die Falsch-Positiv-Rate für ein einzelnes Foto ausfällt. Und wie hoch war der Anteil potenziell verwechselbarer Fotos in der Trainings- und Testdatenbank? Besteht der Test etwa aus einem Sammelsurium von Tier-, Natur-, Food- und Landschaftsmotiven plus einer Handvoll Eltern-Kind-Fotos, ergibt sich eine deutlich niedrigere Fehlerrate, als wenn man ausschließlich mit schwer unterscheidbarem Content testet.

NeuralHash ist also eine Black-Box-Methode, die nicht von unabhängiger Seite auf bekannte Schwächen neuronaler Netze geprüft wurde. Offen bleibt damit auch die Frage, ob Reverse Engineering tatsächlich ausgeschlossen ist. Zumindest für Microsofts PhotoDNA konnte der Forscher Neal Krawetz zeigen, wie sich leicht unscharfe Graustufen-Abbilder in einer Auflösung von 26 × 26 Pixeln aus den Hashes des NCMEC rekonstruieren lassen.

Auch andere Forscher haben Angriffe auf perzeptive Hashes mittels KI-Bildgeneratoren dokumentiert (Generative Adversarial Neural Network, GAN). Und auf GitHub läuft längst eine Diskussion, ob einem Forscher gelungen ist, Apples NeuralHash für zwei verschiedene Bilder denselben Hash-Wert zu entlocken.

Verteilte Schlüssel

Um vertrauliche Fotos zu schützen und zu verhindern, dass Angreifer mit gezielten Abfragen Essenzielles über die Systematik der Kodierung lernen, speichert Apple die Hashes in einer verschlüsselten Datenbank; der Vorgang läuft auf Apples Servern ab und den Schlüssel hat nur Apple. Das Gerät sucht dann unter Einsatz des NeuralHash-Algorithmus nach Überschneidungen mit dem Inhalt der verschlüsselten Datenbank. Bei einem Treffer wird das Ergebnis mit einigen weiteren Merkmalen verschlüsselt (Cryptographic Safety Voucher). Das Voucher wird dem Bild beigefügt.

Solange die Trefferschwelle nicht erreicht ist, bleiben alle Fotos vertraulich. Ein spezieller Schlüssel wird allerdings allen verdächtigen Inhalten zugeordnet, etwa wie eine auf mehrere Orte verteilte Schatzkarte. Liegt der Schwellenwert bei 30, gewährt der dreißigste Treffer Apples Kontrolleuren Zugriff auf alle verdächtigen Fotos (Threshold Secret Sharing). Alle anderen Nutzerfotos in der iCloud bleiben laut Apple privat.

Heiligt der Zweck die Mittel?

Es ist das klassische Dilemma: Wer Verbrechen verhindern, Kinder schützen oder Todkranke heilen möchte, handelt in bester Absicht. Schöpft er alle denkbaren Mittel aus, kommt er am schnellsten zum Ziel. Dem sind aber Grenzen gesetzt. Schließlich sollen nicht Milliarden unbescholtener Bürger wie Kriminelle behandelt, 24/7 überwacht und mit allen Mitteln der Datenkunst durchleuchtet werden.

Apple platziert nun einen Black-Box-Mechanismus mit unklarer Arbeitsweise und Fehlerrate auf iPhones und iPads, der genau das tut: überwachen, mit möglicherweise schlimmen Folgen für Menschen, die unschuldig unter Verdacht geraten. Noch schwerer wiegt, dass die Methode bei Regierungen rund um die Welt Begehrlichkeiten geweckt haben dürfte.

In c’t 19/2021 bauen wir einen maßgeschneiderten Server, vergleichen 60 Prozessoren in unserem großen CPU-Ratgeber und widmen uns der anstehenden Bundestagswahl: Wie stehen die Parteien zu Datenschutz, Überwachung und digitaler Souveränität? Außerdem im Heft: Mit der Fritzbox günstig ins Ausland telefonieren, Hotspots mit OpenWRT verwalten und PDF-Tabellen in Excel importieren. Ausgabe 19/2021 finden Sie ab dem 27. August im Heise-Shop und am gut sortierten Zeitschriftenkiosk.

(dz)