Anlasslose Massenüberwachung: Warum mathematische Gesetze dagegen sprechen

Der AI Act öffnet eine Hintertüre für biometrische Massenüberwachung. Das ist unangemessen riskant, warnen Experten. Sie fordern gesunden Statistikverstand.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen
, Collage c’t

(Bild: Collage c’t)

Lesezeit: 12 Min.
Inhaltsverzeichnis

Wie groß darf die Fehlerquote einer Gesichtserkennung maximal sein, damit biometrische Massenüberwachung keinen unverhältnismäßig hohen Schaden anrichtet? 1 Prozent? 0,1 Prozent? 0,01 Prozent? Wie viele Fehler darf sich ein sogenannter CSAM-Scanner (Child Sexual Abuse Material) erlauben, der die gesamte Kommunikation jedes EU-Bürgers daraufhin analysiert, ob sie Darstellungen von sexualisierter Gewalt gegen Kinder enthält? Diese und ähnliche Fragen stellen Abgeordnete und Mitglieder von Ausschüssen, die in Brüssel, Berlin und anderen Hauptstädten über die Einführung solch flächendeckender Überwachungsmethoden entscheiden.

Doch es sind die falschen Fragen, mahnen Experten wie Gerd Gigerenzer, Direktor des Harding-Zentrums für Risikokompetenz an der Universität Potsdam und die Politikwissenschaftlerin Vera Wilde vom Hertie School Centre for Digital Governance. Selbst eine verschwindend gering wirkende Fehlerquote von 0,001 Prozent – also eine als nahe hundert Prozent wahrgenommene Trefferquote von 99,999 Prozent – kann einen verheerenden Schaden in der Gesellschaft anrichten. De facto liegt die Trefferquote aber deutlich darunter, insbesondere wenn sich die Technik im echten Leben, also auf Bahnhöfen oder anderen öffentlichen Plätzen, beweisen muss. Die Trilogverhandlungen zum AI Act haben die ursprünglich geplanten faktischen Verbote von Echtzeitüberwachung und Emotionserkennung gehörig aufgeweicht. Damit ist Massenüberwachung durch die Hintertür möglich. Im Folgenden zeigen wir auf, warum mathematisch-statistische Gesetzmäßigkeiten gegen diese Praxis sprechen.

Mehr zum Thema Künstliche Intelligenz (KI)

Hinter Bild- und insbesondere Gesichtserkennung steckt mittlerweile fast immer ein tiefes neuronales Netz. Das heißt: Diese Systeme wurden mithilfe von Beispielfotos darauf trainiert, Menschen oder andere Objekte zu identifizieren. Das Training wird gesteuert von einer Optimierungsfunktion, die die Fehlerquote des Systems minimiert. Sie bewirkt, dass sich die Parameter nach jedem Trainingsdatensatz so verändern, dass der Prognosefehler im Laufe der Zeit immer geringer wird, bis das System sich nicht mehr weiter verbessern kann. Am Ende hat sich das zuvor recht unspezifische neuronale Netz zu einem System entwickelt, das die charakteristischen Merkmale aus Fotos extrahiert, um etwa Gesichter voneinander zu unterscheiden.

c't kompakt
  • Die Trilogverhandlungen zum AI Act haben die ursprünglich geplanten faktischen Verbote von Echtzeitüberwachung und Emotionserkennung gehörig aufgeweicht.
  • Solche Massenscreenings auf seltene Probleme können verheerende Folgen für die Gesellschaft haben.
  • Das liegt an der unangemessen hohen Falsch-Positiv-Rate solcher Systeme. Reparieren lässt sich dies aufgrund statistischer und mathematischer Gesetzmäßigkeiten kaum.

Doch egal, wie gut die Gesichtserkennung wird und wie komplex die Abläufe im Inneren sind: Bei der vermeintlichen Erkennung handelt sich immer nur um eine Prognose, also um einen Wahrscheinlichkeitswert. Speist man zum Beispiel ein Foto aus einer Überwachungskamera in das System ein und gleicht dieses mit der Terroristendatenbank ab, so wird es die charakteristischen biometrischen Merkmale extrahieren und mit denen der gespeicherten Terroristenfotos vergleichen. Das Ergebnis ist eine Rangliste: Mit 90 Prozent Sicherheit handelt sich um Person 5, mit 60 Prozent um Person 10 und die Übereinstimmung mit Person 25 beträgt nur 0,8 Prozent. Das System würde sich also für Person 5 entscheiden, kann damit aber auch danebenliegen. Ist die Übereinstimmung mit keinem bekannten Terroristen hoch genug (zum Beispiel nur maximal 45 Prozent), wird das neuronale Netz wohl die Kategorie "kein Terrorist" vorschlagen. Auch diese Einschätzung kann falsch sein, etwa wenn sich die Person mit einer Brille, einem dichten Bart und einem Käppi tarnt.

Es gibt also immer eine Fehlerquote, die sich aus zwei Arten von Fehlern zusammensetzt: den Falsch-Positiven ("Terrorist", obwohl es keiner ist) und den Falsch-Negativen ("kein Terrorist", obwohl es einer ist). Auch wenn es darum geht, unbekannte CSAM-Inhalte aus der Kommunikation herauszufischen, gibt es erheblichen Interpretationsspielraum und damit diverse Fehlerquellen. Beispielsweise muss die KI das Alter der abgebildeten Personen einschätzen und erkennen, ob eine strafbare Handlung vorliegt. Auch solche Systeme haben naturgemäß eine Gesamtfehlerquote, die sich aus Falsch-Positiven und Falsch-Negativen zusammensetzt. In der Praxis müssen die Betreiber aber immer für den jeweiligen Verwendungszweck eine möglichst gute Balance finden. Stellt etwa eine Bank ihren Scanner zur Betrugserkennung extrem scharf, um möglichst jeden Betrugsversuch aufzudecken, wird es unzumutbar viele Fehlalarme geben, sprich: Zu viele Überweisungen oder Abhebungen werden unterbunden, zu viele Kunden verärgert. Ein zu scharf geschalteter CSAM- oder Grooming-Scanner wiederum würde unzumutbar viele legale Darstellungen melden, bei denen er das Alter und/oder die Handlung nur schwer einschätzen kann. Man müsste ihn also, ähnlich wie die Betrugserkennung, so austarieren, dass die Falsch-Positiv-Quote auf ein vertretbares Niveau sinkt. Doch das ist ein Problem.

Sowohl bei der Fahndung nach Terroristen als auch bei der Suche nach Missbrauchsbildern tut sich ein statistisch bedingtes Dilemma auf: Der Anteil der Terroristen an der Gesamtbevölkerung ist verschwindend gering. Ebenso ist der Anteil an Missbrauchsbildern gemessen an der riesigen Menge hin- und hergeschickter Fotos und Videos extrem klein. Wenn nun die Falsch-Positiv-Fehlerquote des Detektors genauso hoch ist wie die Falsch-Negativ-Quote, geraten für jeden korrekt erkannten Terroristen unbescholtene Bürger ins Visier der Fahnder.

Weil ein solcher Verdacht erhebliche Konsequenzen nach sich ziehen kann und Ermittler nicht täglich tausende Meldungen auf Korrektheit überprüfen können, muss man die Prognoseautomaten so austarieren, dass sie möglichst wenige Falsch-Positive liefern. Allerdings geht dies zulasten des eigentlichen Ziels: Dadurch fallen auch mehr tatsächlich Kriminelle durchs Raster. Denn die Gesamtfehlerrate bleibt gleich: Weniger Falsch-Positiv-Fehler bedingen eine höhere Falsch-Negativ-Quote.

"Wir können nicht jeden vor allem schützen", resümiert die Politikwissenschaftlerin Dr. Vera Wilde in ihrem Aufsatz "Rock, Paper, Statistics: Mass screening for rare problems endangers society". Darin versucht sie, das Bewusstsein für die mathematischen Gesetze zu schärfen, die das Massenscreening bei solch ungleich verteilten Gruppen ad absurdum führen.

Zusätzlich zu dem oben beschriebenen Problem der Seltenheit eines Ereignisses – also der Zugehörigkeit zu einer extrem kleinen Gruppe – nennt Wilde zwei weitere Bedingungen, unter denen solche Systeme versagen: Erstens, wenn das Verifizieren der Ergebnisse mit beträchtlichen Kosten und Risiken verbunden ist. Dann würde für einen Großteil der betroffenen Personen der resultierende Schaden den Nutzen überwiegen. Und zweitens, wenn sich die Ergebnisse mit wissenschaftlichen Tests gar nicht prüfen lassen. Dann besteht die anfängliche Unsicherheit weiter.

Das Online-Tool „Medical Test Calculator“ lädt zum Experimentieren ein und vermittelt ein Gefühl für den Zusammenhang zwischen falsch-positiven und falsch-negativen Ergebnissen statistischer Modelle.