Anlasslose Massenüberwachung: Warum mathematische Gesetze dagegen sprechen

Der AI Act öffnet eine Hintertüre für biometrische Massenüberwachung. Das ist unangemessen riskant, warnen Experten. Sie fordern gesunden Statistikverstand.

33

(Bild: Collage c’t)

01.03.2024, 14:00 Uhr

Lesezeit: 12 Min.

c't Magazin

Von

Andrea Trinkwalder

Wie groß darf die Fehlerquote einer Gesichtserkennung maximal sein, damit biometrische Massenüberwachung keinen unverhältnismäßig hohen Schaden anrichtet? 1 Prozent? 0,1 Prozent? 0,01 Prozent? Wie viele Fehler darf sich ein sogenannter CSAM-Scanner (Child Sexual Abuse Material) erlauben, der die gesamte Kommunikation jedes EU-Bürgers daraufhin analysiert, ob sie Darstellungen von sexualisierter Gewalt gegen Kinder enthält? Diese und ähnliche Fragen stellen Abgeordnete und Mitglieder von Ausschüssen, die in Brüssel, Berlin und anderen Hauptstädten über die Einführung solch flächendeckender Überwachungsmethoden entscheiden.

Doch es sind die falschen Fragen, mahnen Experten wie Gerd Gigerenzer, Direktor des Harding-Zentrums für Risikokompetenz an der Universität Potsdam und die Politikwissenschaftlerin Vera Wilde vom Hertie School Centre for Digital Governance. Selbst eine verschwindend gering wirkende Fehlerquote von 0,001 Prozent – also eine als nahe hundert Prozent wahrgenommene Trefferquote von 99,999 Prozent – kann einen verheerenden Schaden in der Gesellschaft anrichten. De facto liegt die Trefferquote aber deutlich darunter, insbesondere wenn sich die Technik im echten Leben, also auf Bahnhöfen oder anderen öffentlichen Plätzen, beweisen muss. Die Trilogverhandlungen zum AI Act haben die ursprünglich geplanten faktischen Verbote von Echtzeitüberwachung und Emotionserkennung gehörig aufgeweicht. Damit ist Massenüberwachung durch die Hintertür möglich. Im Folgenden zeigen wir auf, warum mathematisch-statistische Gesetzmäßigkeiten gegen diese Praxis sprechen.

Hinter Bild- und insbesondere Gesichtserkennung steckt mittlerweile fast immer ein tiefes neuronales Netz. Das heißt: Diese Systeme wurden mithilfe von Beispielfotos darauf trainiert, Menschen oder andere Objekte zu identifizieren. Das Training wird gesteuert von einer Optimierungsfunktion, die die Fehlerquote des Systems minimiert. Sie bewirkt, dass sich die Parameter nach jedem Trainingsdatensatz so verändern, dass der Prognosefehler im Laufe der Zeit immer geringer wird, bis das System sich nicht mehr weiter verbessern kann. Am Ende hat sich das zuvor recht unspezifische neuronale Netz zu einem System entwickelt, das die charakteristischen Merkmale aus Fotos extrahiert, um etwa Gesichter voneinander zu unterscheiden.

Die Trilogverhandlungen zum AI Act haben die ursprünglich geplanten faktischen Verbote von Echtzeitüberwachung und Emotionserkennung gehörig aufgeweicht.
Solche Massenscreenings auf seltene Probleme können verheerende Folgen für die Gesellschaft haben.
Das liegt an der unangemessen hohen Falsch-Positiv-Rate solcher Systeme. Reparieren lässt sich dies aufgrund statistischer und mathematischer Gesetzmäßigkeiten kaum.

Doch egal, wie gut die Gesichtserkennung wird und wie komplex die Abläufe im Inneren sind: Bei der vermeintlichen Erkennung handelt sich immer nur um eine Prognose, also um einen Wahrscheinlichkeitswert. Speist man zum Beispiel ein Foto aus einer Überwachungskamera in das System ein und gleicht dieses mit der Terroristendatenbank ab, so wird es die charakteristischen biometrischen Merkmale extrahieren und mit denen der gespeicherten Terroristenfotos vergleichen. Das Ergebnis ist eine Rangliste: Mit 90 Prozent Sicherheit handelt sich um Person 5, mit 60 Prozent um Person 10 und die Übereinstimmung mit Person 25 beträgt nur 0,8 Prozent. Das System würde sich also für Person 5 entscheiden, kann damit aber auch danebenliegen. Ist die Übereinstimmung mit keinem bekannten Terroristen hoch genug (zum Beispiel nur maximal 45 Prozent), wird das neuronale Netz wohl die Kategorie "kein Terrorist" vorschlagen. Auch diese Einschätzung kann falsch sein, etwa wenn sich die Person mit einer Brille, einem dichten Bart und einem Käppi tarnt.

Videos by heise

Geringe Fehlerquote, riesige Zahlen

Es gibt also immer eine Fehlerquote, die sich aus zwei Arten von Fehlern zusammensetzt: den Falsch-Positiven ("Terrorist", obwohl es keiner ist) und den Falsch-Negativen ("kein Terrorist", obwohl es einer ist). Auch wenn es darum geht, unbekannte CSAM-Inhalte aus der Kommunikation herauszufischen, gibt es erheblichen Interpretationsspielraum und damit diverse Fehlerquellen. Beispielsweise muss die KI das Alter der abgebildeten Personen einschätzen und erkennen, ob eine strafbare Handlung vorliegt. Auch solche Systeme haben naturgemäß eine Gesamtfehlerquote, die sich aus Falsch-Positiven und Falsch-Negativen zusammensetzt. In der Praxis müssen die Betreiber aber immer für den jeweiligen Verwendungszweck eine möglichst gute Balance finden. Stellt etwa eine Bank ihren Scanner zur Betrugserkennung extrem scharf, um möglichst jeden Betrugsversuch aufzudecken, wird es unzumutbar viele Fehlalarme geben, sprich: Zu viele Überweisungen oder Abhebungen werden unterbunden, zu viele Kunden verärgert. Ein zu scharf geschalteter CSAM- oder Grooming-Scanner wiederum würde unzumutbar viele legale Darstellungen melden, bei denen er das Alter und/oder die Handlung nur schwer einschätzen kann. Man müsste ihn also, ähnlich wie die Betrugserkennung, so austarieren, dass die Falsch-Positiv-Quote auf ein vertretbares Niveau sinkt. Doch das ist ein Problem.

Sowohl bei der Fahndung nach Terroristen als auch bei der Suche nach Missbrauchsbildern tut sich ein statistisch bedingtes Dilemma auf: Der Anteil der Terroristen an der Gesamtbevölkerung ist verschwindend gering. Ebenso ist der Anteil an Missbrauchsbildern gemessen an der riesigen Menge hin- und hergeschickter Fotos und Videos extrem klein. Wenn nun die Falsch-Positiv-Fehlerquote des Detektors genauso hoch ist wie die Falsch-Negativ-Quote, geraten für jeden korrekt erkannten Terroristen unbescholtene Bürger ins Visier der Fahnder.

Weil ein solcher Verdacht erhebliche Konsequenzen nach sich ziehen kann und Ermittler nicht täglich tausende Meldungen auf Korrektheit überprüfen können, muss man die Prognoseautomaten so austarieren, dass sie möglichst wenige Falsch-Positive liefern. Allerdings geht dies zulasten des eigentlichen Ziels: Dadurch fallen auch mehr tatsächlich Kriminelle durchs Raster. Denn die Gesamtfehlerrate bleibt gleich: Weniger Falsch-Positiv-Fehler bedingen eine höhere Falsch-Negativ-Quote.

"Wir können nicht jeden vor allem schützen", resümiert die Politikwissenschaftlerin Dr. Vera Wilde in ihrem Aufsatz "Rock, Paper, Statistics: Mass screening for rare problems endangers society". Darin versucht sie, das Bewusstsein für die mathematischen Gesetze zu schärfen, die das Massenscreening bei solch ungleich verteilten Gruppen ad absurdum führen.

Zusätzlich zu dem oben beschriebenen Problem der Seltenheit eines Ereignisses – also der Zugehörigkeit zu einer extrem kleinen Gruppe – nennt Wilde zwei weitere Bedingungen, unter denen solche Systeme versagen: Erstens, wenn das Verifizieren der Ergebnisse mit beträchtlichen Kosten und Risiken verbunden ist. Dann würde für einen Großteil der betroffenen Personen der resultierende Schaden den Nutzen überwiegen. Und zweitens, wenn sich die Ergebnisse mit wissenschaftlichen Tests gar nicht prüfen lassen. Dann besteht die anfängliche Unsicherheit weiter.

Wenn maschinell trainierte Erkennungsalgorithmen sehr selten auftretende Probleme (etwa Krankheiten, Terroristen oder CSAM-Bilder) erkennen sollen, produzieren sie unverhältnismäßig viele Fehltreffer. Das Online-Tool "Medical Test Calculator" (siehe ct.de/y74g) lädt zum Experimentieren ein und visualisiert die Zusammenhänge., — Das Online-Tool „Medical Test Calculator“ lädt zum Experimentieren ein und vermittelt ein Gefühl für den Zusammenhang zwischen falsch-positiven und falsch-negativen Ergebnissen statistischer Modelle.

Folgen einer Überwachungsinfrastruktur

Verheerende Chatkontrolle

Welchen Flurschaden ein System mit einer vermeintlich akzeptablen Fehlerquote anrichten kann, hat auch Gerd Gigerenzer am Beispiel der kontrovers diskutierten EU-weiten Chatkontrolle durchgerechnet. Ein entsprechender Gesetzentwurf sieht vor, dass künftig die gesamte Kommunikation clientseitig auf CSAM-Inhalte und Grooming, also der gezielten Kontaktaufnahme mit pädokrimineller Absicht, gescannt wird. Dafür kämpft nicht nur EU-Kommissarin Ylva Johansson, sondern im Hintergrund auch ein ganzes Heer aus Lobbyisten der US-amerikanischen Überwachungsindustrie. Ein solches Gesetz hätte zur Folge, dass die Ende-zu-Ende-Verschlüsselung faktisch zerstört wird, eine Überwachungsinfrastruktur entstünde und das System am Ende sogar Kinder und Jugendliche gefährden könnte, die untereinander intime Fotos austauschen.

Gigerenzers exemplarische Rechnung gründet auf folgenden Annahmen: Allein auf WhatsApp und allein in Deutschland werden pro Tag rund 3 Milliarden Nachrichten verschickt. Wir haben diese Grundgesamtheit für unsere Kalkulationen auf 2 Milliarden korrigiert, um die absoluten Zahlen besser zu veranschaulichen. Wenn sich hinter nur 0,0001 Prozent, also einer von einer Million Nachrichten, CSAM oder Grooming verbirgt, wären es insgesamt 2000 Nachrichten pro Tag. Bei einer eher unrealistisch hohen Trefferquote von 99,9 Prozent würde das System davon 1998 Nachrichten entdecken. Allerdings würde es auch von den legalen Fotos und Videos fast 2 Millionen fälschlicherweise als missbräuchlich einstufen. Übrigens: Auch wenn man einen deutlich höheren CSAM/Grooming-Anteil (etwa eine von tausend Nachrichten) zugrunde legt, bleibt das eklatante Missverhältnis aus Falsch-Positiven und Echt-Positiven bestehen.

Die Dimensionen und Verhältnisse sind nur schwer vorstell- und darstellbar, deshalb zum Vergleich: Steckt man jede WhatsApp-Nachricht in ein Standardbriefkuvert mit rund 20 Zentimetern Breite, dann ergeben die zwei Milliarden Nachrichten aneinandergereiht eine Strecke von 400.000 Kilometern. Das entspricht ungefähr der Entfernung von Erde und Mond. Die Kette der falsch-positiven Kuverts wird immerhin knapp 400 Kilometer lang und schafft es damit ebenfalls weit ins All, nämlich bis zur Umlaufbahn der internationalen Raumstation ISS. Die Richtig-Positiven bringen es hingegen nur auf 399 Meter, was ungefähr dem Weg zum nächstgelegenen Bäcker entspricht. Oder wenn man bei der Höhe bleiben möchte: Die Briefkette würde bis zur Spitze eines Mittelklasse-Wolkenkratzers reichen, nämlich des in der Liste der höchsten Gebäude auf Rang 42 gelisteten Guiyang International Financial Center T1.

Die als CSAM klassifizierten Bilder sollen einem 2022 bekannt gewordenen internen Bericht der EU-Kommission zufolge anschließend von Menschen überprüft und händisch aussortiert werden. Die Genauigkeit der aktuellen Grooming-Erkennungstechnik beträgt laut diesem Bericht lediglich 90 Prozent. Nur 9 von 10 gemeldeten Nachrichten enthalten also tatsächlich Versuche von Pädokriminellen, sich das Vertrauen von Kindern zu erschleichen. Bei der Erkennung unbekannter Missbrauchsbilder geht die EU-Kommission von "über 90 Prozent Genauigkeit und 99 Prozent Präzision" aus, wie aus der Folgenabschätzung zum Verordnungsentwurf hervorgeht.

In der Realität dürften die jeweiligen Fehlerquoten allerdings deutlich höher liegen, denn die Zahlen beruhen auf Herstellerangaben. Die Anbieter haben gegenüber der EU-Kommission nicht offengelegt, mit welchen Daten sie ihre Systeme getestet haben. Deshalb lässt sich auch nicht abschätzen, wie gut die Technik unter realistischen Bedingungen arbeitet.

Die im Rechenbeispiel zur Chatkontrolle genannten Zahlen werden nach diesem Vorbild umgesetzt. Die Grafik benötigt vermutlich relativ viel Platz (ca. 1/2 Seite), wird am Freitag umgesetzt.,

Statistisches Dilemma

Selbst bei einem deutlich besseren System mit einer Trefferquote von 99,999 Prozent würden auf jede korrekt erkannte unangemessene Nachricht zehn Falsch-Positive kommen. Es führt also kein Weg daran vorbei, die Falsch-Positiv-Rate erheblich zu senken. Um dies zu erreichen, müsste man das System aber so justieren, dass es den Großteil der Missbrauchsbilder durchwinkt. Damit würde es seinen Zweck nicht mehr erfüllen.

Diesen statistischen Gesetzmäßigkeiten unterliegen viele Massenscreenings, die Krankheiten, Seuchen oder andere seltene Ereignisse verhindern sollen, etwa: Krebs in einem möglichst frühen Stadium erkennen, Corona-Erkrankte in Quarantäne schicken, bevor sie eine Epidemie auslösen, oder eben gesuchte Verbrecher per Echtzeitvideoerkennung am Berliner Hauptbahnhof herausfischen. Bei all diesen Szenarien kann das oben beschriebene statistische Phänomen zuschlagen: sehr viel Aufwand, wenige Treffer, erheblicher potenzieller Schaden durch Fehldiagnosen.

In der Medizin löst man das Dilemma dadurch, dass man nicht alle Menschen von 0 bis 99 zum Screening schickt, sondern nur diejenige Bevölkerungsgruppe, in der die Krankheit mit relativ hoher Wahrscheinlichkeit auftritt. Zur Darm- und Brustkrebsvorsorge werden zum Beispiel erst Menschen ab 50 geladen. Man berücksichtigt also die Prävalenz, das Auftreten des Phänomens in unterschiedlichen Gruppen der Gesamtpopulation. Dadurch fällt die Nutzen-Schaden-Rechnung deutlich günstiger aus, sodass pro gerettetem Leben deutlich weniger Gesunde gefährdet werden, etwa durch Strahlenbelastung oder weitere (invasive) Untersuchungen.

Wenn Bild- oder andere Detektoren in Massenscreenings zum Einsatz kommen, um selten auftretende Probleme zu erkennen, tut sich ein statistisches Dilemma auf. Selbst bei sehr hoher Genauigkeit (Accuarcy) des im Text beschriebenen exemplarischen CSAM- und Grooming-Scanners kommt es zu überproportional vielen Falsch-Positiven (links). Also stellt man das System weniger scharf, sodass es zum Beispiel nur 80 Prozent unbekannter missbräuchlicher Chat-Nachrichten erkennt (Mitte). Pro erkanntem CSAM würden dann aber immer noch über 200 Falschmeldungen eingehen. Auch bei einer inakzeptabel niedrigen Erkennungsquote von nur 40 Prozent kämen 75 Falsch-Positive auf eine korrekt identiizierte Nachricht (rechts).

Fazit

Es ist verlockend: Man installiert ein paar Screening-Tools, die Verbrecher und lebensbedrohliche Krankheiten erkennen, bevor sie Schaden anrichten, und fortan hat die Gesellschaft ein paar Probleme weniger. In vielen Fällen ist das ein unrealistischer Traum, wie es Vera Wilde in ihrem Aufsatz auf den Punkt bringt: "Technology can’t escape maths" (Die Technik kann den mathematischen Gesetzmäßigkeiten nicht entkommen). Viele Hersteller wissen das, wenn ähnlich wie im Krieg lapidar von Kollateralschäden die Rede ist, wenn Hunderte bis Tausende beim Versuch sterben, ein "strategisches Ziel" zu zerstören, so werden auch die verheerenden Auswirkungen der Massenüberwachung kleingeredet: Meist nennen Hersteller und Befürworter von Überwachungssoftware nur eine allgemeine Erkennungsquote (Accuracy) und differenzieren nicht zwischen Falsch-Positiven und Falsch-Negativen. Absolute Zahlen veröffentlichen sie ohnehin nicht, die wären ja beunruhigend hoch. Stattdessen operieren sie mit akzeptabel wirkenden, nicht nachprüfbaren Zahlen, die das wahre Ausmaß des Flurschadens, den ihre Systeme anrichten, verschleiern.

Risikomanagement-Experten wie Gerd Gigerenzer und Vera Wilde fordern deshalb, dass der Gesetzgeber strenge Anforderungen für Massenscreenings auf seltene Probleme definiert: Hersteller müssten vor der Implementierung nachweisen können, dass die Technik mehr Nutzen als Schaden anrichtet und unabhängige Experten sollten Kosten, Nutzen sowie Risiken der Systeme evaluieren. Außerdem müssten alle relevanten Daten veröffentlicht werden, nebst Angaben, wie sie analysiert und interpretiert wurden.

Leider wurden Regularien im AI Act, die genau in diese Richtung zielten, während der jüngst abgeschlossenen Trilogverhandlungen aufgeweicht: Nun steht doch eine Hintertüre für solch fragwürdige Techniken offen.

(atr)