Anlasslose Massenüberwachung: Warum mathematische Gesetze dagegen sprechen

Seite 2: Folgen einer Überwachungsinfrastruktur

Inhaltsverzeichnis

Welchen Flurschaden ein System mit einer vermeintlich akzeptablen Fehlerquote anrichten kann, hat auch Gerd Gigerenzer am Beispiel der kontrovers diskutierten EU-weiten Chatkontrolle durchgerechnet. Ein entsprechender Gesetzentwurf sieht vor, dass künftig die gesamte Kommunikation clientseitig auf CSAM-Inhalte und Grooming, also der gezielten Kontaktaufnahme mit pädokrimineller Absicht, gescannt wird. Dafür kämpft nicht nur EU-Kommissarin Ylva Johansson, sondern im Hintergrund auch ein ganzes Heer aus Lobbyisten der US-amerikanischen Überwachungsindustrie. Ein solches Gesetz hätte zur Folge, dass die Ende-zu-Ende-Verschlüsselung faktisch zerstört wird, eine Überwachungsinfrastruktur entstünde und das System am Ende sogar Kinder und Jugendliche gefährden könnte, die untereinander intime Fotos austauschen.

Gigerenzers exemplarische Rechnung gründet auf folgenden Annahmen: Allein auf WhatsApp und allein in Deutschland werden pro Tag rund 3 Milliarden Nachrichten verschickt. Wir haben diese Grundgesamtheit für unsere Kalkulationen auf 2 Milliarden korrigiert, um die absoluten Zahlen besser zu veranschaulichen. Wenn sich hinter nur 0,0001 Prozent, also einer von einer Million Nachrichten, CSAM oder Grooming verbirgt, wären es insgesamt 2000 Nachrichten pro Tag. Bei einer eher unrealistisch hohen Trefferquote von 99,9 Prozent würde das System davon 1998 Nachrichten entdecken. Allerdings würde es auch von den legalen Fotos und Videos fast 2 Millionen fälschlicherweise als missbräuchlich einstufen. Übrigens: Auch wenn man einen deutlich höheren CSAM/Grooming-Anteil (etwa eine von tausend Nachrichten) zugrunde legt, bleibt das eklatante Missverhältnis aus Falsch-Positiven und Echt-Positiven bestehen.

Die Dimensionen und Verhältnisse sind nur schwer vorstell- und darstellbar, deshalb zum Vergleich: Steckt man jede WhatsApp-Nachricht in ein Standardbriefkuvert mit rund 20 Zentimetern Breite, dann ergeben die zwei Milliarden Nachrichten aneinandergereiht eine Strecke von 400.000 Kilometern. Das entspricht ungefähr der Entfernung von Erde und Mond. Die Kette der falsch-positiven Kuverts wird immerhin knapp 400 Kilometer lang und schafft es damit ebenfalls weit ins All, nämlich bis zur Umlaufbahn der internationalen Raumstation ISS. Die Richtig-Positiven bringen es hingegen nur auf 399 Meter, was ungefähr dem Weg zum nächstgelegenen Bäcker entspricht. Oder wenn man bei der Höhe bleiben möchte: Die Briefkette würde bis zur Spitze eines Mittelklasse-Wolkenkratzers reichen, nämlich des in der Liste der höchsten Gebäude auf Rang 42 gelisteten Guiyang International Financial Center T1.

Die als CSAM klassifizierten Bilder sollen einem 2022 bekannt gewordenen internen Bericht der EU-Kommission zufolge anschließend von Menschen überprüft und händisch aussortiert werden. Die Genauigkeit der aktuellen Grooming-Erkennungstechnik beträgt laut diesem Bericht lediglich 90 Prozent. Nur 9 von 10 gemeldeten Nachrichten enthalten also tatsächlich Versuche von Pädokriminellen, sich das Vertrauen von Kindern zu erschleichen. Bei der Erkennung unbekannter Missbrauchsbilder geht die EU-Kommission von "über 90 Prozent Genauigkeit und 99 Prozent Präzision" aus, wie aus der Folgenabschätzung zum Verordnungsentwurf hervorgeht.

In der Realität dürften die jeweiligen Fehlerquoten allerdings deutlich höher liegen, denn die Zahlen beruhen auf Herstellerangaben. Die Anbieter haben gegenüber der EU-Kommission nicht offengelegt, mit welchen Daten sie ihre Systeme getestet haben. Deshalb lässt sich auch nicht abschätzen, wie gut die Technik unter realistischen Bedingungen arbeitet.

Selbst bei einem deutlich besseren System mit einer Trefferquote von 99,999 Prozent würden auf jede korrekt erkannte unangemessene Nachricht zehn Falsch-Positive kommen. Es führt also kein Weg daran vorbei, die Falsch-Positiv-Rate erheblich zu senken. Um dies zu erreichen, müsste man das System aber so justieren, dass es den Großteil der Missbrauchsbilder durchwinkt. Damit würde es seinen Zweck nicht mehr erfüllen.

Diesen statistischen Gesetzmäßigkeiten unterliegen viele Massenscreenings, die Krankheiten, Seuchen oder andere seltene Ereignisse verhindern sollen, etwa: Krebs in einem möglichst frühen Stadium erkennen, Corona-Erkrankte in Quarantäne schicken, bevor sie eine Epidemie auslösen, oder eben gesuchte Verbrecher per Echtzeitvideoerkennung am Berliner Hauptbahnhof herausfischen. Bei all diesen Szenarien kann das oben beschriebene statistische Phänomen zuschlagen: sehr viel Aufwand, wenige Treffer, erheblicher potenzieller Schaden durch Fehldiagnosen.

In der Medizin löst man das Dilemma dadurch, dass man nicht alle Menschen von 0 bis 99 zum Screening schickt, sondern nur diejenige Bevölkerungsgruppe, in der die Krankheit mit relativ hoher Wahrscheinlichkeit auftritt. Zur Darm- und Brustkrebsvorsorge werden zum Beispiel erst Menschen ab 50 geladen. Man berücksichtigt also die Prävalenz, das Auftreten des Phänomens in unterschiedlichen Gruppen der Gesamtpopulation. Dadurch fällt die Nutzen-Schaden-Rechnung deutlich günstiger aus, sodass pro gerettetem Leben deutlich weniger Gesunde gefährdet werden, etwa durch Strahlenbelastung oder weitere (invasive) Untersuchungen.

Wenn Bild- oder andere Detektoren in Massenscreenings zum Einsatz kommen, um selten auftretende Probleme zu erkennen, tut sich ein statistisches Dilemma auf. Selbst bei sehr hoher Genauigkeit (Accuarcy) des im Text beschriebenen exemplarischen CSAM- und Grooming-Scanners kommt es zu überproportional vielen Falsch-Positiven (links). Also stellt man das System weniger scharf, sodass es zum Beispiel nur 80 Prozent unbekannter missbräuchlicher Chat-Nachrichten erkennt (Mitte). Pro erkanntem CSAM würden dann aber immer noch über 200 Falschmeldungen eingehen. Auch bei einer inakzeptabel niedrigen Erkennungsquote von nur 40 Prozent kämen 75 Falsch-Positive auf eine korrekt identiizierte Nachricht (rechts).