Die Schutzbrille

24.05.2017 06:00 Uhr Dr. Wolfgang Stieler

Maschinelles Lernen hat die Fähigkeiten von Gesichtserkennungssoftware massiv verbessert. Aber Forscher haben bereits Methoden gefunden, um sie auszutricksen.

In Wuzhen braucht man keine Tickets mehr. Das malerische Museumsdorf 120 Kilometer südwestlich von Shanghai, das durchschnittlich rund 5000 Besucher pro Tag besichtigen, testet seit Mitte 2016 eine brandneue Gesichtserkennung des chinesischen Internetgiganten Baidu: Gäste, die in den zugehörigen Hotels einchecken, werden automatisch und diskret von Videokameras erfasst, die Baidu-Software errechnet aus den Bildern typische Merkmale des Gesichts, die von ähnlichen Systemen an den Eingängen der Sehenswürdigkeiten in Echtzeit erkannt werden. Anders als bei herkömmlichen biometrischen Zugangssystemen soll es hier keine umständliche Registrierung geben, keine Warteschlangen und keinen ernsten Blick in die Kamera.

Dieser Artikel stammt aus dem Februar-Heft von Technology Review. Weitere Themen der Ausgabe:

Das chinesische Beispiel zeigt: Gesichtserkennung ist erwachsen geworden. Nicht nur Baidu, auch seine westlichen Konkurrenten Facebook, Google und Microsoft investieren massiv in die Technik. Lagen die Erkennungsraten vor einigen Jahren noch um die 70 Prozent, ziehen die besten Systeme heute mit Menschen gleich oder überholen sie. Die US-Standardisierungsbehörde NIST etwa misst in regelmäßigen Abständen die Performance kommerzieller Gesichtserkennungssoftware.

In ihrem jüngsten, 2014 veröffentlichten Bericht konnte der beste Algorithmus von NEC ein Bild in rund 95 Prozent aller Tests dem Äquivalent in der Datenbank mit 1,6 Millionen Bildern zuordnen. Politiker wie der deutsche Innenminister Thomas de Maizière wollen die neuen technischen Möglichkeiten daher auch zur Bekämpfung von Kriminalität nutzen: "Die biometrische Auswertung etwa durch Gesichtserkennung muss entschieden vorangebracht werden", schrieb de Maizière Anfang Januar 2017 in einem Gastbeitrag für die "FAZ". "Eine Fahndung mit Gesichtserkennung, etwa nach einem flüchtigen Terroristen, ist ein wichtiges Instrument."

Doch so einfach ist es nicht. Als das NIST die Programme mit Bildern von Webcams fütterte, brach die Erkennungsrate drastisch ein. Konventionelle Gesichtserkennungssoftware bildet aus den einzelnen Elementen wie Augen, Mund, Nase oder der Form des Gesichts eine Art Fingerabdruck. Er hilft aber nichts mehr, wenn die äußeren Rahmenbedingungen wie Haltung, Gesichtsausdruck, Beleuchtung oder Blickwinkel vom gespeicherten Bild in der Datenbank abweichen. In der Praxis ist das gerade bei der Videoüberwachung meist der Fall.

Lesen Sie dazu auch:

Seit einigen Jahren versuchen Forscher daher, die Hürde mit maschinellem Lernen zu überspringen. Vor allem neuronale Netze kommen zum Einsatz. Die Systeme lernen an einer Vielzahl von Trainingsdaten selbst, welche Merkmale eines Gesichts wichtig sind, um Personen zu erkennen. Sichtbarstes Zeichen dieses Erfolgs war die 2014 von Yaniv Taigman und Kollegen von der Facebook-Forschungsabteilung vorgestellte Software "DeepFace" [9]. Das neuronale Netz erreichte bereits im ersten Anlauf eine Erkennungsrate von 97 Prozent.

Neueste Ergebnisse legen nahe, dass mittlerweile sogar Trefferquoten von mehr als 98 Prozent erreichbar sind. Im Juni 2016 meldeten die beteiligten Forscher stolz, dass sie nun auch mit Bildern aus der Datenbank "Labeled Faces in The Wild" nahe an menschliche Erkennungsraten herankämen. Die von Wissenschaftlern der University of Massachusetts Amherst angelegte Datenbank gilt als echter Prüfstein für praktische Anwendungen. Sie enthält 13000 Bilder von Männern und Frauen jeden Alters und jeder Herkunft, in verschiedensten Posen, mit unterschiedlichen Gesichtsausdrücken und variierender Beleuchtung.

Wie weit der Glaube an die analytische Kraft des maschinellen Lernens inzwischen reicht, zeigt eine aktuelle Arbeit von Xiaolin Wu und Xi Zhang von der Jiao Tong University in Shanghai. Die Informatiker haben ihrer Software beigebracht, Bilder von Kriminellen von Fotos gesetzestreuer Bürger zu unterscheiden. Die Forscher fütterten drei verschiedene lernfähige Systeme mit 1856 Passfotos von chinesischen Männern zwischen 18 und 55 Jahren. Die Hälfte davon waren verurteilte Straftäter. Ein neuronales Netz schnitt am besten ab: Es konnte mit 89,5 Prozent Treffsicherheit Kriminelle identifizieren. Entscheidend sei der Abstand der Augen voneinander, die Biegung der Oberlippe und der Winkel im Dreieck zwischen Nasenspitze und Mundwinkeln.

Stärken und Schwächen der neuronalen Netze

Das Paper, das zunächst nur auf dem Online-Portal Arxiv.org und noch nicht in einer wissenschaftlichen Zeitschrift veröffentlicht wurde, sorgt für kontroverse Diskussionen – unter anderem verweisen Wissenschaftler darauf, dass die Fotos der Kriminellen aus einer anderen Quelle stammen als die übrigen Bilder. Das neuronale Netz könnte also schlicht die unterschiedliche Herkunft der Bilder erkannt haben.

Das Beispiel zeigt, welche Gefahr in einem allzu großen Vertrauen in selbst lernende Systeme steckt. Denn ihre Stärke – Unterscheidungskriterien eigenständig zu ermitteln – ist zugleich ihre große Schwäche. Sie könnte sich sogar als ihre Achillesferse erweisen. 2014 wies der Google-Forscher Christian Szegedy erstmals darauf hin, dass tiefe neuronale Netze leicht durcheinanderzubringen sind, wenn man in Bildern an der richtigen Stelle einige Pixel verändert. Forscher am Institut von David Cox von der Harvard University programmierten daraufhin ein Online-Werkzeug, das jedes hochgeladene Foto so manipuliert, dass ein neuronales Netz darauf einen Strauß erkennt.

Die wissenschaftliche Community hielt solche Attacken bislang für Spielerei. Niemand schiebe einer Gesichtserkennung ein gezielt manipuliertes Bild unter. Wer nicht erkannt werden will, mache sich einfach durch Verkleidung oder Vermummung unkenntlich [10]. Im Oktober 2016 ließ Mahmood Sharif von der Carnegie Mellon University dieses Argument jedoch hart auf den Boden der Realität prallen. Er präsentierte auf der Conference on Computer and Communications Security in Wien ein Verfahren, um Gesichtserkennungssysteme gezielt in die Irre zu führen. Sharif und Kollegen haben eine Software entwickelt, die bunte Muster für Brillengestelle erzeugt.

Ausgedruckt und auf Standardrahmen geklebt, gaukeln diese Brillen der Gesichtserkennung eine völlig falsche Identität vor. Denn sie verändern genau die Bildpixel, die für die Software entscheidend sind, damit sie eine Aufnahme einer bestimmten Kategorie – etwa "Bild einer Frau" – zuordnet. Einer der Forscher, der solch eine Brille trug, wurde fälschlich als die Schauspielerin Milla Jovovich erkannt, eine Asiatin hielt die Software für einen Mann aus dem arabischen Raum.

Alexander Nouak hält die Arbeit für "zweifellos beeindruckend". Der Geschäftsführer des Fraunhofer-Verbunds IUK-Technologie und Biometrie-Experte des Fraunhofer-Instituts für Graphische Datenverarbeitung IGD gibt aber zu bedenken, dass gerade bei einem "Identifikationsszenario" das Ergebnis stark von der Größe der verwendeten Gesichtsbilddatenbank abhänge. Denn die Software liefere nicht ein Ergebnis, sondern "immer eine Liste, geordnet nach der Anzahl der übereinstimmenden Merkmale", so Nouak. Je kleiner also die Sammlung der Bilder, aus denen die Software bei der Erkennung auswählen kann, desto weniger treffend. Sharif und seine Kollegen wussten zudem, wie die Gesichtserkennung arbeitet, die sie austricksten. Solch eine "White Box"-Attacke ist sehr viel einfacher als ein Angriff auf eine unbekannte "Black Box".

Aber auch sie ist möglich, wie unter anderem Nicolas Papernot von der Pennsylvania State University und Ian Goodfellow von der Non-Profit-Organisation OpenAI [11] demonstriert haben: Sie führten das Deep-Learning-Netzwerk der Firma MetaMind in die Irre. Es ist darauf getrimmt, in Daten von Geschäftskunden auffällige Muster zu erkennen. Die KI ist online zugänglich, aber kein Außenstehender weiß, mit welchen Algorithmen sie arbeitet. Den Forschern gelang es dennoch, eine Angriffssoftware zu programmieren, die ihr ein X für ein U vormachte. Bei der Erkennung von handschriftlichen Zahlen etwa las sie in einer "5" eine "6".

Goodfellow ist pessimistisch: "Alles Böse, was man mit maschinellem Lernen anstellen kann, kann heute schon gemacht werden", sagte er im Dezember auf der Konferenz NIPS 2016 in Barcelona. "Eine Verteidigung dagegen ist sehr, sehr schwer." (wst [12])

URL dieses Artikels:
https://www.heise.de/-3664735

Links in diesem Artikel:
[1] https://shop.heise.de/zeitschriften/technology-review
[2] https://www.heise.de/hintergrund/Phantombild-aus-dem-Roehrchen-3664512.html
[3] https://www.heise.de/hintergrund/Der-neue-Volks-Wagen-3664506.html
[4] https://www.heise.de/hintergrund/Die-Schutzbrille-3664735.html
[5] https://www.heise.de/hintergrund/Stunde-der-Exoten-3664737.html
[6] https://www.heise.de/news/Datenschuetzerin-Test-zur-Gesichtserkennung-am-Bahnhof-akzeptabel-3686372.html
[7] https://www.heise.de/news/Automatische-Gesichtserkennung-soll-zum-Finale-der-Champions-League-eingesetzt-werden-3698983.html
[8] https://www.heise.de/hintergrund/Die-Kamera-weiss-was-Du-gestern-getan-hast-3714118.html
[9] https://www.heise.de/news/Facebook-unterscheidet-Gesichter-auf-menschlichem-Niveau-2149358.html
[10] https://www.heise.de/hintergrund/Tarnkleidung-gegen-Gesichtserkennung-3601764.html
[11] https://openai.com/
[12] mailto:wst@technology-review.de