Pixelmuster irritieren die KI autonomer Fahrzeuge

KI-Bilderkenner lassen sich durch künstliche Muster in die Irre führen. Autonome Autos nehmen so Schilder oder die Bewegung anderer Fahrzeuge nicht wahr.

421

12.08.2020, 06:00 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

Arne Grävemeyer

Ob bei der automatischen Sortierung von Fotos auf dem Smartphone oder bei der Personensuche in Facebook: Bilderkenner-KIs treffen eine Vorauswahl oder markieren bekannte Gesichter. Das ist praktisch und manchmal auch lustig, wenn die Software etwa ein Poster an der Wand in den Fokus nimmt oder ein paar Falten im Sofakissen für ein Gesicht hält.

Doch Fehler in der Bilderkennung sind kein Spaß mehr, wenn sie einem autonomen Fahrzeug im Straßenverkehr unterlaufen. Forscher der Uni Tübingen haben in Zusammenarbeit mit dem Max-Planck-Institut für intelligente Systeme nachgewiesen, dass selbst ein kleiner Aufkleber im Straßenbild die Bewegungsschätzung von KI-Systemen irritieren kann. Busse oder Fahrradfahrer scheinen dann aus Sicht des selbstfahrenden Autos in genau entgegengesetzter Richtung unterwegs zu sein. Diese Attacke ist besonders tückisch, weil Menschen derartige Aufkleber am Straßenrand gar nicht sonderlich auffallen. Ihre zerstörerische Wirkung sieht man ihnen nicht an.

Was sieht die KI?

Bereits 2013 beschrieben erste wissenschaftliche Arbeiten derlei Angriffe durch kaum wahrnehmbare Pixelmanipulationen im Bild. Diese Störmuster führen eine künstliche Intelligenz auf eine falsche Fährte. Zahlreiche Beispiele für die sogenannten Adversarial Attacks sind seitdem veröffentlicht worden, zum Beispiel unterschiedlichste Natur- und Technikaufnahmen, die eine bestimmte KI nach unmerklichen Anpassungen sämtlich als Vogel Strauß klassifiziert.

Was viele Forscher zunächst für eine Kuriosität eines bestimmten zur Bilderkennung eingesetzten neuronalen Netzes oder einer speziellen Netzarchitektur hielten, entpuppte sich als ein strukturelles Problem. „Es ist nun einmal so, dass neuronale Netze Eigenschaften in Bildern erkennen und für die Klassifikation nutzen, die der Mensch kaum oder gar nicht wahrnimmt“, erklärt Dr. Wieland Brendel, KI-Experte am Bethge Lab der Uni Tübingen. Andererseits entwickeln sie kein tiefes Verständnis einer Szene, wie ein Mensch, der üblicherweise ein Tier oder einen Gegenstand auch aus unterschiedlichen Blickwinkeln an seiner äußeren Form erkennt.

Pixelmuster irritieren die KI autonomer Fahrzeuge

Nicht ein Foto von einem Toaster irritiert den Klassifikator (oben), sondern ein unrealistisches Pixelmuster, das für die KI wichtige Merkmale eines Toasters zeigt (unten)

(Bild: Tom Brown)

„Ein KI-Klassifikator hat keine Vorstellung davon, was ein Hund ist“, sagt auch Professor Aleksander Madry vom MIT in Cambridge, Massachusetts. Das zugrunde liegende neuronale Netz hat in der Trainingsphase lediglich gelernt, eingehende Pixeldaten mehr oder weniger korrekt nach „Hund“ oder „Katze“ zu sortieren. Dazu hat es in der Trainingsphase Pixelmuster entdeckt, die sich als ausschlaggebend herausgestellt haben. In diesem Sinne unterstreicht Madry, dass die bedeutungslos erscheinenden Pixelveränderungen nicht wirklich ohne Bedeutung sind. Nach seinen Untersuchungen kann ein neuronales Netz, das nur diese Änderungsmuster als Trainingsdaten erhält, anschließend seinerseits Hunde und Katzen fast ebenso gut unterscheiden wie der ursprüngliche Klassifikator. Und wieder weiß der Mensch eigentlich nicht, wie die KI das macht; aber das wusste er beim ursprünglichen Klassifikator auch schon nicht.

So schlimm wie Millionen Zeilen Fortran

Neuronale Netze werden erst dann nützlich, wenn sie mit Millionen von Neuronen und Synapsen-Verbindungen die Eingabedaten gewichten. Zudem funktionieren sie besonders gut, wenn sie zahlreiche Schichten an Neuronen übereinander stapeln und die Schichten sich jeweils Daten vorverarbeiten und Muster extrahieren. Für Menschen ist diese Komplexität im Einzelnen nicht überschaubar. Zwar sind die Verarbeitungsschritte dabei einzeln nachvollziehbar, aber: „Es ist, als betrachte man ein Fortran-Programm mit Millionen Codezeilen, ohne Kommentierung oder verdeutlichende Struktur und mit unvorhersehbaren Sprungbefehlen in jeder Zeile“, versucht Brendel einen Vergleich. Was passiert, ist zwar Schritt für Schritt nachvollziehbar, aber der menschlichen Intuition nicht zugänglich.

In einer eigenen Forschungsarbeit hat Brendel mit Kollegen gezeigt, dass eine KI ein Objekt auf einem Foto eher an seiner Oberflächentextur erkennt als an seiner äußeren Form. Ebenso konnten die Tübinger Forscher belegen, dass ein Klassifikator Bilder auch dann noch gut zuordnet, wenn diese zuvor zerschnitten und in beliebiger Reihenfolge wieder zusammengesetzt worden sind. Solche Mosaike erkennen Menschen nur mit Mühe oder gar nicht. Für ein Convolutional Neural Network (CNN) mit seinen Faltungsebenen ist es dagegen fast egal, an welcher Stelle sich ein bestimmter Bildinhalt befindet. Ein Auge wird als Auge erkannt, egal ob es links oben oder rechts unten zu sehen ist. Dichte Haare auf dem Rücken bedeuten ebenso Fell wie auch am Bein. Die Bildklassifikation gelingt daher bei einem Mosaik aus falsch zusammengesetzten Ausschnitten nahezu genauso gut wie mit dem unzerschnittenen Originalbild.

Dieses Verhalten führt aber auch dazu, dass eine Collage voller Nasen mit Bestimmtheit als „Gesicht“ erkannt wird. Eine Nase ist ein Indiz für ein Gesicht, viele Nasen deuten sehr stark auf ein Gesicht hin. Das Fazit der Forscher: Die KI sieht ganz anders als der Mensch und es ist noch ein weiter Weg, ihr Weltwissen und eine objektbezogene Sichtweise beizubringen.

Physische Attacken

Dass sich tiefe neuronale Netze aufgrund ihrer Oberflächlichkeit auch ganz gezielt in der physischen Welt manipulieren lassen, zeigte beispielsweise Ivan Evtimov von der University of Washington 2018 an Beispielen gezinkter Stoppschilder. Viele Verkehrsschilder an den Straßen sind verdreckt, beschmiert oder beklebt. Autofahrer stören sich daran in der Regel nicht, solange sie die Zeichen noch korrekt zuordnen können. Mit wenigen Abwandlungen in Form von Aufklebern oder aufgemalten Zeichen gelang es den Forschern allerdings, Verkehrszeichen-Erkenner radikal zu täuschen. Zuvor hatten die untersuchten KIs alle Schilder auf dem LISA Traffic Sign Dataset erkannt, eine in den USA maßgebliche Sammlung von Verkehrsszenen und Videos des Laboratory for Intelligent & Safe Automobiles.

Videos by heise

Die Täuschungen gelangen im Labor zu 100 Prozent. Wurden die manipulierten Stoppschilder vom Wagen aus aufgenommen, interpretierten die Klassifikatoren ihren Inhalt immer noch zu fast 85 Prozent falsch und sahen stattdessen ein Tempolimit von 45 Meilen pro Stunde. Das Tückische: Die Manipulationen an den Verkehrsschildern blieben immer noch unter der Wahrnehmungsschwelle der meisten menschlichen Fahrer. Sie bemerkten die Veränderungen erst gar nicht und konnten auch nicht ahnen, welchen fundamentalen Unterschied die kleinen Markierungen für die KI darstellen. Im Szenario der Forscher erschien ein Stoppschild für ein Fahrassistenzsystem oder ein autonomes Fahrzeug wie ein Tempolimit. Im Ernstfall macht eine solche Manipulation den Unterschied zwischen Anhalten und Gas geben. Die Täuschung gelang auf unterschiedlichste Entfernungen und unter verschiedenen Betrachtungswinkeln.

Ein Stoppschild trägt harmlos wirkende Aufkleber, aber KI-Klassifikatoren missinterpretieren das Zeichen damit als „Tempo 45“.

(Bild: Ivan Evtimov)

Die physische Attacke bildet eine reale Gefahr für das autonome Fahren. Forscher gehen davon aus, dass die nicht-physischen Attacken, also die Bildmanipulationen mit direktem Zugriff auf den Bildspeicher, eher eine theoretische Gefahr darstellen. „Ein Hacker, der einem Fahrzeug manipulierte Bilddaten vorgaukeln kann, muss dazu bereits tiefen Zugang zum System haben. Er könnte wahrscheinlich ebenso gut direkt Gas- und Bremspedal ansprechen“, verdeutlicht Dr.-Ing. Andreas Geiger am Max-Planck-Institut für Intelligente Systeme (MPI-IS) und zudem Professor an der Universität Tübingen. Die Real-World-Attacke über Aufkleber und physische Markierungen ist indirekter und prinzipiell schwerer zu konzipieren. Sie muss robust sein gegenüber zahlreichen Unwägbarkeiten wie den Einflüssen der Linse bei der Aufnahme oder dem Rauschen des Bildsensors. Aber wenn die Attacke funktioniert, dann erfordert sie nicht mehr als einen unscheinbaren Aufkleber am Straßenrand. Damit ist diese Art der Manipulation geeignet, das autonome Fahren nach aktuellem Stand der Technik infrage zu stellen.

Optischer Fluss

Erst im vergangenen Jahr hat ein Team am MPI-IS gezeigt, dass derartige Störmuster im Eingangsbild einer KI nicht nur die Bilderkennung, sondern auch die Bewegungsschätzung autonomer Autos irritieren irritieren. Dazu genügte den Forschern einfach ein ausgedruckter Aufkleber, der gerade einmal ein Prozent oder weniger der gesamten Fläche des Eingangsbildes ausmachte.

Für die Bewegungsschätzung berechnen KI-Klassifikatoren den optischen Fluss, indem sie die Änderungen zwischen zwei Eingangsbildern ermitteln. Auch bei diesen Klassifikatoren handelt es sich um neuronale Netze, die nach dem Training mit Millionen Bildpaaren gelernt haben, die Bewegung einzelner Bildobjekte einzuschätzen. Die Max-Planck-Forscher nahmen nun verschiedene derartige Optical-Flow-Algorithmen und prüften deren Ergebnisse mit Bildpaaren, in die sie zunächst digital mittig einen kleinen Aufkleber eingefügt hatten. Ihre Zielsetzung: Sie wollten die Pixel darauf derart modifizieren, dass er möglichst die erkannten Bewegungsvektoren in ihr Gegenteil umkehrt. Damit sollte der Algorithmus also eine Vorwärtsbewegung als ein Zurückweichen fehlinterpretieren, ein Fahrzeug auf Kollisionskurs als ein sich entfernendes abhaken. „Derart überraschende Effekte lassen sich möglicherweise finden, wenn man Muster einsetzt, die in der Realität niemals vorkommen und die daher sicher nie mit den Trainingsdaten der KI gelernt worden sind“, schildert Geiger.

Um die Pixelgestaltung des Aufklebers schrittweise zu optimieren, wendeten die Wissenschaftler mit Backpropagation ein automatisiertes Gradientenabstiegsverfahren ein, das üblicherweise zum Einsatz kommt, um neuronale Netze zu trainieren. Da der Aufkleber in den verschiedensten Verkehrssituationen funktionieren sollte, mussten für jede seiner Anpassungen die verschiedensten Verkehrsszenen durchexerziert werden. Dafür verwendeten die Tübinger den KITTI-Datensatz des Karlsruher Instituts für Technologie für das Training autonomer Fahrzeuge.

Ein künstliches Muster, das als Aufkleber am Straßenrand nur ein Prozent des Sichtfeldes ausmacht, könnte autonome Fahrzeuge stark irritieren.

(Bild: Ranjan et al.)

Der Ansatz funktionierte, es entstanden zunächst virtuelle Aufkleber (Patches), die die Berechnung des optischen Flusses in fünf verbreiteten neuronalen Netzen störten. Dabei waren die Fehler bei Netzen mit der älteren Encoder-Decoder-Architektur sehr ausgeprägt, während sich Algorithmen aus der jüngeren Klasse der Spatial-Pyramid-Architektur weniger stark beeinflussen ließen.

„Unser Verfahren war für Encoder-Decoder-Architekturen so erfolgreich, dass wir noch weiter gehen konnten. Wir platzierten unsere Patches an beliebiger Stelle im Bildausschnitt und sie funktionierten trotzdem“, berichtet Geiger. Es ließ sich sogar ein Patch generieren, der für alle Algorithmen aus dieser Klasse funktionierte. Am Ende stand ein Patch, der in allen denkbaren Verkehrssituationen die Flussvektoren der Bewegungsschätzung umkehrte. Und obwohl er maximal ein Prozent der Bildfläche ausfüllte, wirkte er sich auf mehr als 50 Prozent der Gesamtszene aus. Größere Patches richteten sogar ein noch größeres Chaos an.

Das Pixelmuster als Ausdruck

Schließlich druckten die Tübinger ihre Störmuster aus und platzierten sie in einer realen Verkehrsszene. Es zeigte sich, dass selbst Aufnahmen des ausgedruckten Aufklebers die Optical-Flow-Algorithmen irritierten. An einer Hauswand oder einem Straßenschild platziert, störte der Aufkleber, sobald er in das Sichtfeld geriet, die Bewegungsschätzung für den größten Teil des Bildausschnitts. Als Aufkleber auf der Heckscheibe eines vorausfahrenden Autos könnte das Pixelmuster die Berechnung von Bewegungsrichtungen anderer Verkehrsteilnehmer über einen längeren Zeitraum vollständig durcheinander bringen.

Eine Verkehrsszene mit Auto und Fahrrad: Im optischen Fluss sind beide klar zu erkennen.

(Bild: Ranjan et al.)

Angesichts einer Attacke mit einem Aufkleber gelingt die Bewegungsschätzung nicht mehr.

(Bild: Ranjan et al.)

Letztlich hat der entwickelte Algorithmus zum Finden einer Attacke nur wenige Stunden gerechnet und dabei das Störmuster so optimiert, dass es die Berechnung des optischen Flusses massiv durcheinander brachte. Dass ein und derselbe Patch für verschiedene Klassifikatoren zugleich Störungen verursachte, wenn auch in unterschiedlicher Stärke, war für die Forscher eine Überraschung. Inzwischen haben sie die Automobilhersteller über ihre Ergebnisse informiert, um vor der Gefahr derartiger Angriffe zu warnen.

Ob diese Art von Angriffen für künftige autonome Fahrzeuge tatsächlich bedrohlich sind, ist für die Forscher schwer einzuschätzen. Die Forscher hatten den Vorteil, dass sie die Interna der untersuchten Optical-Flow-KIs genau kannten. Die Automobilindustrie lässt sich bezüglich ihrer Algorithmen nicht in die Karten schauen.

Schutzmaßnahmen gesucht

Wenn ein Hersteller einmal ein autonomes Fahrzeug baut und auf den Markt bringt, dann wird dessen KI voraussichtlich in Hardware kodiert sein, vermutet Geiger. Um das Fahrzeug als Gesamtsystem zu analysieren und eine Attacke auf dessen Steuerungssystem zu entwickeln, müsste ein Angreifer den Wagen in einer Verkehrssituation beobachten, also ihn beispielsweise vor eine Ampel stellen und ausprobieren, bei welchen Abwandlungen die Ampel noch richtig erkannt wird und wann nicht mehr. Derlei Angriffe gelten als extrem aufwendig.

Ein einfacherer Weg wäre ähnlich der Arbeit der Tübinger Forscher eine Transferattacke. Man erzeugt eine generalisierbare Attacke auf einen marktgängigen Algorithmus und hofft damit auch ein konkretes Fahrzeugsystem zu irritieren. Eine grundsätzliche Sicherheit gegen solche Angriffe besteht derzeit nicht.

Es gibt aber Ansätze, autonome Fahrzeugsysteme abzusichern. Redundanz ist ein Zauberwort: Erkennt ein System ein Straßenschild, so kann es diese Information mit hinterlegten Straßenkarten abgleichen. Tempo 100 statt eines erwarteten Stoppschilds? Das wäre ein Widerspruch, auf den der Bordcomputer reagieren kann. Und ob die Fahrbahn frei ist, überprüfen im besten Fall zugleich das Kamerasystem, ein Radar und ein Lidar. Auch heutige Fahrassistenzsysteme wie etwa ein Notbremsassistent setzen bereits auf verschiedene Sensorsysteme.

Eine weitere Schutzfunktion wäre die Erweiterung der KI um mehr Wissen, was in der realen Welt möglich ist und was nicht. Beispielsweise ließen sich genau die Algorithmen am stärksten stören, die den optischen Fluss einzig anhand zweidimensionaler Bilder bestimmen. Schon Algorithmen in Spatial-Pyramid-Architektur, die ihre Berechnungen auf mehrere Bildauflösungen stützen, reagierten robuster. Eine These ist daher, dass Algorithmen weniger störanfällig reagieren, je stärker sie die Welt modellieren.

Dass die Pyramid-Spatial-Architekturen der Weisheit letzter Schluss sind, erwartet Geiger jedoch nicht. Es sei durchaus möglich, dass auch für sie noch eine funktionierende Störmusterattacke gefunden werde. Bisher seien die praktischen Erfolge mit KI-Systemen der Theorie sehr schnell vorausgelaufen. Meldungen von schnellen und guten Klassifikationsergebnissen überstürzen sich und autonomes Fahren scheint schon bald möglich, wenn nur das 5G-Netz ausgebaut wird. „Aber diese Erfolge bedeuten eben nicht, dass man die Entscheidungswege in neuronalen Netzen verstanden hat“, warnt Geiger.

Das Sicherste wäre es, wenn Bilderkenner und Optical-Flow-KIs die Welt in Zukunft ähnlich sehen würden wie der Mensch. Auch dann wären sie noch zu täuschen, etwa durch einen Tempo-100-Aufkleber auf einem Stoppschild – aber das wäre dann nicht so heimtückisch wie die aktuellen Angriffskonzepte und Menschen könnten einen solchen Täuschungsversuch leicht erkennen.

Dieser Artikel stammt aus c't 17/2020.

(agr)