Neuronale Netze: Wie sie angegriffen werden und wie man sie verteidigt

Der wachsende Einsatz von künstlichen neuronalen Netzen in teils kritischen Bereichen erfordert eine zunehmende Absicherung der Systeme vor Bedrohungen.

In Pocket speichern vorlesen Druckansicht 43 Kommentare lesen

(Bild: Shutterstock)

Lesezeit: 10 Min.
Von
  • Bodo Rosenhahn
  • Christoph Reinders
Inhaltsverzeichnis

Künstliche neuronale Netze zeigen beachtliche Erfolge, und Machine Learning entwickelt sich zu einem allgegenwärtigen, wenn auch häufig nicht direkt erkennbaren Begleiter des täglichen Lebens. Viele der Anwendungen wie automatisierte Prüfung in der Produktion, Unterstützung von Ärzten bei der Auswertung von CT-Aufnahmen und Verkehrszeichenerkennung als Fahrerassistenzsystem sind sicherheitskritisch. Letztere erkennen beispielsweise Verkehrsschilder oder andere Verkehrsteilnehmer. Das erfordert eine hohe Genauigkeit, Stabilität und Zuverlässigkeit. Die Folgen eines nicht oder falsch erkannten Stoppschilds können verheerend sein. Daher ist die Analyse der Robustheit und Angreifbarkeit von neuronalen Netzen von besonderer Bedeutung.

In den letzten Jahren haben einige Angriffe die Verwundbarkeit von neuronalen Netzen demonstriert. Einfache und kaum wahrnehmbare Manipulation der (Bild-)Daten führen dazu, dass die Netze völlig falsche Ergebnisse vorhersagen und zwar mit einer hohen Konfidenz: Das neuronale Netz gibt aus, äußerst sicher zu sein, dass das falsche Ergebnis richtig ist. Weitere Anwendungsbereiche finden sich in "Autos sehen Gespenster". Jüngste Angriffe wie bei Tesla haben gezeigt, dass die Verfahren nicht nur theoretischer Natur sind, sondern auch in der realen Welt eine wichtige Rolle spielen.

Das bringt einige Fragen mit sich: Welche Muster ermöglichen einen Angriff auf neuronale Netze? Müssen Passanten sich künftig bei der Wahl ihres Outfits Gedanken darüber machen, ob ihr T-Shirt ein Muster zeigen könnte, das von Fahrerassistenzsystemen nicht erkannt wird oder autonome Fahrzeuge verwirrt?

Angreifer erstellen gezielt manipulierte Bilder, die sich von den normalen Bildern nur geringfügig unterscheiden und bewusst in einer Form verändert sind, die das Modell zu Fehlern verleitet. Für das menschliche Auge sind die Veränderungen häufig nur durch genaues Hinsehen zu entdecken. Viele der Verfahren basieren auf der Berechnung der Gradienten. Wie bei der Backpropagation beim Training neuronaler Netze wird eine Zielfunktion optimiert und die Gradienten rückwärts durch das Netz propagiert. Im konkreten Fall führt der Weg zurück bis zu den Pixelwerten: Für jeden Pixel berechnet das System, wie er verändert werden müsste, um eine Fehlentscheidung auszulösen. Schrittweise erfolgen subtile Manipulationen am Bild, bis das neuronale Netz auf das neue Bild hereinfällt. Es handelt sich somit nicht um zufälliges Rauschen oder beliebige Muster, auch wenn es zunächst danach ausschaut. Die Muster sind optimiert, um mit geringen Veränderungen neuronale Netze gezielt anzugreifen und Fehlentscheidungen auszulösen.

Subtile Manipulationen sind ausreichend, um ein neuronales Netz auszutricksen. Letzteres stuft beispielsweise ein Stoppschild mit hoher Sicherheit als Geschwindigkeitsbegrenzung auf 120 km/h ein, weil dem Schild kaum wahrnehmbares Rauschen hinzugefügt wurde (Abb. 1).

Ein Beispiel ist in Abbildung 1 zu sehen: Ein Klassifikator erkennt ein normales Bild korrekt als Stoppschild. Nach einer gezielten Manipulation sieht das neuronale Netz dagegen eine Geschwindigkeitsbegrenzung auf 120 km/h.

Die vorgestellten Angriffe basieren auf zwei wichtigen Annahmen: Die Angreiferin oder der Angreifer hat direkten Zugriff auf die Eingabedaten des KI-Systems und besitzt alle Informationen des neuronalen Netzes wie Architektur und gelernte Parameter. In der Realität sind die Angriffe deutlich komplexer. Durch den Zugriff auf das System lassen sich beim Angriff Steuerbefehle direkt manipulieren. Ansonsten müssen die Manipulationen an den Objekten oder der Umgebung in der echten Welt hinzugefügt werden, und das KI-System nimmt die Eingangsdaten beispielsweise über eine Kamera auf. Darüber hinaus sind die Parameter des neuronalen Netzes bei proprietären Anwendungen häufig nicht bekannt.

Das Muster wurde gezielt optimiert, um Personenerkennungen auszutricksen. Ausgedruckt macht es die Person mit dem Muster für das ML-System unsichtbar (Abb. 2).

(Bild: Conference paper at CVPRW, Thys et al.)

Einige Verfahren haben allerdings gezeigt, dass sich neuronale Netze auch in der echten Welt manipulieren lassen. Unter anderem hat ein Forscherteam der belgischen Universität KU Leuven eine Methode entwickelt, um eine Personenerkennung auszutricksen. Ein generiertes und ausgedrucktes Muster führt dazu, dass die Person, die es bei sich trägt, von der Personenerkennung nicht erkannt wird (s. Abbildung 2).

Sonderheft Machine Learning

Der vorliegende Artikel stammt aus dem iX-Developer-Sonderheft "Machine Learning", das im Heise Shop als PDF und in gedruckter Form verfügbar ist.

Das Ende 2020 veröffentlichte Sonderheft behandelt auf 148 Seiten aktuelle Themen aus dem Bereich Machine Learning und ist eine Forführung des 2018 erschienen ML-Sonderhefts. Es beleuchtet die Entwicklungen im Bereich der großen Frameworks, der Data-Science-Bibliotheken von Python sowie zahlreiche Methoden und Algorithmen. Darüber hinaus steht der Weg vom Modell zum praktischen Einsatz mit MLOps im Fokus, und ein Artikel vergleicht die Angebote der großen Cloud-Provider.

Das Heft bietet vor allem einen breiten Praxisteil mit konkreten Anwendungen in der Textanalyse und für die Zeitreihenvorhersage sowie mit einem dreiteiligen Tutorial zur Bildanalyse.

Während das Muster, das Personen für ML-Systeme unsichtbar macht, in der realen Welt auffällt, existieren Ansätze, die die Erkennung von Verkehrsschildern manipulieren. Harmlos aussehende Veränderungen durch Sticker oder Graffiti, die auf den Verkehrsschildern kleben, führen dazu, dass das ML-System ein Schild übersieht oder ein falsches Schild erkennt. Fahrerassistenzsysteme von Tesla sind ebenfalls bereits Ziel von Angriffen geworden. Unauffällig aussehende weiße Punkte auf der Straße oder in Werbung versteckte Angriffe können dazu führen, dass das ML-System Fehlentscheidungen trifft.