Verteidigungsstrategien für maschinelles Lernen

Hacker-Angriffe auf Bilderkennungssysteme und andere KI-Technik könnten zukünftig zur Katastrophe werden. Forscher wollen das verhindern.

In Pocket speichern vorlesen Druckansicht 24 Kommentare lesen
Verteidigungsstrategien für maschinelles Lernen

(Bild: Photo by National Cancer Institute on Unsplash)

Lesezeit: 2 Min.
Von
  • Karen Hao

Eine der größten, ungelösten Schwachstellen von Deep Learning ist dessen Angreifbarkeit durch sogenannte Adversarial Attacks. Dabei handelt es sich um einen fürs menschliche Auge scheinbar zufälligen oder nicht erkennbaren Störfaktor, der ein System künstlicher Intelligenz aus dem Tritt bringt – und zu schwerwiegenden Erkennungsfehlern führen kann.

Ein bekanntes Beispiel sind Sticker, die strategisch auf Stopp-Schildern und anderen Verkehrsschildern angebracht werden und autonom fahrende Autos dazu bringen, Geschwindigkeitsbegrenzungen zu übertreten – weil sie das Stopp-Schild so als Geschwindigkeitsfreigabe interpretieren. Ein weiteres gefährliches Exempel: Manipulationen der Fahrbahnmarkierung auf einer Straße konnten einen Tesla dazu bringen, die Fahrspur zu wechseln, weil die KI dies fehlinterpretiert.

Neben Bilderkennungssystemen sind aber auch Rekonstruktionssysteme auf Deep-Learning-Basis anfällig für Adversarial Attacks. Letzteres sollte insbesondere Sicherheitsexperten im Medizinbereich auf den Plan rufen, wo Rekonstruktionssysteme mittlerweile häufiger eingesetzt werden, um aus Daten medizinischer Bildgebungsverfahren wie Computertomografie oder Kernspintomografie korrekte Aufnahmen zu errechnen. Eine gezielte Adversarial Attack wäre beispielsweise in der Lage, einen Tumor an eine Stelle zu "rekonstruieren", wo sich in Wahrheit keiner befindet.

Die Forscherin Bo Li und ihre Kollegen an der University of Illinois at Urbana-Champaign schlagen nun eine neue Methode vor, um Deep-Learning-Systeme weniger fehleranfällig zu trainieren und somit vertrauenswürdiger zu machen für sicherheitskritische Szenarien. Sie lassen das künstliche neuronale Netzwerk, das für Bildrekonstruktion verantwortlich ist, gegen ein anderes neuronales Netzwerk antreten, das beispielhafte Adversarial Attacks kreiert, ganz ähnlich wie etwa bei GAN-Algorithmen.

Durch schrittweise wiederholende Runden versucht das Adversarial Network das rekonstruierende Netzwerk dahingehend zu täuschen, Dinge zu produzieren, die nicht zu den Originaldaten oder der Ground Truth gehören. Das Rekonstruktionssystem entwickelt dann kontinuierlich Strategien, um nicht fehlgeleitet zu werden und wird dadurch sicherer für einen tatsächlichen Einsatz.

Das scheint bereits ordentlich zu funktionieren. Als die Forscher das so verbesserte neuronale Netzwerk an zwei gängigen Bilddatensätzen testeten, konnte es die "Wahrheit" besser rekonstruieren als andere neuronale Netzwerke, die mit anderen Methoden ausfallsicherer gemacht worden waren. Die Ergebnisse sind allerdings noch nicht perfekt und zeigen, dass die Methode noch optimiert werden muss.

(bsc)