Bericht: NIST warnt vor vergifteten KI-Systemen und zeigt Schutzmaßnahmen auf

In einem aktuellen Bericht skizziert das National Institute of Standards and Technology mögliche Attacken im Kontext von künstlicher Intelligenz.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
A,Person's,Head,Covered,By,An,Ai-labeled,Dark,Cloud

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 2 Min.

Wenn Angreifer KI- und Machine-Learning-Systeme attackieren, kann das lebensbedrohliche Auswirkungen haben. Etwa, wenn sie das Entscheidungssystem eines autonom fahrenden Autos durcheinanderbringen und es so die Fahrspur in den Gegenverkehr wählt. In einem Bericht führt das US-amerikanische National Institute of Standards and Technology (NIST) aktuelle Gefahren auf und nennt Gegenmaßnahmen.

Einer der Autoren der Studie resümiert: "Es gibt theoretische Probleme bei der Sicherung von KI-Algorithmen, die einfach noch nicht gelöst sind. Wer etwas anderes behauptet, verkauft Schlangenöl".

In der Veröffentlichung "Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations" wird schnell klar, dass es kein Allheilmittel gegen Attacken auf Systeme mit künstlicher Intelligenz gibt. Vielmehr wollen die Autoren KI-Entwickler für gängige Angriffsmethoden und Techniken sensibilisieren. Natürlich nennen sie auch Möglichkeiten zum Schutz und wollen Entwickler animieren, Systeme noch effektiver zu härten.

Attacken gliedert die NIST in vier Bereiche: Evasion-Angriffe finden statt, wenn ein KI-System bereits im Einsatz ist. Als Beispiel führen sie nachträgliche Eingaben auf, die etwa die Erkennung von Stopp-Schildern im Straßenverkehr verhindern. Poisoning-Attacken finden während der Trainingsphase der KI statt. Dabei setzen Angreifer nicht vertrauenswürdiges Lernmaterial ein, um etwa einen Chatbot zu verwirren.

Als Drittes führen die Autoren Privacy-Attacken auf, bei denen Angreifer zum Beispiel bei einem Chatbot durch gezieltes Nachfragen Rückschlüsse auf die Generierung des zugrundeliegenden KI-Modells ziehen, um anschließend die Quellen zu manipulieren. Bei Abuse-Attacken kommen gezielt Falschinformationen, etwa auf einer Website, von der die KI Informationen bezieht, zum Einsatz.

Entwickler müssen also unter anderem stets sicherstellen, dass das Lernmaterial vertrauenswürdig ist. Das ist nicht nur am Anfang des Prozesses wichtig, sondern auch währenddessen. Schließlich können Angreifer das Material wie geschildert auch im laufenden Prozess manipulieren. So könnte etwa ein Chatbot im Betrieb über vom Entwickler nicht bedachte Prompts mit rassistischen Äußerungen antworten.

Als Gegenmaßnahme nennt die NIST etwa bei einem Chatbot ausgiebige Testphasen mit vielen Menschen, die das Produkt mit den verschiedensten Prompts ausprobieren, um mögliche Probleme im Betrieb aufzudecken. Weitere Lösungsansätze erläutern sie in ihrem ausführlichen Bericht.

(des)