US-Technologiebehörde: NIST warnt vor allzu einfachen Angriffen auf KI-Systeme
KI-Anwendungen versagen vor allem, wenn sie mit nicht vertrauenswürdigen Daten in Berührung kommen, mahnt das NIST. Es gebe keine sichere Abwehrmethode.
Angreifer können Systeme mit Künstlicher Intelligenz (KI) vergleichsweise einfach absichtlich verwirren oder sogar "vergiften", sodass sie nicht mehr richtig funktionieren. Zu diesem Schluss kommen Informatiker des National Institute of Standards and Technology (NIST) und externer Zuarbeiter in einer jetzt veröffentlichten Übersicht zu einschlägigen Attacken. Zudem gebe es noch keine "narrensichere Verteidigung", auf die Entwickler solcher meist auf maschinellem Lernen beruhender Techniken setzen könnten. Den Fokus legen die Autoren dabei vor allem auf Umgehungs-, Datenschutz- und Missbrauchsangriffe sowie auf Attacken auf die Trainingsdaten.
Risikominderung
Die Verfasser der Untersuchung der Normungs- und Technologiebehörde gehen etwa auch auf den vergleichsweise aktuellen Jailbreak-Prompt "Do Anything Now" (DAN) für ChatGPT ein. Damit kann der Sprachassistent dazu gebracht werden, eingebaute Sicherheitsbestimmungen zu ignorieren. Zudem wägen sie Vor- und Nachteile von offenen und geschlossenen KI-Modellen gegeneinander ab. "Die meisten dieser Angriffe sind relativ einfach durchzuführen und erfordern minimale Kenntnisse des KI-Systems und begrenzte gegnerische Fähigkeiten", resümiert Co-Autorin Alina Oprea, Professorin an der Northeastern University. Schon durch die Kontrolle einiger Dutzend Trainingsproben könnten Modelle korrumpiert werden, "was einen sehr kleinen Prozentsatz des gesamten Trainingssatzes ausmachen würde".
"Wir beschreiben auch aktuelle Risikominderungsstrategien", betont NIST-Projektleiter Apostol Vassilev. Diese könnten Angriffe aber nicht zuverlässig verhindern, obwohl "spektakuläre Ausfälle mit schwerwiegenden Folgen" drohten. Der Computerwissenschaftler appellierte an die Forschergemeinde, "bessere Verteidigungsmaßnahmen zu entwickeln". Es gebe "theoretische Probleme bei der Sicherung von KI-Algorithmen, die einfach noch nicht gelöst wurden". Wer anderes behaupte, versuche ungeprüfte Wundermittel zu verkaufen. Die Publikation ist Teil der Bemühungen des NIST, die Entwicklung vertrauenswürdiger KI zu unterstützen.
(mki)