Prompt-Injection-Angriffe auf Apple Intelligence
Die Sprachmodelle von Apple sind potenziell angreifbar. Forscher zeigen mehrere neue Methoden.
Symbolbild Prompt Injection: Gefahr für lokale Apple-KI?
(Bild: Shutterstock.AI Generator / Shutterstock)
Paper, die bei der kürzlich beendeten RSAC-Sicherheitskonferenz vorgestellt wurden, beschreiben neuartige Angriffsformen auf Apple Intelligence. Die entsprechenden Lücken aus dem Bereich der sogenannten Prompt Injections, bei denen KI-Prompts manipuliert werden, sollen vom Hersteller bereits behoben worden sein. Sie nutzen unter anderem aus, dass Apple schwächere lokale Modelle verwendet, bevor Cloud-gestützte komplexere Large Language Models zum Einsatz kommen.
Umgehen von Grenzen in 76 Prozent der Fälle
Prompt Injections sollen KI-Systeme unter anderem dazu bringen, Outputs zu liefern, die die Entwickler eigentlich verbieten – etwa Schimpfwörter oder Informationen über kriminelle Aktivitäten. Dazu dienen sogenannte Guardrails, die derartige Outputs blockieren sollen. Bei 100 zufälligen Prompts mit der Methode gelang das Durchbrechen der Regeln in immerhin 76 Prozent der Fälle. Die Untersuchung (Studie, technische Details) stammt von drei Sicherheitsexperten, die selbst für das Research-Team der RSAC-Sicherheitskonferenz tätig sind. Apple wurde im Oktober informiert, soll interne Veränderungen in seinen Betriebssystemen sowie in der Private-Cloud-Compute-Serverinfrastruktur (PCC) vorgenommen haben.
Videos by heise
Innerhalb von Apple Intelligence werden lokale und PCC-Modelle nahtlos verwendet. Das System detektiert, sobald es sinnvoll ist, mit einer Anfrage an die Server zu gehen. Die Modelle können zudem kostenlos von App-Anbietern verwendet werden. Unter iOS, macOS und iPadOS lassen sich mit kompatiblen Rechnern dann Funktionen wie die sogenannten Writing Tools nutzen, die zur Textoptimierung dienen, darüber hinaus gibt es mit Image Playground und Genmoji auch noch Bildgeneratoren, die direkte Bestandteile der Systeme sind. Prompts lassen sich unter anderem eingeben, um Änderungen an Texten vorzunehmen – diesen Output konnten die Forscher manipulieren. Einen Chatbot-Betrieb sieht Apple derzeit noch nicht vor.
Neural Execs und Unicode-Tricks
Von den RSAC verwendete Angriffsmethoden waren unter anderem sogenannte Neural Execs, bei denen Prompts in eine Sprache übersetzt werden, die für Menschen sinnfrei erscheint, der vom LLM gelieferte Output entspricht dann aber etwas, was so eigentlich nicht gehen dürfte. Ein weiterer Hack war die Verwendung von Unicode-Sprachen, die von Rechts nach Links geschrieben werden.
Böswillige Anweisungen gingen hier durch. Insgesamt gelang es den RSAC-Forschern, sowohl die internen Guardrails der Modelle als auch von Apple nachgelagerte Filter zu umgehen. Die Hauptprobleme scheinen dabei in den schwächeren lokalen Modellen zu liegen. Grundsätzlich ist das nicht verwunderlich – diese neigen auch stärker zu Halluzinationen. Schwächere Modelle gelten zudem allgemein als leichter angreifbar. So gilt etwa bei OpenClaw die Empfehlung, keine schwachen Modelle zu verwenden, damit es nicht zu Sicherheitsproblemen kommt.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(bsc)