Was GPT-3 über Melissa Heikkilä weiß
Große Sprachmodelle können private Daten wie Adressen oder Telefonnummern preisgeben. TR-Autorin Melissa Heikkilä wagt einen Selbstversuch.
![](https://heise.cloudimg.io/width/610/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/3/6/4/1/3/2/3/Cyborg01-f13dd16ec12f459b.jpeg)
(Bild: Kiselev Andrey Valerevich / Shutterstock.com)
Die Leistungsfähigkeit großer Sprachmodelle beruht auf dem Training mit riesigen Textmengen aus dem Internet. Eine wachsende Zahl von Forschenden warnt genau davor – dass KIs gehackt und gezwungen werden können, ihre Trainingsdaten wieder auszuspucken. Auch sensible, private Daten. "Das hat mich zum Nachdenken gebracht: Welche Daten haben diese Modelle über mich?", schreibt Melissa Heikkilä in der aktuellen Ausgabe von MIT Technology Review. "Die Frage hat einen ernsten Hintergrund: Und seit einem einschneidenden Erlebnis vor etwa zehn Jahren bin ich ein wenig paranoid, wenn es darum geht, etwas über mein Privatleben öffentlich zu machen."
Auf die Frage "Wer ist Melissa Heikkilä?" antwortet GPT-3 beispielsweise: "Melissa Heikkilä ist eine finnische Journalistin und Autorin, die über die finnische Wirtschaft und Politik schreibt". Nach mehreren Versuchen wird jedoch schnell klar, dass das Modell improvisiert, und die Autorin mal als Schönheitskönigin klassifiziert oder als Sängerin einer Hardrock-Band.
Florian Tramèr von der ETH Zürich ist der Meinung, dass das Problem mit der Zeit schlimmer werden wird. "Es hat den Anschein, als sei man sich nicht wirklich darüber im Klaren, wie gefährlich das ist", sagt er. Große Sprachmodelle, die mit großen Mengen persönlicher Daten trainiert werden, bergen große Risiken. Und obwohl die Modelle die Informationen, mit denen sie trainiert wurden, scheinbar willkürlich ausspucken, sei es laut Tramèr sehr gut möglich, dass das Modell viel mehr über die Menschen hinter den Daten weiß, als derzeit klar ist. "Dies ist eines der wenigen Probleme, die sich mit zunehmender Größe dieser Modelle verschärfen", sagt Tramèr. Es gehe nicht nur um persönliche Daten. Die Datensätze werden wahrscheinlich auch urheberrechtlich geschützte Daten wie Quellcode und Bücher enthalten, sagt Tramèr.
Große Sprachmodelle wie GPT-3 sind darauf trainiert, Lücken in Sätzen sinnvoll aufzufüllen. Dabei sorgt ihre Transformer-Architektur dafür, dass die Netze auch Zusammenhänge zwischen weiter voneinander entfernten Wörtern und Sätzen lernen können. Gibt man großen, vortrainierten Sprachmodellen einen Satzanfang vor, sagt das Modell das nächste Wort vorher und speist das wieder zurück in das Modell ein. Damit ist es in der Lage, erstaunlich menschenähnliche Texte zu produzieren.
Einblick in die Trainingsdaten der Sprachmodelle
Eigentlich sollten diese Modelle neuen Text produzieren und nicht einfach Bruchstücke gelernter Beispiele ausspucken. Mit dem richtigen Prompt, dem korrekten Satzanfang, kann man sie aber dazu verleiten, etwa eine Telefonnummer, Adressen oder Ähnliches zu vervollständigen. Die Schwierigkeit für den Angreifer besteht darin, zu erkennen, ob der Output eines Modells erfunden ist oder tatsächlich aus den Trainingsdaten stammt (Membership Attack). Dann muss ein Prompt gefunden werden, der möglichst viel von diesem Trainingsbeispiel preisgibt.
2019 entwickelten Nicholas Carlini von Google Brain und Kollegen eine Methode, die einen starken Hinweis darauf liefert, ob die Information echt oder vom Modell halluziniert ist: Sie berechneten die Perplexity der Output-Sätze – ein Maß für die Unsicherheit der Maschine bei der Konstruktion des Satzes. Je niedriger dieses Maß, desto sicherer ist das Modell, dass der Satz korrekt ist – und damit eher direkt aus dem Trainingsdatensatz stammt.
Florian Tramèr und Kollegen untersuchten auf dieser Basis 2020 systematisch, welche Trainingsdaten sie dem Sprachmodell GPT-2 entlocken konnten. In der Zwischenzeit sind von Forschungsteams weitere Angriffe demonstriert worden. Wenn ein Angreifer beispielsweise Zugriff auf die Trainingsdaten hat, kann er zudem "vergiftete Daten" einschleusen. Wird das Sprachmodell, wie Copilot von Github, etwa als Programmierhilfe genutzt, kann man zum Beispiel dafür sorgen, dass die KI systematisch Software-Bibliotheken vorschlägt, die der Angreifer vorher mit einer Hintertür versehen hat.
Hier MIT Technology Review lesen:
- Den vollständigen Artikel "Dieser Chatbot ist gefährlich" von MIT Technology Review digital
- MIT Technology Review 8/2022-Printausgabe im heise shop bestellen
- Seit 10.11. im gut sortierten Zeitschriftenhandel kaufen
(wst)