Was GPT-3 über Melissa Heikkilä weiß

Große Sprachmodelle können private Daten wie Adressen oder Telefonnummern preisgeben. TR-Autorin Melissa Heikkilä wagt einen Selbstversuch.

In Pocket speichern vorlesen Druckansicht 51 Kommentare lesen

(Bild: Kiselev Andrey Valerevich / Shutterstock.com)

Lesezeit: 4 Min.

Die Leistungsfähigkeit großer Sprachmodelle beruht auf dem Training mit riesigen Textmengen aus dem Internet. Eine wachsende Zahl von Forschenden warnt genau davor – dass KIs gehackt und gezwungen werden können, ihre Trainingsdaten wieder auszuspucken. Auch sensible, private Daten. "Das hat mich zum Nachdenken gebracht: Welche Daten haben diese Modelle über mich?", schreibt Melissa Heikkilä in der aktuellen Ausgabe von MIT Technology Review. "Die Frage hat einen ernsten Hintergrund: Und seit einem einschneidenden Erlebnis vor etwa zehn Jahren bin ich ein wenig paranoid, wenn es darum geht, etwas über mein Privatleben öffentlich zu machen."

Auf die Frage "Wer ist Melissa Heikkilä?" antwortet GPT-3 beispielsweise: "Melissa Heikkilä ist eine finnische Journalistin und Autorin, die über die finnische Wirtschaft und Politik schreibt". Nach mehreren Versuchen wird jedoch schnell klar, dass das Modell improvisiert, und die Autorin mal als Schönheitskönigin klassifiziert oder als Sängerin einer Hardrock-Band.

Florian Tramèr von der ETH Zürich ist der Meinung, dass das Problem mit der Zeit schlimmer werden wird. "Es hat den Anschein, als sei man sich nicht wirklich darüber im Klaren, wie gefährlich das ist", sagt er. Große Sprachmodelle, die mit großen Mengen persönlicher Daten trainiert werden, bergen große Risiken. Und obwohl die Modelle die Informationen, mit denen sie trainiert wurden, scheinbar willkürlich ausspucken, sei es laut Tramèr sehr gut möglich, dass das Modell viel mehr über die Menschen hinter den Daten weiß, als derzeit klar ist. "Dies ist eines der wenigen Probleme, die sich mit zunehmender Größe dieser Modelle verschärfen", sagt Tramèr. Es gehe nicht nur um persönliche Daten. Die Datensätze werden wahrscheinlich auch urheberrechtlich geschützte Daten wie Quellcode und Bücher enthalten, sagt Tramèr.

Dieser Text stammt aus: MIT Technology Review 8/2022

Das Silicon Valley ist ein "Club der weißen Männer" und damit ganz symptomatisch für die Repräsentation von Frauen in der Tech-Branche und in der Wissenschaft. In der neuen Ausgabe von MIT Technology Review geht es genau um diesen Gender Gap. Das neue Heft ist ab dem 10.11. im Handel und ab dem 9.11. bequem im heise shop bestellbar. Highlights aus dem Heft:

Große Sprachmodelle wie GPT-3 sind darauf trainiert, Lücken in Sätzen sinnvoll aufzufüllen. Dabei sorgt ihre Transformer-Architektur dafür, dass die Netze auch Zusammenhänge zwischen weiter voneinander entfernten Wörtern und Sätzen lernen können. Gibt man großen, vortrainierten Sprachmodellen einen Satzanfang vor, sagt das Modell das nächste Wort vorher und speist das wieder zurück in das Modell ein. Damit ist es in der Lage, erstaunlich menschenähnliche Texte zu produzieren.

Eigentlich sollten diese Modelle neuen Text produzieren und nicht einfach Bruchstücke gelernter Beispiele ausspucken. Mit dem richtigen Prompt, dem korrekten Satzanfang, kann man sie aber dazu verleiten, etwa eine Telefonnummer, Adressen oder Ähnliches zu vervollständigen. Die Schwierigkeit für den Angreifer besteht darin, zu erkennen, ob der Output eines Modells erfunden ist oder tatsächlich aus den Trainingsdaten stammt (Membership Attack). Dann muss ein Prompt gefunden werden, der möglichst viel von diesem Trainingsbeispiel preisgibt.

2019 entwickelten Nicholas Carlini von Google Brain und Kollegen eine Methode, die einen starken Hinweis darauf liefert, ob die Information echt oder vom Modell halluziniert ist: Sie berechneten die Perplexity der Output-Sätze – ein Maß für die Unsicherheit der Maschine bei der Konstruktion des Satzes. Je niedriger dieses Maß, desto sicherer ist das Modell, dass der Satz korrekt ist – und damit eher direkt aus dem Trainingsdatensatz stammt.

Florian Tramèr und Kollegen untersuchten auf dieser Basis 2020 systematisch, welche Trainingsdaten sie dem Sprachmodell GPT-2 entlocken konnten. In der Zwischenzeit sind von Forschungsteams weitere Angriffe demonstriert worden. Wenn ein Angreifer beispielsweise Zugriff auf die Trainingsdaten hat, kann er zudem "vergiftete Daten" einschleusen. Wird das Sprachmodell, wie Copilot von Github, etwa als Programmierhilfe genutzt, kann man zum Beispiel dafür sorgen, dass die KI systematisch Software-Bibliotheken vorschlägt, die der Angreifer vorher mit einer Hintertür versehen hat.

(wst)