Wie OpenAI ChatGPT entwickelt hat: Ein exklusives Gespräch mit den Machern

Seite 3: Training, um das Modell zu brechen

Inhaltsverzeichnis

Da ChatGPT mit denselben Techniken entwickelt worden ist, die OpenAI zuvor verwendet hatte, ging das Team bei der Vorbereitung der Veröffentlichung des neuen Modells auch nicht anders vor. Das Team war der Meinung, dass die Messlatte, die sie an frühere Modelle gelegt hatten, ausreichend war.

Sandhini Agarwal: "Als wir uns auf die Freigabe vorbereiteten, betrachteten wir ChatGPT nicht als ein völlig neues Risikomodell. GPT-3.5 war bereits in der Welt, und wir wussten, dass es schon sicher genug war. Durch das Training von ChatGPT mit menschlichen Vorlieben hat das Modell zudem automatisch ein Ablehnungsverhalten gelernt, bei dem es viele Anfragen abblockt."

Jan Leike: "Wir hatten für ChatGPT ein zusätzliches "Red-Teaming" durchgeführt, bei dem sich alle bei OpenAI zusammengesetzt und versucht haben, das Modell zu brechen. Und wir hatten auch externe Leute, die es probierten. Wir hatten außerdem ein Early-Access-Programm mit sogenannten Trusted Users, die uns Feedback gaben."

Sandhini Agarwal: "Wir haben festgestellt, dass ChatGPT bestimmte unerwünschte Ergebnisse erzeugt, aber das waren alles die Dinge, die auch GPT-3.5 erzeugen kann. Was das Risiko angeht, war das als Forschungsvorschau – denn dafür war es ja ursprünglich gedacht – in Ordnung."

John Schulman: "Man kann nicht darauf warten, bis ein System perfekt ist, um es zu veröffentlichen. Wir hatten frühere Versionen einige Monate lang in der Beta-Phase getestet – und die Beta-Tester hatten einen positiven Eindruck von dem Produkt. Unsere größte Sorge galt der Faktentreue, da das Modell gerne Dinge erfindet. Aber InstructGPT und andere große Sprachmodelle waren bereits auf dem Markt und dementsprechend dachten wir dann, solange ChatGPT hier besser ist als andere – auch bezogen auf die Sicherheit –, sei es einsatzbereit. Vor der Markteinführung bestätigten wir also noch, dass das System unseren begrenzten Auswertungen zufolge faktentreuer und sicherer vorgeht als andere Modelle. Dann entschlossen wir uns für die Veröffentlichung."

OpenAI hat seit dem Start von ChatGPT beobachten können, wie die Leute den Chatbot benutzen. Die Firma konnte zum ersten Mal live erleben, wie ein großes Sprachmodell funktioniert, wenn es in die Hände von Millionen Nutzern gelangt, die seine Grenzen testen und nach Schwachpunkten suchen. Und seither ist das Team dabei, problematische Inhalte möglichst zu blockieren, sei es nun einen von ChatGPT gedichteten Song über Gottes Liebe zu christlichen Vergewaltigern oder vom Chatbot verfassten Malware-Code, der Kreditkartennummern stiehlt. Das Team sammelt all diese Beispiele und nutzt sie dann dazu, deren Ausgabe in künftigen Versionen zu vermeiden.

Sandhini Agarwal: "Wir haben eine Menge weiterer Schritte vor uns. Ich denke, dass die Verbreitung von ChatGPT viele Probleme, von denen wir eigentlich schon wussten, dass sie existieren, richtig zum Vorschein gebracht hat und dass diese kritisch sind – Dinge also, die wir so schnell wie möglich lösen wollen. Wir wissen zum Beispiel, dass das Modell immer noch viel Bias hat. Und ja, ChatGPT ist zwar schon sehr gut darin, Antworten auf problematische Prompts zu verweigern, aber es ist auch ziemlich einfach, sie so umzuschreiben, dass es nicht das ablehnt, was wir eigentlich ablehnen wollten."

Liam Fedus: "Es war aufregend, die vielfältigen und kreativen Anwendungen von ChatGPT durch die Nutzer zu beobachten. Wir konzentrieren uns aber immer auf Bereiche, die wir verbessern können. Wir glauben, dass wir durch einen iterativen Prozess – bei dem wir eine neue Technik einsetzen, Feedback einholen und sie daraufhin dann verfeinern – das Modell mit der besten Leistung und dem besten Alignment erschaffen können. Und wenn sich unsere Technik weiterentwickelt, tauchen unweigerlich neue Probleme auf."

Sandhini Agarwal: "In den Wochen nach dem Start haben wir uns einige der übelsten Beispiele angesehen, die die Leute entdeckt hatten, das schlimmste, was man in freier Wildbahn sehen konnte. Wir haben das dann für uns bewertet und überlegt, wie wir sie beheben können."

Jan Leike: "Manchmal ist es etwas, das auf Twitter viral geht, aber es gibt auch Leute, die so etwas still melden."