Wie OpenAI ChatGPT entwickelt hat: Ein exklusives Gespräch mit den Machern

08.03.2023 07:00 Uhr Will Douglas Heaven

Logo von Open AI.

Wie fühlt es sich an, einer der Entwickler hinter dem extrem erfolgreichen KI-Textgenerator zu sein? MIT Technology Review durfte exklusiv nachfragen.

Als OpenAI Ende November 2022 mit erstaunlich wenig Aufsehen sein neuestes Produkt ChatGPT veröffentlichte, hatte das in San Francisco ansässige KI-Unternehmen eher geringe Erwartungen. Was sollte schon passieren? Ganz bestimmt war niemand bei OpenAI auf einen viralen Mega-Hit vorbereitet. Doch der kam dann doch – und was für einer. Seither sind die KI-Experten dabei, ihrem eigenen Erfolg hinterherzuhecheln und gleichzeitig Kapital aus diesem zu schlagen.

"Wir wollten das nicht als großen Fortschritt verkaufen"

Eine "Forschungsvorschau" sollte es sein, hieß es intern, wie OpenAI-Policy-Expertin Sandhini Agarwal erzählt. Man habe es als eine Art Vorgeschmack auf eine ausgefeiltere Version einer zwei Jahre alten Technologie gesehen – und, noch wichtiger, als Versuch, künftige Fehler vorab zu beheben, indem man erst einmal Feedback von der Öffentlichkeit sammelt. "Wir wollten das nicht als großen grundlegenden Fortschritt verkaufen", sagt auch Liam Fedus, Wissenschaftler bei OpenAI, der an ChatGPT [1] mitgearbeitet hat.

Um mehr über den Chatbot zu erfahren – wie es entstanden ist, wie OpenAI es seit seiner Veröffentlichung aktualisiert hat und wie die Macher über ihren Erfolg denken – konnte MIT Technology Review mit vier Personen sprechen, die an der Entwicklung einer Anwendung beteiligt waren, die in kürzester Zeit zu einer der beliebtesten Internet-Apps aller Zeiten wurde. Neben Agarwal und Fedus sprachen wir mit John Schulman, einem der Mitbegründer von OpenAI, und Jan Leike, OpenAIs Leiter des sogenannten Alignment-Teams, das sich mit dem Problem befasst, KI dazu zu bringen, das zu tun, was die Nutzer von ihr erwarten (und nichts anderes).

In den Gesprächen kam schnell das Gefühl auf, dass OpenAI selbst immer noch vom Erfolg seiner "Forschungsvorschau" ChatGPT überrascht ist. Doch mittlerweile hat die KI-Firma die Gelegenheit beim Schopfe gepackt und treibt die Technologie voran, indem sie überwacht, wie Millionen von Menschen ChatGPT nutzen. Gleichzeitig wird versucht, die schlimmsten Probleme mit dem Chatbot möglichst sofort zu lösen, wenn sie auftauchen.

OpenAI hetzt Chatbots auf Chatbots

Seit dem Start im November hat OpenAI ChatGPT bereits mehrere Male aktualisiert. Die Forscher verwenden beispielsweise eine Technik namens "Adversarial Training", um ChatGPT daran zu hindern, sich von Nutzern zu "schlechtem Verhalten" verleiten zu lassen – also so, wie sich das OpenAI nicht wünscht. Damit wird gegen das sogenannte Jailbreaking vorgegangen, das versucht, den Chatbot Dinge sagen zu lassen, die eigentlich verboten sind. [2]

Bei dieser Arbeit treten mehrere Chatbots gegeneinander an: Eine Instanz spielt den Angreifer und attackiert eine Opfer-Instanz mit Text (im ChatGPT-Sprachgebrauch: Prompts), der sie dazu zwingen soll, die eigentlich einprogrammierten Beschränkungen zu überwinden und unerwünschte Antworten zu geben. Erfolgreiche Angriffe werden den Trainingsdaten von ChatGPT hinzugefügt – in der Hoffnung, dass das System lernt, sie zu ignorieren.

OpenAI hat außerdem ein Milliardeninvestment von Microsoft erhalten [3] und eine Allianz mit der global operierenden Unternehmensberatung Bain [4] abgeschlossen. Letztere soll generative KI-Modelle auch in Marketingkampagnen für Kunden der Consultants bringen, darunter Coca-Cola. Außerhalb von OpenAI hat ChatGPT einen gigantischen Hype ausgelöst: Es gibt einen Run auch auf andere große KI-Sprachmodelle, viele Start-ups und sehr viel Risikokapital.

Viel passiert in nur drei Monaten

In drei kurzen Monaten ist also viel passiert. Doch woher kommt ChatGPT eigentlich wirklich? Und welche Schritte hat OpenAI unternommen, um sicherzustellen, dass es wirklich "ready" für die Veröffentlichung war? Wohin geht die Reise als nächstes? Die Macher von OpenAI geben Antworten. Der Text wurde aus Gründen der Länge und Übersichtlichkeit editiert.

Jan Leike: "Ehrlich gesagt war es überwältigend. Wir sind überrascht worden und haben dann einfach versucht, diesen Rückstand aufzuholen."

John Schulman: "In den Tagen nach der Veröffentlichung habe ich viel auf Twitter geschaut, und es gab diese echt verrückte Phase, in der sich mein Feed mit ChatGPT-Screenshots füllte. Ich hatte erwartet, dass das Ding für die Leute intuitiv nutzbar sein würde, schnell eine Fangemeinde findet. Aber ich hatte nicht erwartet, dass es diesen Grad an Mainstream-Popularität erreichen würde."

Sandhini Agarwal: "Ich glaube, es war für uns alle eine Überraschung, wie stark die Leute ChatGPT zu nutzen begannen. Wir arbeiten so viel an diesen Modellen, dass wir manchmal vergessen, wie überwältigend sie für die Außenwelt sein können."

Liam Fedus: "Wir waren wirklich überrascht, wie gut es angenommen wurde. Es gab schon so viele frühere Versuche, einen universell einsetzbaren Chatbot zu entwickeln und ich wusste, dass die Chancen eher gegen uns stehen würden. Ein privater Betatest hat uns dann jedoch das Selbstvertrauen gegeben, dass wir es hier mit etwas zu tun haben, das den Leuten wirklich gefallen könnte."

Jan Leike: "Ich würde gerne besser verstehen, was das alles angetrieben hat – was diese Viralität brachte. Ehrlich gesagt verstehen wir es immer noch nicht. Wir wissen es nicht."

Die Technologie von ChatGPT ist nicht neu

Ein Teil der Verwirrung des ChatGPT-Teams rührte daher, dass der Großteil der Technologie des Chatbots nicht neu ist. ChatGPT ist eine Finetuning-Version von GPT-3.5, einer Familie von großen Sprachmodellen, die OpenAI Monate vor dem Chatbot veröffentlicht hatte. GPT-3.5 ist wiederum eine aktualisierte Version von GPT-3, das 2020 erschienen war [5]. Das Unternehmen stellt diese Modelle auf seiner Website über Programmierschnittstellen (APIs) zur Verfügung, die es anderen Softwareentwicklern erlaubt, die Modelle in ihren eigenen Code einzubinden. Im Januar 2022 war zudem InstructGPT veröffentlicht worden [6], eine besser an Nutzerinteraktionen angepasste Variante. Die Öffentlichkeit bekam davon aber nur am Rande etwas mit.

Liam Fedus: "Das ChatGPT-Modell wurde auf der Grundlage desselben Sprachmodells wie InstructGPT einem Finetuning unterzogen und wir haben eine ähnliche Methodik verwendet. Wir hatten dann einige Konversationsdaten hinzugefügt und den Trainingsprozess weiter optimiert. Wir wollten das aber nicht als großen grundlegenden Fortschritt verkaufen. Wie sich herausstellte, hatten die Konversationsdaten einen großen positiven Einfluss auf ChatGPT."

John Schulman: "Die reinen technischen Fähigkeiten, wie sie von Standard-Benchmarks bewertet werden, unterscheiden sich nicht wesentlich zwischen den Modellen, aber ChatGPT ist für die Menschen zugänglicher und benutzbarer."

Jan Leike: "In gewisser Weise kann man ChatGPT als eine neue Version eines KI-Systems verstehen, das wir schon eine Weile hatten. Es ist kein grundlegend leistungsfähigeres Modell als das, was wir vorher anboten. Die gleichen Basismodelle waren schon fast ein Jahr lang über die API verfügbar, bevor ChatGPT herauskam. Auf eine Art haben wir es mehr auf das ausgerichtet, was Menschen damit tun wollen. Es spricht mit ihnen in einem Dialog, es ist über eine Chat-Schnittstelle leicht zugänglich, es versucht, hilfreich zu sein. Das ist der erstaunliche Fortschritt daran und ich glaube, die Leute sehen das auch."

John Schulman: "Es erkennt leichter, was der Nutzer will. Und die User können im Hin und Her des Dialoges zu dem gelangen, was sie wollen."

Das Geheimnis von ChatGPT

ChatGPT wurde auf sehr ähnliche Weise wie InstructGPT trainiert, und zwar mit einer Technik, die sich "Reinforcement Learning from Human Feedback" (RLHF) nennt. Dies ist das eigentliche Geheimnis von ChatGPT. Die Grundidee dabei ist, ein großes Sprachmodell zu nehmen, das die Tendenz hat, alles auszuspucken, was es möchte, also vorhersagt – in diesem Fall GPT-3.5 – und es darauf zu optimieren, Antworten auszugeben, die menschliche Nutzer tatsächlich bevorzugen.

Jan Leike: "Wir ließen eine große Gruppe von Leuten ChatGPT-Prompts und deren Antworten lesen und dann bewerten, ob eine Antwort einer anderen vorzuziehen ist. Alle diese Daten wurden dann in einem Trainingslauf zusammengeführt. Vieles davon entspricht dem, was wir mit InstructGPT gemacht haben. Man möchte, dass das Modell hilfreich ist, man möchte, dass es wahrheitsgemäß antwortet, man will, dass es – Sie wissen schon, was ich meine – nicht toxisch ist. Und dann gibt es Dinge, die spezifisch auf die Produktion von Dialogen und die Rolle eines Assistenten gemünzt sind. Beispielsweise wenn der Prompt nicht so klar ist, sollte ChatGPT Folgefragen stellen. Es sollte auch klarmachen, dass es ein KI-System ist. Es sollte keine Identität einer Person annehmen, die es nicht ist. Es sollte außerdem nicht behaupten, Fähigkeiten zu haben, die es nicht besitzt. Und wenn ein Benutzer es bittet, Aufgaben zu erledigen, die es nicht tun sollte, muss es die ablehnen. Einer dieser Satzteile, die bei diesem Training dann auftauchten, war: 'Als ein von OpenAI trainiertes Sprachmodell [kann ich]...' Das wurde von da nicht explizit eingebaut, aber es ist eines der Dinge, die von den menschlichen Bewertern als wichtig eingestuft wurden."

Sandhini Agarwal: "Ja, ich glaube, genau so ist es passiert. Es gab eine Liste mit verschiedenen Kriterien, nach denen die menschlichen Bewerter das Modell einstufen mussten, z. B. Wahrheitsgehalt. Aber sie begannen auch, Dinge zu bevorzugen, die sie als sinnvolle Praxis ansahen, z. B. dass das System nicht vorgibt, etwas zu sein, das es nicht ist."

Training, um das Modell zu brechen

Da ChatGPT mit denselben Techniken entwickelt worden ist, die OpenAI zuvor verwendet hatte, ging das Team bei der Vorbereitung der Veröffentlichung des neuen Modells auch nicht anders vor. Das Team war der Meinung, dass die Messlatte, die sie an frühere Modelle gelegt hatten, ausreichend war.

"GPT-3.5 war bereits in der Welt"

Sandhini Agarwal: "Als wir uns auf die Freigabe vorbereiteten, betrachteten wir ChatGPT nicht als ein völlig neues Risikomodell. GPT-3.5 war bereits in der Welt, und wir wussten, dass es schon sicher genug war. Durch das Training von ChatGPT mit menschlichen Vorlieben hat das Modell zudem automatisch ein Ablehnungsverhalten gelernt, bei dem es viele Anfragen abblockt."

Jan Leike: "Wir hatten für ChatGPT ein zusätzliches "Red-Teaming" durchgeführt, bei dem sich alle bei OpenAI zusammengesetzt und versucht haben, das Modell zu brechen. Und wir hatten auch externe Leute, die es probierten. Wir hatten außerdem ein Early-Access-Programm mit sogenannten Trusted Users, die uns Feedback gaben."

Sandhini Agarwal: "Wir haben festgestellt, dass ChatGPT bestimmte unerwünschte Ergebnisse erzeugt, aber das waren alles die Dinge, die auch GPT-3.5 erzeugen kann. Was das Risiko angeht, war das als Forschungsvorschau – denn dafür war es ja ursprünglich gedacht – in Ordnung."

John Schulman: "Man kann nicht darauf warten, bis ein System perfekt ist, um es zu veröffentlichen. Wir hatten frühere Versionen einige Monate lang in der Beta-Phase getestet – und die Beta-Tester hatten einen positiven Eindruck von dem Produkt. Unsere größte Sorge galt der Faktentreue, da das Modell gerne Dinge erfindet. Aber InstructGPT und andere große Sprachmodelle waren bereits auf dem Markt und dementsprechend dachten wir dann, solange ChatGPT hier besser ist als andere – auch bezogen auf die Sicherheit –, sei es einsatzbereit. Vor der Markteinführung bestätigten wir also noch, dass das System unseren begrenzten Auswertungen zufolge faktentreuer und sicherer vorgeht als andere Modelle. Dann entschlossen wir uns für die Veröffentlichung."

Wie OpenAI ChatGPT optimiert

OpenAI hat seit dem Start von ChatGPT beobachten können, wie die Leute den Chatbot benutzen. Die Firma konnte zum ersten Mal live erleben, wie ein großes Sprachmodell funktioniert, wenn es in die Hände von Millionen Nutzern gelangt, die seine Grenzen testen und nach Schwachpunkten suchen. Und seither ist das Team dabei, problematische Inhalte möglichst zu blockieren, sei es nun einen von ChatGPT gedichteten Song über Gottes Liebe zu christlichen Vergewaltigern [7] oder vom Chatbot verfassten Malware-Code, der Kreditkartennummern stiehlt. Das Team sammelt all diese Beispiele und nutzt sie dann dazu, deren Ausgabe in künftigen Versionen zu vermeiden.

Sandhini Agarwal: "Wir haben eine Menge weiterer Schritte vor uns. Ich denke, dass die Verbreitung von ChatGPT viele Probleme, von denen wir eigentlich schon wussten, dass sie existieren, richtig zum Vorschein gebracht hat und dass diese kritisch sind – Dinge also, die wir so schnell wie möglich lösen wollen. Wir wissen zum Beispiel, dass das Modell immer noch viel Bias hat. Und ja, ChatGPT ist zwar schon sehr gut darin, Antworten auf problematische Prompts zu verweigern, aber es ist auch ziemlich einfach, sie so umzuschreiben, dass es nicht das ablehnt, was wir eigentlich ablehnen wollten."

Liam Fedus: "Es war aufregend, die vielfältigen und kreativen Anwendungen von ChatGPT durch die Nutzer zu beobachten. Wir konzentrieren uns aber immer auf Bereiche, die wir verbessern können. Wir glauben, dass wir durch einen iterativen Prozess – bei dem wir eine neue Technik einsetzen, Feedback einholen und sie daraufhin dann verfeinern – das Modell mit der besten Leistung und dem besten Alignment erschaffen können. Und wenn sich unsere Technik weiterentwickelt, tauchen unweigerlich neue Probleme auf."

Sandhini Agarwal: "In den Wochen nach dem Start haben wir uns einige der übelsten Beispiele angesehen, die die Leute entdeckt hatten, das schlimmste, was man in freier Wildbahn sehen konnte. Wir haben das dann für uns bewertet und überlegt, wie wir sie beheben können."

Jan Leike: "Manchmal ist es etwas, das auf Twitter viral geht, aber es gibt auch Leute, die so etwas still melden."

Arbeit für ein zukünftiges Modell

Sandhini Agarwal: "Viele Dinge, die wir gefunden haben, waren Jailbreaks, was definitiv ein Problem ist, das wir lösen müssen. Die Nutzer probieren dafür diese komplizierten Methoden, um das Modell dazu zu bringen, schlechte Dinge zu sagen. Das haben wir natürlich nicht komplett übersehen und es war für uns auch nicht sehr überraschend. Dennoch ist das etwas, woran wir im Moment aktiv arbeiten. Wenn wir Jailbreaks finden, fügen wir sie zu unseren Trainings- und Testdaten hinzu. Alle Dinge, die wir sehen, fließen in ein zukünftiges Modell ein."

Jan Leike: "Jedes Mal, wenn wir ein besseres Modell haben, wollen wir es sofort herausbringen und testen. Wir sind sehr optimistisch, dass das Targeted Adversarial Training die Situation beim Jailbreaking deutlich verbessern kann. Es ist nicht klar, ob diese Probleme ganz verschwinden werden, aber wir glauben, dass wir einen Großteil wesentlich erschweren können. Es ist ja nicht so, dass wir vor der Veröffentlichung nicht gewusst hätten, dass so etwas möglich ist. Ich glaube aber, es ist sehr schwierig, die wirklichen Sicherheitsprobleme dieser Systeme vorherzusehen, wenn man sie erst einmal eingeführt hat. Deshalb legen wir großen Wert darauf, zu beobachten, wofür die Leute das System nutzen, zu sehen, was hier passiert – und dann darauf zu reagieren. Das soll nicht heißen, dass wir nicht proaktiv Sicherheitsprobleme entschärfen sollten. Aber ja, es ist sehr schwer, alles vorherzusagen, was passieren wird, wenn ein System dann in der realen Welt zum Einsatz kommt.

Bing Chat betritt die Bühne

Im Januar stellte Microsoft sein Bing Chat [8] vor, einen Such-Chatbot, von dem viele annehmen, dass er eine Version des offiziell noch nicht angekündigten GPT-4 von OpenAI ist. Dort kommentiert man das stur mit der Aussage, dass Bing Chat von "einem unserer Modelle der nächsten Generation" betrieben werde. Microsoft habe es speziell für seine Suchmaschine angepasst. Es beinhalte "Fortschritte von ChatGPT und GPT-3.5".

Natürlich schafft der Einsatz von Chatbots durch Tech-Giganten, die einen milliardenschweren Ruf zu verlieren haben, ganz neue Herausforderungen für diejenigen, die mit der Entwicklung der zugrunde liegenden Modelle beauftragt sind.

Sandhini Agarwal: "Im Moment steht definitiv mehr auf dem Spiel als noch vor sechs Monaten, aber es ist immer noch weniger als in einem Jahr. Eine Sache, die bei diesen Modellen wirklich wichtig ist, ist der Kontext, in dem sie eingesetzt werden. Bei Google oder Microsoft reicht schon eine Tatsache aus, die nicht der Wahrheit entspricht, um zu einem großen Problem zu werden, weil es sich um Suchmaschinen handelt. Das erforderliche Verhalten eines großen Sprachmodells für etwas wie die Internet-Suche ist ein ganz anderes als für etwas, das eine Art spielerischer Chatbot ist. Wir müssen herausfinden, wie wir den Spagat zwischen all diesen verschiedenen Verwendungszwecken hinbekommen. Die Technik muss für die Menschen in einer Reihe von Kontexten nützlich sein, in denen das gewünschte Verhalten sehr unterschiedlich sein kann. Das erhöht den Druck. Denn wir wissen jetzt, dass wir diese Modelle so entwickeln müssen, dass sie in Produkten eingesetzt werden können. ChatGPT ist, seitdem wir nun eine eigene API haben, ein Produkt. Wir bauen eine Art Allzwecktechnik auf und müssen sicherstellen, dass sie in allen Bereichen gut funktioniert. Das ist eine der größten Herausforderungen, vor denen wir im Moment stehen."

"ChatGPT scheitert sehr oft"

John Schulman: "Ich habe das Ausmaß unterschätzt, in dem sich die Leute mit der politischen Seite von ChatGPT befassen würden. Wir hätten beim Zusammentragen der Trainingsdaten möglicherweise bessere Entscheidungen treffen können, was dieses Problem verringert hätte. Daran arbeiten wir jetzt."

Jan Leike: "Aus meiner Sicht scheitert ChatGPT sehr oft – es gibt so viel zu tun. Ich habe nicht das Gefühl, dass wir die Probleme gelöst haben. Wir müssen uns selbst über die Grenzen der Technologie im Klaren sein – und andere müssen das auch. Ich meine, Sprachmodelle gibt es jetzt schon eine ganze Weile, aber wir stehen immer noch am Anfang. Wir wissen um all die Probleme, die sie haben. Ich denke, wir müssen einfach ganz offen dabei sein, die Erwartungen managen und deutlich machen, dass es sich hier nicht um ein fertiges Produkt handelt."

(jle [10])

URL dieses Artikels:
https://www.heise.de/-7536897

Links in diesem Artikel:
[1] https://www.heise.de/thema/ChatGPT
[2] https://www.heise.de/meinung/Von-wegen-ChatGPT-Ich-bin-ein-Mensch-Ihr-Pisser-7486117.html
[3] https://www.heise.de/news/Microsoft-investiert-weitere-Milliarden-in-ChatGPT-Entwickler-OpenAI-7468786.html
[4] https://www.bain.com/vector-digital/partnerships-alliance-ecosystem/openai-alliance/
[5] https://www.heise.de/hintergrund/GPT-3-Schockierend-guter-Sprachgenerator-4867089.html
[6] https://www.heise.de/news/OpenAI-Feinjustierte-Version-von-GPT-3-soll-Nutzer-Anweisungen-besser-umsetzen-6343674.html
[7] https://twitter.com/IrvingPeres/status/1599488357499011072
[8] https://www.heise.de/news/Microsoft-ruestet-Bing-und-Edge-mit-KI-auf-7488391.html
[9] https://www.instagram.com/technologyreview_de/
[10] mailto:jle@heise.de