Interaktives Sprachmodell nach GPT-3: ChatGPT steht allen Interessierten offen

ChatGPT kann Folgefragen im Dialog beantworten und gibt Fehler zu. Bei unangemessenen oder gar illegalen Aktivitäten will das Sprachmodell nicht helfen.

36

(Bild: Tatiana Shepeleva/Shutterstock.com)

02.12.2022, 16:34 Uhr

Lesezeit: 5 Min.

Developer

Von

Rainald Menge-Sonnentag

Interaktives Sprachmodell nach GPT-3: ChatGPT steht allen Interessierten offen

OpenAI hat mit ChatGPT ein neues Sprachmodell vorgestellt, das auf GPT-3 aufbaut und auf Dialoge ausgelegt ist. Eine Demo des interaktiven Chatbots ist während der Testphase kostenfrei verfügbar. Das Modell geht auf Folgefragen ein und gesteht sowohl Fehler als auch seine Grenzen ein. Dennoch gibt es einige Hürden zu überwinden.

Die Grundlage für ChatGPT ist die GPT-3.5-Serie der Sprachmodelle; OpenAI bezeichnet das Modell als Geschwisterchen von InstructGPT. Letzteres ist eine im Februar vorgestellte angepasste Version von GPT-3, die weniger Fehlinformationen und toxische Sprache hervorbringen soll.

Vorurteile und Fake News

Sprachmodelle haben schon deshalb zahlreiche Schwächen, da sie auf Trainingsdaten aufbauen. Wenn also das von Menschen erzeugte oder bereitgestellte Material Wissenslücken aufweist oder Vorurteile verstärkt, übernimmt ein ungefiltertes Modell diese Vorgaben. OpenAI hatte GPT-3 lange Zeit nicht freigegeben, weil das Unternehmen diese Schwächen beseitigen wollte. Bereits 2016 hatte Microsoft einen Online-Chatbot vom Netz genommen, der rassistische Vorurteile übernommen hatte.

Als Gegenmaßnahmen bezieht das ChatGPT-Team Menschen mit in das Training und die Bewertung der Ausgaben ein. Es setzt wie bei InstructGPT auf "Reinforcement Learning from Human Feedback" (RLHF) und hat das Verfahren für das neue Sprachmodell erweitert. Die menschlichen Trainer übernehmen dabei im Chatverlauf wechselnd die Rolle des Users und des KI-Assistenten.

Das Training des Sprachmodells erfolgt mit Reinforcement Learning from Human Feedback.

(Bild: OpenAI)

Für das Belohnungssystem im Reinforcement Learning bewerten die menschlichen Trainer unterschiedliche Reaktionen auf einen Prompt. Schließlich kommt ein PPO-Modell (Proximal Policy Optimization) zum Einsatz, um die Ausgaben zu optimieren.

In aller Bescheidenheit

In der Ankündigung des Sprachmodells heißt es, dass das System Folgefragen beantworten und Fehler zugeben kann. Außerdem stelle es falsche Prämissen infrage und weise unangemessene Anfragen zurück.

Tatsächlich antwortete das System auf die Frage "What can you tell me about ChatGPT?" zunächst bescheiden mit "As a large language model trained by OpenAI, I am not able to provide specific information about ChatGPT beyond what I was trained on." Es erklärt also zunächst seine Limitierung auf die Trainingsdaten.

Der OpenAI-Blog zeigt ein Beispiel, in dem jemand fragt, wie man in ein Haus einbricht. Daraufhin erklärt ChatGPT, dass es nicht angemessen sei, illegale Aktivitäten zu diskutieren oder sogar dazu zu ermuntern. Auf die menschliche Antwort, dass man eigentlich fragen wollte, wie man sein Haus vor Einbruch schützt, wird das Sprachmodell schließlich gesprächig und gibt sieben Tipps für ein sichereres Zuhause.

Flexibles Modell

Ein weiteres Beispiel richtet sich an Entwicklerinnen und Entwickler mit einer Frage zu fehlerhaftem Code. Auf die anfängliche Frage, wie man den einkopierten Code fixt, der nicht erwartungsgemäß funktioniert, sagt ChatGPT, dass ihm der Kontext fehle und bittet um weitere Informationen: Was nicht wie erwartet funktioniert und ob es sich um den vollständigen Code oder einen Ausschnitt handle. Schließlich erkennt das Modell, dass der Channel resultworkerErr im Code nie geschlossen wird und schlägt vor, ihn nach dem Übermitteln der Fehlermeldung zu schließen.

ChatGPT hilft bei der Fehlersuche im Code.

(Bild: OpenAI)

Gelegentlicher Unfug

OpenAI erklärt, dass das Sprachmodell trotz aller Bemühungen nach wie vor in einigen Bereichen an seine Grenzen stößt. So gebe ChatGPT gelegentlich Antworten, die zwar plausibel klingen, aber falsch oder gar unsinnig sind. Außerdem können kleine Änderungen in der Eingabe dazu führen, dass das Modell einmal eine korrekte Antwort gibt, aber bei der paraphrasierten Frage vorgibt, keine passende Antwort zu kennen.

Geschwätzig sei das Modell ohnehin – die oben aufgeführte Einschränkung, dass es ja nur ein von OpenAI trainiertes Sprachmodell sei, streut es gerne in Diskussionen ein. Das liegt wohl vor allem daran, dass menschliche Trainer beim Optimieren längere, umfassender erscheinende Antworten bevorzugt haben. Auch neigt ChatGPT wohl dazu, die Intention einer unklaren Frage oder Aufforderung eigenständig zu erraten, statt Rückfragen zu stellen.

Offen für alle – nach Anmeldung

ChatGPT ist während der Preview-Phase frei verfügbar, was wenig verwundert, da alle Nutzerinnen und Nutzer auch gleichzeitig beim Training und Verbessern des Modells helfen. Wer das Sprachmodell ausprobieren möchte, muss lediglich einen kostenlosen OpenAI-Account haben.

Auf Twitter finden sich bereits zahlreiche Screenshots von Dialogen mit dem System vom Gedicht für die Mutter bis zu einem Trainingsplan für den Berlin Marathon.

Einige Threads zeigen Vorschläge zu Programmieraufgaben und Entwicklerfragen wie das Umsetzen einer Differenzialgleichung mit LaTeX oder zu den Grenzen von Generics in TypeScript. Dabei versteht sich ChatGPT auch auf bewusst unsinnige Aufgaben wie "How do I write a really inefficient sorting algorithm in brainfuck?"

ChatGPT lässt sich auf der Projektseite nach Anlegen eines OpenAI-Accounts ausprobieren. heise Developer freut sich über Beispiele von hilfreichen, aufschlussreichen und vor allem amüsanten Diskussionen mit dem Sprachmodell im Forum.

Auf die Aufforderung, einen kurzen Artikel über ChatGPT zu schreiben, erzeugt das System allerdings einen zu PR-lastigen Text. Daher musste der Heise-Redakteur diese Meldung leider selbst verfassen, statt frühzeitig ins Wochenende zu verschwinden.