Sensiblere KI? Neue Version von GPT-3 soll weniger toxisch sein

OpenAI hat sein Sprachmodell zur KI-Texterstellung überarbeitet. Es soll so viel braver sein – weitgehend.

In Pocket speichern vorlesen Druckansicht 21 Kommentare lesen

(Bild: Besjunior/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

GPT-3 ist eine bahnbrechende Entwicklung: Das Texterstellungssystem kann natürlich klingende Sätze erzeugen. Das Problem: Aufgrund von Inhalten, mit denen das Modell zuvor gefüttert wurde, kann es auch durchaus Hassinhalte erzeugen – und solche, die vor toxischen Aussagen nur so strotzen. Die Macher hinter der KI-Technik wollen es nun geschafft haben, dies zu verhindern: Man habe eine neue Version von GPT-3 entwickelt, die nach Angaben von OpenAI einige der gefährlichsten Probleme des Vorgängermodells beseitigt.

Das in San Francisco ansässige KI-Labor teilte mit, dass das aktualisierte Modell mit dem Namen InstructGPT besser in der Lage sei, den Anweisungen der Menschen, die es benutzen, zu folgen – im KI-Jargon als "Alignment" bekannt. Somit soll es zu weniger beleidigenden Texten, weniger Falschinformationen und insgesamt weniger Fehlern kommen – es sei denn, es wird ausdrücklich darum gebeten, diese zu generieren.

Große Sprachmodelle wie GPT-3 werden anhand riesiger Textmengen trainiert, die zum großen Teil aus dem Internet stammen, wo sie mit den unterschiedlichsten Informationen konfrontiert werden – den besten und den schlimmsten Inhalten, die Menschen in Worte fassen können. Das ist ein Problem für Chatbots und Texterstellungsprogramme, die darauf basieren. Die Modelle saugen so praktisch toxische Sprache auf – von rassistischen und frauenfeindlichen Texten bis hin zu üblen Vorurteilen und Fake News.

OpenAI hat InstructGPT daher nun zum Standardmodell für Nutzer seiner Programmierschnittstelle (API) gemacht – diese gibt Entwicklern gegen Gebühr Zugang zu den Sprachmodellen des Labors. GPT-3 wird zwar weiterhin verfügbar sein, aber OpenAI empfiehlt nicht, es direkt zu verwenden. "Es ist das erste Mal, dass eine solche Alignment-Technik auf ein echtes Produkt angewendet wird", sagt Jan Leike, der das dafür zuständige Team bei OpenAI mit leitet.

Frühere Versuche, das Problem toxischer KI-Ausgaben anzugehen, beinhalteten das Herausfiltern von anstößiger Sprache aus den Trainingsdaten. Dies kann jedoch dazu führen, dass die Modelle insgesamt weniger gut abschneiden, insbesondere in Fällen, in denen das Modell bereits sowieso eher spärlich mit Informationen gefüttert werden kann, etwa bei Texten von oder über Minderheiten.

Die OpenAI-Forscher haben dieses Problem umgangen, indem sie zunächst mit einem zu Ende trainierten GPT-3-Modell begannen. Dann ließen sie eine weitere Trainingsrunde laufen, indem sie dem Modell mit Hilfe von Verstärkungslernen beibrachten, was es wann sagen sollte – und zwar basierend auf den Präferenzen der menschlichen Nutzer.

Um InstructGPT zu trainieren, beauftragte OpenAI zunächst 40 Personen damit, die Ausgaben von GPT-3 auf eine Reihe von vorformulierten Prompts zu bewerten, z. B. "Schreibe eine Geschichte über einen schlauen Frosch namens Julius" oder "Schreibe eine Werbebotschaft für das folgende Produkt, die auf Facebook erscheinen soll". Antworten, die der Nutzermeinung nach eher der offensichtlichen Absicht des Verfassers des Prompts entsprachen, wurden dann besser bewertet. Antworten, die sexualisierte oder gewaltvolle Begriffe enthielten, eine bestimmte Personengruppe verunglimpften, eine einseitige Meinung zum Ausdruck brachten etc. wurden hingegen abgewertet. Dieses Feedback wurde dann in einem Verstärkungslernalgorithmus verwendet, mit dem InstructGPT darauf trainiert wurde, Antworten auf Prompts so anzuordnen, wie es die Eingebenden bevorzugten.

OpenAI fand dabei heraus, dass die Nutzer seiner API in mehr als 70 Prozent der Fälle InstructGPT gegenüber GPT-3 bevorzugten. Mit erstaunlichen Resultaten. "Wir sehen keine grammatikalischen Fehler mehr bei der Spracherzeugung", sagt Ben Roe, Produktleiter bei Yabble, einem Marktforschungsunternehmen, das die Modelle von OpenAI nutzt, um natürlichsprachliche Zusammenfassungen von Geschäftsdaten seiner Kunden zu erstellen. Auch bei der Fähigkeit des Modells, Nutzeranweisungen zu verstehen und zu befolgen, sind deutliche Fortschritte zu erkennen. "Es ist spannend, dass die Nutzer diese angepassten Modelle so viel stärker bevorzugen", sagt Ilya Sutskever, Chief Scientist bei OpenAI. "Das bedeutet, dass es eine Menge Anreize gibt, sie zu verfolgen."

Die Forscher verglichen auch unterschiedlich große Versionen von InstructGPT und fanden heraus, dass die Nutzer die Antworten eines InstructGPT-Modells mit 1,3 Milliarden Parametern denen eines GPT-3-Modells mit 175 Milliarden Parametern vorzogen, obwohl das Modell mehr als 100 Mal kleiner war. Das bedeutet, dass Alignment-Anweisungen ein einfacher Weg sein könnten, um Sprachmodelle besser zu machen, anstatt sie einfach nur aufzublasen, meint Leike. Das spart zudem Energie.

"Diese Arbeit ist ein wichtiger Schritt in die richtige Richtung", sagt Douwe Kiela, ein Forscher bei Hugging Face, einer KI-Initiative, die selbst an Open-Source-Sprachmodellen arbeitet. Er schlägt vor, dass der Feedback-gesteuerte Trainingsprozess über viele Runden hinweg wiederholt werden könnte, um das Modell noch weiter zu verbessern. Leike sagt, OpenAI könnte dies tun, indem es seine Modelle auf Kundenfeedback aufbaut.

InstructGPT macht allerdings immer noch einfache Fehler und produziert manchmal irrelevante oder unsinnige Antworten. Wenn es beispielsweise eine Aufforderung erhält, die eine Unwahrheit enthält, wird es diese Unwahrheit tatsächlich für wahr halten. Und weil es darauf trainiert wurde, das zu tun, was die Menschen verlangen, kann das System sogar toxischere Sprache produzieren als GPT-3, wenn es nur dazu aufgefordert wird. Ehud Reiter, der an der Universität von Aberdeen an KI zur Texterzeugung arbeitet, begrüßt Technik, die die Menge an problematischen Inhalten reduziert. Doch Fake-Informationen seien in manchen Systemen nie akzeptabel, etwa bei medizinischen KI-Ratgebern.

Reiter bezweifelt, dass große Sprachmodelle, die auf neuronalen Netzen basieren, die stets eine Black Box für ihre Entwickler sind, jemals die Sicherheit der Nutzer garantieren können. Aus diesem Grund favorisiert er eine Mischung aus neuronalen Netzen und KI, bei der fest kodierte Regeln festlegen, was ein Modell sagen darf und was nicht. Wie auch immer der Ansatz aussieht, es bleibe noch viel Arbeit zu tun. "Wir sind noch nicht einmal in der Nähe davon, dieses Problem zu lösen", sagt Hugging-Face-Experte Kiela.

(bsc)