KI-Sprachmodell: Meta schickt den nächsten GPT-3-Herausforderer ins Rennen

Effizienter, flexibler und offener als GPT-3 lautet das Versprechen für die unter dem Namen OPT veröffentlichten Transformermodelle.

2

(Bild: lassedesignen/Shutterstock.com)

03.05.2022, 15:36 Uhr

Lesezeit: 4 Min.

Developer

Von

Rainald Menge-Sonnentag

Die KI-Abteilung von Meta hat mit Open Pre-trained Transformer (OPT) Language Models große Sprachmodelle (Large Language Models, LLM) angekündigt. Das ehemals als Facebook geführte Unternehmen will acht Modelle veröffentlichen, die zwischen 125 Millionen und 175 Milliarden Parameter aufweisen. Die Sprachmodelle dienen dazu, automatisiert Texte zu erstellen, deren Grundlagen sie anhand eines umfangreichen Trainingskorpus aus dem Internet gelernt haben.

In einer Abhandlung auf arXiv stellen 19 Forscherinnen und Forscher von Meta AI das Konzept und die Modelle vor, die sie mit GPT-3 (Generative Pre-trained Transformer) vergleichen. OpenAI hat das derzeit wohl bekannteste Sprachmodell, das ebenfalls auf 175 Milliarden Parameter kommt, zwar bereits im Sommer 2020 vorgestellt, aber den Zugriff anfangs nicht öffentlich freigegeben. Zunächst wollte das Unternehmen verhindern, dass das Modell Vorurteile verinnerlicht. Im November 2021 hat OpenAI die eigenen Sicherheitsmaßnahmen als ausreichend befunden und seitdem die API geöffnet.

Videos by heise

Transparente Texterstellung

Damit haben inzwischen alle Interessierten freien Zugriff auf die Programmierschnittstelle, um Texte mit GPT-3 zu erstellen. In die Arbeitsweise des Modells gibt OpenAI jedoch keinen Einblick. An der Stelle präsentiert Meta sein Modell als offene Alternative, was das "Open" im Namen betonen soll.

Lesen Sie auch

GPT-3: Schreibwunder und Lügenbaron | c’t uplink 42.6

Meta macht keinen Hehl daraus, dass GPT-3 als Vorbild dient: In dem Fazit der Abhandlung heißt es "unser Ziel war es, die Performance und die Größe der GPT-3-Modellklasse nachzubilden und dabei die jüngsten Best Practices beim Kuratieren der Daten und bei der Effizienz des Trainings umzusetzen".

Textauswahl und Fußabdruck

Als Texte für das Pre-Training nutzt das Team unter anderem einen Teil des noch zu Facebook-Zeiten veröffentlichten RoBERTa-Korpus, der auf Googles Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) aufbaut. Hinzu kommen Teile der Datensätze The Pile und Pushshift-Reddit.

Lesen Sie auch

Wer, wie, was: Textanalyse über Natural Language Processing mit BERT

Laut der Abhandlung soll das Entwickeln von OPT-175B nur ein Siebtel des CO₂-Fußabdrucks des gleich großen GPT-3 Modells aufweisen, wobei der Text darauf hinweist, dass die geschätzten Zahlen keine festen Fakten und die Methoden zum Schätzen nicht standardisiert sind.

Meta will die eigenen Transformermodelle "vollständig und verantwortungsbewusst" mit allen interessierten Forschern teilen. Das soll unter anderem dazu dienen, einerseits die Robustheit und andererseits den Bias und die vergiftete Sprache der Modelle zu erforschen. Den negativen Einflüssen ist mit "Bias & Toxicity Evaluations" ein eigenes Kapitel in der Abhandlung gewidmet, das Benchmarks zum Erkennen von Hassrede, Stereotypen und vergifteten Inhalten aufzeigt und ein vollständig unüberwachtes Setting voll überwachten Modellen gegenüberstellt.

Von 125 Millionen bis 175 Milliarden

Das kleinste der acht Modelle hat "lediglich" 125 Millionen Parameter und 12 Ebenen, während das größte die Parameter mehr als vertausendfacht und auf 175 Milliarden Parameter bei 96 Layers kommt. Vollständig veröffentlichen will Meta die Modelle bis zu einer Größe von 30 Milliarden Parametern.

OPT kommt in acht verschiedenen Variationen mit unterschiedlichen Parametern, Schichten und Batch-Größen.

(Bild: Meta)

Das größte Modell OPT-175B (das "B" steht für das englische Billion, also Milliarden) will Meta auf Anfrage für akademische Forschungsabteilungen freigeben. Die Abhandlung verweist zudem auf ein GitHub-Repository mit der Codebasis metaseq, die aber beim Schreiben dieser Meldung nicht erreichbar war.

Der Platzhirsch GPT-3 und seine Herausforderer

In den letzten Wochen und Monaten haben einige Firmen Sprachmodelle und Transformer ins Rennen geschickt. Anfang April hat Google PaLM (Pathways Language Model) vorgestellt. Das Sprachmodell hat 540 Milliarden Parameter, also dreimal so viele wie die größte OPT-Ausführung.

Am 2. und 3. Juni geht die Minds Mastering Machines 2022 in die fünfte Runde. Nach zwei Online-Veranstaltungen in den vergangenen Jahren findet die Machine-Learning-Konferenz dieses Jahr wieder vor Ort statt.

Für das Programm haben die Veranstalter heise Developer, iX und dpunkt.verlag dieses Jahr besonders viele Erfahrungsberichte ausgewählt. Daneben stehen aktuelle ML-Themen wie Sentence Embeddings, Kausale Inferenz, Data Mesh und Knowledge Destillation auf dem Plan. Einige Vorträge beschäftigen sich zudem mit dem Weg vom Modell zum Produktivbetrieb über MLOps.

Im Januar hat ein Konsortium aus zehn deutschen Organisationen unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS mit OpenGPT-X einen europäischen Herausforderer für GPT-3 ins Leben gerufen und als Starthilfe Fördergelder in Höhe von 15 Millionen Euro eingestrichen. Ebenfalls aus Europa stammt die im April veröffentlichte LUMINOUS-Serie des Heidelberger Unternehmens Aleph Alpha.

Weitere Details zu den Open Pre-trained Transformer Language Models lassen sich dem Paper der KI-Abteilung von Meta auf arXiv entnehmen.

(rme)