2021: Das Jahr der KI-Monstermodelle

Das Sprachmodell GPT-3 leitete einen neuen Trend zu immer größeren Modellen ein. Wie groß können sie werden und was handelt man sich damit ein?

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen

(Bild: everything possible/Shutterstock.com)

Lesezeit: 7 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Das perfekte Sprachverständnis des Modells GPT-3 war schon beinahe unheimlich, als es OpenAI im Juni 2020 vorstellte. Die kalifornische Non-Profit-Organisation beschäftigt sich mit der Erforschung von KI. GTP-3 konnte überzeugende Sätze bilden, sich mit Menschen unterhalten und sogar Benutzereingaben sinnvoll ergänzen. Zudem war es gigantisch – größer als jedes andere künstliche neuronale Netzwerk, das jemals entwickelt wurde. Es leitete einen ganz neuen Trend in der KI ein, bei dem größer gleich besser ist.

GPT-3 neigt allerdings dazu, Vorurteile und toxische Inhalte des jeweiligen Online-Textes, auf den es trainiert wird, zu imitieren. Außerdem ist eine unhaltbar große Menge an Rechenleistung erforderlich, um ein so großes Modell zu trainieren. Trotzdem steckt einiges in dieser Technologie – im Guten wie im Schlechten.

2021 wurde noch deutlicher, welche Auswirkungen GPT-3 hat. In diesem Jahr haben mehrere Technologieunternehmen und führende KI-Labore eine Vielzahl großer KI-Modelle entwickelt, von denen einige selbst GPT-3 noch an Größe und Fähigkeiten übertrafen.

GPT-3 erregte die Aufmerksamkeit der Welt nicht nur wegen seiner Leistung, sondern auch wegen der Art und Weise, wie es diese erbrachte. Bemerkenswert ist vor allem, dass GPT-3 Sprachaufgaben, für die es nicht speziell trainiert ist, generalisieren kann. Diese Fähigkeit ist nicht auf bessere Algorithmen zurückzuführen, obwohl das Modell sich in hohem Maße auf ein von Google 2017 erfundenes neuronales Netzwerk namens Transformator stützt. Sondern der Grund für den Leistungssprung ist seine schiere Größe.

"Wir dachten, wir bräuchten eine neue Idee, aber wir haben es nur durch Skalierung geschafft", sagte Jared Kaplan, ein Forscher bei OpenAI und einer der Entwickler von GPT-3, im Dezember 2021 auf der NeurIPS, einer renommierten KI-Konferenz.

"Wir beobachten immer wieder, dass Hyperskalierung von KI-Modellen zu einer besseren Leistung führt, und es scheint kein Ende in Sicht zu sein", schrieben zwei Microsoft-Forscher im Oktober in einem Blogbeitrag, in dem das riesige Megatron-Turing-NLG-Modell des Unternehmens ankündigten. Es wurde in Zusammenarbeit mit Nvidia entwickelt.

Die Größe eines Modells – eines trainierten neuronalen Netzwerks – wird anhand der Anzahl seiner Parameter gemessen, Variablen also, die auf die Verarbeitung bestimmter Daten bzw. Werte eingestellt werden können. Diese Werte werden während des Trainings immer wieder verändert und dann für die Vorhersagen des Modells verwendet. Ein Vorhersage-Modell prognostiziert zukünftige Datenentwicklungen anhand von gegebenen Bedingungen mithilfe von Algorithmen. Grob gesagt, je mehr Parameter ein Modell hat, desto mehr Informationen kann es aus den Trainingsdaten aufnehmen und desto genauer sind seine Vorhersagen.

GPT-3 hat 175 Milliarden Parameter – 10-mal mehr als sein Vorgänger GPT-2. Aber GPT-3 wird bereits von Modellen des Jahres 2021 in den Schatten gestellt. Jurassic-1, ein kommerziell verfügbares großes Sprachmodell, das vom US-Start-up AI21 Labs im September auf den Markt gebracht wurde, übertraf GPT-3 mit 178 Milliarden Parametern. Gopher, ein neues von DeepMind im Dezember veröffentlichtes Modell, hat 280 Milliarden Parameter. Megatron-Turing NLG hat 530 Milliarden. Die Modelle Switch-Transformer und GLaM von Google besitzen sogar eine bzw. 1,2 Billionen Parameter.

Der Trend ist nicht nur in den USA zu beobachten. In diesem Jahr hat der chinesische Technikriese Huawei ein Sprachmodell mit 200 Milliarden Parametern namens PanGu entwickelt. Das ebenfalls chinesische Unternehmen Inspur entwarf Yuan 1.0, ein Modell mit 245 Milliarden Parametern. Baidu und das Peng Cheng Laboratory, ein Forschungsinstitut in Shenzhen, kündigten PCL-BAIDU Wenxin an, ein Modell mit 280 Milliarden Parametern. Baidu, das die gleichnamige chinesische Suchmaschine betreibt, setzt es bereits in einer Reihe von Anwendungen ein wie Internetsuche, Newsfeeds und intelligente Lautsprecher. Und die Beijing Academy of AI kündigte Wu Dao 2.0 an, das 1,75 Billionen Parameter besitzt.

Die südkoreanische Firma Naver mit seiner gleichnamigen Suchmaschine kündigte ein Modell namens HyperCLOVA mit 204 Milliarden Parametern an.

Jeder einzelne dieser Parameter ist eine bemerkenswerte technische Leistung. Zunächst einmal ist das Training eines Modells mit mehr als 100 Milliarden Parametern eine komplexe Herausforderung: Hunderte von einzelnen Grafikprozessoren – die bevorzugte Hardware für das Training von tiefen neuronalen Netzen – müssen verbunden und synchronisiert werden, die Trainingsdaten aufgeteilt und in der richtigen Reihenfolge zur richtigen Zeit verteilt werden.

Große Sprachmodelle sind zu Prestigeprojekten geworden, mit denen ein Unternehmen seine technischen Fähigkeiten unter Beweis stellt. Doch bei nur wenigen der Modelle lässt sich mehr feststellen, als dass eine Vergrößerung zu guten Ergebnissen führt.

Allerdings gibt es durchaus einige Innovationen. Einmal trainiert, verwenden Googles Switch-Transformer und GLaM nur einen Bruchteil ihrer Parameter, um Prognosen zu erstellen, und sparen so Rechenleistung. PCL-Baidu Wenxin kombiniert ein Modell im Stil von GPT-3 mit einem Wissensgraphen, einer Technik, die in der symbolischen KI der alten Schule zur Speicherung von Fakten verwendet wird. Neben Gopher hat DeepMind auch RETRO veröffentlicht, ein Sprachmodell mit nur 7 Milliarden Parametern. Es konkurriert mit Modellen, die 25-mal so groß sind wie es selbst, indem es bei der Texterstellung Querverweise auf eine Dokumentendatenbank zieht. Dadurch kostet es weniger, RETRO zu trainieren als seine großen Konkurrenten.

Doch trotz der beeindruckenden Ergebnisse verstehen die Forscher noch immer nicht genau, warum die Erhöhung der Parameterzahl zu einer besseren Leistung führt. Ebenso wenig haben sie eine Lösung parat, wie sie verhindern, dass die Modelle toxische Sprache wie Beleidigungen und Fehlinformationen lernen und wiederholen. Das ursprüngliche GPT-3-Team gab in einer Beschreibung seiner Technologie zu: "Internet-trainierte Modelle spiegeln die Tendenzen und Wahrnehmungsverzerrungen des Internets".

Laut DeepMind kann die RETRO-Datenbank leichter nach toxischer Sprache gefiltert werden als ein monolithisches Black-Box-Modell, hat dies jedoch noch nicht vollständig getestet. Weitere Erkenntnisse könnten von der BigScience-Initiative kommen, einem Konsortium, das von der KI-Firma Hugging Face ins Leben gerufen wurde und aus rund 500 Forschern besteht. Viele kommen aus großen Technologieunternehmen und wollen gemeinsam ein quelloffenes Sprachmodell erstellen und erforschen.

In einem Anfang 2021 veröffentlichten Papier wiesen die US-amerikanische Informatikerin Timnit Gebru und ihre Kollegen darauf hin, dass eine Reihe von Problemen bei GPT-3-Modellen noch nicht behoben sind: "Wir fragen uns, ob genügend darauf geachtet wird, welche Risiken mit der Entwicklung solcher Modelle verbunden sind und mit welchen Strategien man ihnen begegnet", schreiben sie.

Trotz aller Anstrengungen, neue Sprachmodelle im Jahr 2021 zu entwickeln, steht die KI immer noch im Schatten von GPT-3. "In 10 oder 20 Jahren werden groß angelegte Modelle die Norm sein", sagte Kaplan auf dem NeurIPS-Panel. Aber es wird Zeit, dass sich die Forscher nicht nur auf die Größe eines Modells konzentrieren, sondern auch darauf, wie sie dann damit umgehen.

(jle)