OpenAI stellt GPT-4 vor: Sprachmodell versteht jetzt auch Bilder

GPT-4 ist erschienen. Seine Fähigkeiten zum kreativen Schreiben sollen erweitert sein, es versteht längeren Kontext – und Bilder.

In Pocket speichern vorlesen Druckansicht 227 Kommentare lesen
Gpt4,Improved,Chatbot,Illustrations.,Artificial,Intelligence,Chatbot.chat,Gpt,4,Illustration

(Bild: Ebru-Omer/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

(This article is also available in English.)

GPT-4 ist da: Wie Heise letzte Woche exklusiv berichtet hatte, ist die neue Generation des KI-Systems nun erschienen. GPT-4 ist kein reines Sprachmodell mehr, sondern kann neben Texteingaben auch mit Bildern umgehen. Wie vom CTO von Microsoft Deutschland am 9. März 2023 bei der digitalen Kickoff-Veranstaltung "KI im Fokus" vor Geschäftskunden angedeutet, handelt es sich also tatsächlich um ein multimodales Modell, das mit verschiedenen Medien umgehen kann – wenngleich mit Einschränkungen, von Text-zu-Video ist im OpenAI-Release noch nicht die Rede. Nach jetzigem Kenntnisstand ist GPT-4 in der Lage, komplexere Eingaben als bisher möglich zu deuten und dabei zugleich Text und Bilder zu parsen.

Laut OpenAI soll das Modell kreativer sein als die bisherige GPT-3-Reihe und ist wohl mehr auf Zusammenarbeit geeicht. So soll es neben Texteingaben auch visuellen Input verarbeiten können – allerdings kann es offenbar nur in Textform und nicht in Bildern antworten. Der Textumfang ist erweitert: So vermag GPT-4 laut Ankündigung, bis zu 25.000 Zeichen langen Text zu verarbeiten und zu erzeugen. Die bestehenden Probleme, die von ChatGPT bekannt waren, sind nicht behoben: So neige das Modell weiterhin dazu, zu konfabulieren und nicht immer faktentreu zu antworten.

"Was kann ich aus diesen Zutaten machen?" – als Antwort schlägt GPT-4 mögliche Gerichte vor, die sich aus Eiern, Mehl, Butter und Milch herstellen lassen. Kombinierter Text- und Bildprompt als Eingabe (Input), die Antwort (Output) erfolgt in Textform.

(Bild: OpenAI)

Laut OpenAI soll das Modell kreative und technische Schreibaufgaben ausführen können, Songexte komponieren, Drehbücher schreiben oder auch den Stil seiner Nutzer imitieren können. Auch die Fähigkeit zum Erzeugen gewalthaltiger oder sonstwie schädlicher Inhalte ist offenbar nicht gebannt. Verfügbar wird GPT-4 im Bezahlangebot GPT-4 Plus und als API für Entwickler zum Bauen eigener Anwendungen und Dienste, heißt es auf der Website (für den API-Zugriff besteht eine Warteliste).

So gab Sam Altman, der CEO von OpenAI, zu bedenken, dass die nun veröffentlichte Version von GPT-4 sich nur sehr geringfügig von GPT-3.5 unterscheide hinsichtlich der Fähigkeit zu Konversation. GPT-3.5 ist den meisten Usern vertraut, da es das Modell hinter der Chat-Oberfläche von ChatGPT ist. Über ein Jahr lang hatte die KI-Szene spekuliert, welche Architektur GPT-4 wohl haben wird, und Altman selbst hatte in einem Interview mit StrictlyVC im Januar 2023 die Erwartungen gedämpft. Nach dem Hype werde die Öffentlichkeit zwangsläufig enttäuscht sein. Es sei eben noch keine AGI – also keine allgemeine künstliche Intelligenz auf Menschenniveau.

GPT-4 soll in den intern durchgeführten Tests dabei eine deutlich geringere Wahrscheinlichkeit aufweisen als seine Vorgängermodelle, unerwünschte Inhalte zu erzeugen (laut OpenAI um 82 Prozent reduziert) und eine um 40 Prozent höhere Trefferquote bei Fakten haben als GPT-3.5, also als die bekannte Version hinter ChatGPT. Bei gängigen Leistungsvergleichstest hat es offenbar ChatGPT übertroffen und durchgängig besser abgeschnitten: So soll GPT-4 in den oberen statt in den unteren zehn Prozent der Absolventen liegen bei einem simulierten Bar Test (einer juristischen Abschlussprüfung, vergleichbar wohl einem Staatsexamen zum Abschluss des Jurastudiums).

Trainiert hatte das OpenAI-Team laut Blogeintrag GPT-4 auf "AzureAI-Supercomputern". Laut Ankündigung habe GPT-4 ein halbes Jahr lang Sicherheitstrainings durchlaufen und soll dabei durch menschliches Feedback im Reinforcement Learning für erwünschtes Verhalten nachjustiert worden sein. Ein technischer Forschungsbericht liegt auf den Seiten von OpenAI vor. Demzufolge ist die Architektur des Modells die gleiche wie bei den Vorgängern, ein vortrainiertes Transformermodell, das die nächsten Wörter nach statistischer Wahrscheinlichkeit vorhersagt und so seine Ausgaben erzeugt. Das Modell soll auch während der Nutzung weiterlernen. Mehr über die Forschungsarbeit für das Modell lässt sich einem separaten Blogeintrag des Research-Teams entnehmen.

GPT-4 soll bestehende Sprachmodelle in den meisten NLP-Aufgaben übertreffen und sich mit "der großen Mehrheit bekannter SOTA-Systeme" zumindest messen können (SOTA steht für State-of-the-Art, also die leistungsfähigsten zurzeit verfügbaren KI-Systeme auch anderer Anbieter). Im Zuge des Release hat OpenAI auch einige Pilotkunden offengelegt, die GPT-4 bereits nutzen: Die Regierung Islands (zum Erhalt der eigenen Sprache, wie es im Blogeintrag heißt), die Sprachlern-App Duolingo, Stripe und die Vermögensverwaltung der Großbank Morgan Stanley.

Im Zuge der Ankündigung hat auch Microsoft mitgeteilt, dass das neue Bing bereits GPT-4 im Einsatz hatte. In der KI-Szene war die Vermutung bereits kursiert, da Microsoft sich zur eingesetzten Modellversion sehr bedeckt gehalten hatte. Microsoft hatte seine KI-assistierte Suche zuletzt auf eine begrenzte Anzahl an Suchanfragen pro IP-Adresse und Tag beschränken müssen, um Entgleisungen zu vermeiden. So gesehen gibt es auch erste User-Erfahrungen zur laut OpenAI erhöhten Kreativität des neuen Modells, die sich bei Microsofts Bing vor allem in erhöhter "Emotionalität" bei längeren Konversationen und verstärktem Einsatz von Emojis manifestiert hatte.

Im technischen Bericht warnt das OpenAI-Team auch, dass GPT-4 "aufgrund der erhöhten Fähigkeiten neue Risiken" berge – welche genau und wie OpenAI gedenkt, diese einzuhegen, darüber schweigt sich das Fazit aus. Es sei noch viel zu tun und GPT-4 sei ein markanter Schritt auf dem Weg zu breit einsetzbaren und sicheren KI-Systemen. Weitere Informationen lassen sich der Releasemeldung von OpenAI entnehmen.

Siehe auch:

(sih)