GPT-4: "In einer Welt rasender KI-Entwicklung" – Fakten auf einen Blick

GPT-4 ist erschienen. Nach der Live-Demo durch Greg Brockman steht fest, was das Modell kann und wo seine Grenzen liegen – ein technischer Überblick.

In Pocket speichern vorlesen Druckansicht 92 Kommentare lesen
Gpt4,Improved,Chatbot,Illustrations.,Artificial,Intelligence,Chatbot.chat,Gpt,4,Illustration

(Bild: Ebru-Omer/Shutterstock.com)

Lesezeit: 16 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

GPT-4 ist da: Fans des großen Sprachmodells und Teile der Redaktion saßen am 14. März 2023 nach Dienstschluss vor den Bildschirmen, um die Präsentation des lange erwarteten Wurfs live zu verfolgen. Zwei Jahre lang hatte OpenAI an der jüngsten Iteration des großen Sprachmodells (LLM) gefeilt. Zwei Jahre, in denen außer unbestätigten Gerüchten kaum Details an die Öffentlichkeit gedrungen waren. Spekulationen über eine Vervielfachung der Modellgröße auf sagenhafte 100 Billionen Parameter liefen ins Leere. Selbst Ankündigungen vom CEO des Unternehmens Sam Altman stellten sich nachträglich als überholt heraus.

So hatte Altman im Herbst 2021 angekündigt, man werde erneut ein reines Sprachmodell bauen. GPT-4 ist jedoch, wie vom CTO Microsoft Germany vergangene Woche zutreffend in den Raum gestellt, auch der Bildsprache mächtig. Zumindest bei den Eingaben. Wer es selbst testen wollte, stellte im Laufe des Folgetages jedoch fest, dass das Feature zum Bildinput noch nicht freigegeben ist. Neu ist OpenAI Eval, ein Framework zum Evaluieren der KI-Modelle des Anbieters, das seit dem Release quelloffen bei GitHub zur Verfügung steht. Wie beim Vorgänger endet der Trainingsdatensatz im Jahr 2021, was bei Abfragen gelegentlich zu veralteten Aussagen und Einschränkungen führt. Aber eins nach dem anderen.

Greg Brockman präsentiert GPT-4 im Livestream (14. März 2023, Screenshot von YouTube)

(Bild: OpenAI)

Das Release erfolgte in der kalifornischen Zeitzone, und anders als bei der Vorankündigung durch Microsoft Germany führte das ehemalige Start-up OpenAI diesmal selbst die Regie. In einer knapp halbstündigen Live-Vorführung präsentierte Greg Brockman, President und Co-Founder von OpenAI, Developern die neuen Features in Playground und Discord. GPT-4 ist über die gleiche Schnittstelle (API) verfügbar wie GPT-3.5, im Playground lassen sich die Modelle in einer Ausklappliste auswählen.

Für GPT-4 habe das Team in den vergangenen zwei Jahren den gesamten Training-Stack neu aufgesetzt, das Modell trainiert und anschließend die Fähigkeiten und Risiken des vortrainierten Modells erkundet, gemeinsam mit Partnern in praxisnahen Anwendungen. Die Präsentation beschränkte sich auf vom Team ausgewählte Beispiele, die die Vorgängerversion noch nicht beherrschte, GPT-4 hingegen schon.

Steuerbare Kreativität: Über ein separates Eingabefeld (System Message) lässt sich die Antwort des KI-Systems mit einer Anweisung in eine gewünschte Richtung lenken. So lässt sich GPT-4 dazu bringen, treffendere Antworten zu entwickeln mit weniger Toleranz für Abweichungen von der Vorgaben. Als Beispiel lässt Brockman die KI einen Blogeintrag in einem Satz zusammenfassen, in dem jedes Wort mit demselben Buchstaben beginnt. GPT-3.5 ignoriert die Feinheiten von solchen Aufforderungen (im ausgegebenen Satz beginnen die Wörter mit unterschiedlichen Buchstaben), wohingegen GPT-4 die Vorgabe in der Demo selbst für seltenere Buchstaben wie Q umzusetzen vermag. Das Modell vermag auch, in Prosa verfasste technische Blogeinträge in Gedichtform wiederzugeben, und befolgt diese Anweisung klaglos.

"In a world of AI advancing so fast,
GPT-4 has arrived, leaving the past,
A multimodal model, image and text,
Human-level performance, leaving all perplexed.

Months of aligning, lessons drawn,
From adversarial tests and ChatGPT's dawn.
Factuality, steerability, guardrails tight,
A model refined, a future so bright."

Die Lobeshymne auf die Partnerschaft mit Microsoft Azure sowie neue Features geht noch um einige Strophen weiter. Der Auszug mag zum Veranschaulichen genügen, wozu gelenkte Kreativität in einem Idealfall und in einer geeigneten Zielsprache wie Englisch fähig ist.

Pseudocode erzeugen und schrittweise verbessern, bis das Programm (hier ein Discord-Bot) lauffähig ist: Dafür braucht es weiterhin Programmierverständnis und den Menschen, der prüfend eingreift. In der Live-Vorführung waren mehrere Schritte nötig, die sich auch manuell umsetzen lassen.

(Bild: OpenAI)

Programmierhilfe: Mit einer Kette geeigneter Prompts lässt sich GPT-4 dazu nutzen, ein kleines Programm wie einen Discord-Bot zu erstellen. Dafür weist man es im Systemfeld an, die Rolle eines KI-Programmier-Assistenten einzunehmen ("You are an AI programming assistant") und stellt klar, dass es die Eingaben genau zu befolgen hat, schrittweise vorgehen soll ("First think step by step") und zunächst einen detaillierten Entwurf in Pseudocode schreiben darf. Als nächsten Schritt soll es den Code als Codeblock darstellen und jegliche andere Prosa minimieren. Der gewünschte Bot im Beispiel soll Bilder und Text annehmen. Die Image-Extension von Discord ist GPT-4 noch fremd, da sie jünger ist als der Datensatz, auf dem das Modell trainiert wurde. Solche Aktualisierungen lassen sich offenbar im Live-Betrieb nachholen, indem man das fehlende Wissen per Copy-Paste im Eingabefeld ergänzt.

Die Option, zunächst "Pseudocode" zu entwerfen, erlaubt dem Modell, ins Unreine zu arbeiten und Korrekturen in einem nächsten Schritt vorzunehmen. Hierbei liege es in der Verantwortung der menschlichen Nutzer, den Code auf Richtigkeit zu prüfen und nicht einfach ein maschinengeneriertes Programm ungeprüft auszuführen, mahnt Brockman: "Don't run untrusted code – from humans, or from AIs." So funktioniert auch der von GPT-4 ausgeworfene Programmcode für den Discord-Bot nicht auf Anhieb, sondern bedarf einiger Korrekturen, da die API sich in der Zwischenzeit weiterentwickelt hat.

Im vorgeführten Beispiel lässt das Problem sich leicht beheben, indem Brockman den fehlenden Code kommentarlos ins Eingabefenster kopiert. Verwendete API-Versionen, eingesetzte Umgebungen und ähnliche veränderliche Angaben sind nachzupflegen, zur Not händisch. Auch Fehlermeldungen mit der Bitte um Reparatur lassen sich prompten und der Code dabei schrittweise verbessern. GPT-4 findet (zumindest im Use Case der Live-Demo) den Zusammenhang und verbessert so schrittweise die Antwort, bis am Ende das ausgegebene Programm sich ausführen lässt und zum gewünschten Einsatz dient, Bilder und Texte über den Discord-Chat anzunehmen.

GPT-4-Demo für Entwickler – Highlights (10 Bilder)

Eichhörnchen-Comic

"Was ist lustig an diesem Bild?" – GPT-4 erklärt, was es "sieht" und was daran ungewöhnlich beziehungsweise lustig sein könnte. Verschiedene "Wahrnehmungsebenen" werden hier kombiniert. Die Aussagen beruhen weiterhin auf statistischer Vorhersage des wahrscheinlichsten nächsten Wortes, kommen einer möglichen Menschenantwort auf so eine Frage zunehmend näher. Das Feature war Teil der Sneak Preview, ist aber noch nicht öffentlich verfügbar.
(Bild: OpenAI)

Bilder lesen: Zum Test lässt Brockman GPT-4 im Discord-Kanal einen Screenshot des Discord-Kanals "in painstaking detail" beschreiben, was bei der Abbildung einer technischen Umgebung auch Menschen schwerfiele. Das Ergebnis ist überzeugend, braucht allerdings überraschend lang. Hier bekennt er, dass noch Baustellen offen seien: Das Einlesen und Verarbeiten von Bildern müsse noch schneller werden. Diese Fähigkeit ist bei OpenAI zurzeit allerdings auch noch nicht öffentlich verfügbar, sondern war nur als Sneak Preview Teil dieser Vorführung. Auch OpenAIs Partner Microsoft hatte Anfang März ein multimodales Visions-Sprachmodell (VLM) vorgestellt, das Bilder interpretiert – Kosmos-1, aber soweit der Redaktion bekannt, gibt es keine öffentliche Demo dazu. In der Live-Vorführung musste Brockman den Code seines Discord-Bots manuell reparieren, um das Modell dazu zu bringen, kombinierten Bild-Text-Input zu "lesen" und zu erklären. Dann dauerte es eine Weile, bis eine Antwort kam.

Wer sich für visuelle Multimodalität interessiert, sollte zurzeit auf andere Anbieter schauen, die in dem Feld schon weiter sind. Die Fähigkeit, die OpenAI hier als neu präsentiert, ist der Redaktion vom multimodalen Modell Luminous her bereits vertraut. Beispiele über die Aleph-Alpha-API postet regelmäßig der Twitter-Kanal Sigmoid Freud. Die Google-Tochter DeepMind (bekannt für unter anderem AlphaGo und AlphaFold) und das deutsche KI-Unternehmen Aleph Alpha haben in den vergangen drei Jahren Computervision und große Sprachmodelle erfolgreich verbunden. So hatten beide Anbieter visuelle Multimodalität in Forschungspapern vorgestellt (grundlegend: Frozen von DeepMind, darauf aufbauend MAGMA von Aleph Alpha mit der Universität Heidelberg, beide 2021).

KI versteht Bilder: Aleph Alphas Modell Luminous – Playground (22 Bilder)

Schatzkarte

luminous findet Schätze auf einer handgeschriebenen Pergamentkarte. Die Fähigkeit der KI, Handschrift zu entziffern, ist dabei nicht das einzig bemerkenswerte Detail.
(Bild: Aleph Alpha)

Wer ein großes Sprachmodell mit Bildverständnis testen möchte, kann das in der Zwischenzeit etwa im Playground von Aleph Alpha tun. Dort lassen sich seit geraumer Zeit Bilder mit und ohne Textzusatz eingeben, einige Beispiele finden sich als Bilderstrecke in dem Interviewartikel von Anfang 2022. Gemeinsam mit dem deutschen Forschungsteam hinter Stable Diffusion hatten die Heidelberger auch M-VADER gebaut, das Bilder als Input verarbeiten sowie durch Textanweisung weiterverarbeiten und Bilder ausgeben kann. Da auch Stability AI, der Hauptgeldgeber hinter Stable Diffusion, künftig an großen Sprachmodellen baut, erschließen sich hier interessante Alternativen. In dem Punkt scheint laut Releasemeldung des OpenAI-Teams bei deren Modell eine Einschränkung zu bestehen: So kann GPT-4 zum jetzigen Zeitpunkt nur Textausgaben liefern.

Allerdings können Textausgaben auch die Form eines Programmcodes annehmen, wenn das die Vorgabe ist. So lässt sich die handgezeichnete Skizze für eine Website von GPT-4 in einen HTML-Vorschlag für eine einfache Website umsetzen, die im Browser darstellbar ist. Das Beeindruckende an diesem Teil der Demo ist die Fähigkeit des Modells, Handschrift zu lesen. Denkbar wäre bei solchen Fähigkeiten der Einsatz zur rascheren Dokumentation in Krankenhäusern und Arztpraxen, wo die Tipparbeit bei handgeschriebenen Notizen oder Befunden langfristig KI-gestützt wegfallen könnte.

Wie beim Bildoutput ist diese Fähigkeit seitens OpenAI noch nicht verfügbar und befindet sich laut Brockman in der Testphase mit einem Partnerunternehmen. Auch diese Fähigkeit stellt für das OpenAI-Modell eine starke Neuerung dar – und war der Redaktion aus öffentlichen Vorträgen von Aleph Alpha bereits bekannt. Die oben genannte Heidelberger Modellfamilie Luminous vermag Schrift in Bildern zu lesen, was sich in deren Playground testen lässt. Ein direkter Vergleich ist mangels öffentlichem Zugriff auf das Feature bei OpenAI zurzeit noch nicht möglich.

Von der Skizze zum HTML-Code zur Website: Zumindest bei der Demo funktioniert das. GPT-4 hatte hier als Vorgabe nur die krakelige Skizze aus Brockmans Notizbuch (als Handyfoto).

(Bild: OpenAI)

Komplexer Kontext: Im letzten Beispiel gibt Brockman GPT-4 vor, es sei "TaxGPT", also eine KI-Assistenz mit Fähigkeiten zur Steuerberatung, und weist es an, alle Vorgaben detailreich und Schritt für Schritt auszuführen. Die Eigenschaft, Modelle durch solche Vorgaben "in die richtige Stimmung zu bringen", ist auch von anderen großen Sprachmodellen bekannt. Im Beispiel beschickt Brockman das Modell mit einer 16 Seiten langen Rechtsgrundlage zum Steuerrecht und lässt es ein Fallbeispiel lösen, bei dem Ausnahmeregeln für abweichende Steuerjahre gelten. GPT-4 gibt das korrekte Ergebnis in Zahlen aus, bei dem die Abweichung von der Regel bereits berücksichtigt ist.

Dieses Beispiel ist von besonderem Interesse, da große Sprachmodelle daran kranken, mit Zahlen und Fakten oftmals zu kreativ umzugehen. Auch für GPT-4 gilt die Einschränkung, dass es zum Konfabulieren neigt und seine Wissens-Trainingsbasis im Jahr 2021 endet. Allerdings scheint das Team Fortschritte im Reasoning, also logischen Schließen erzielt zu haben. Wichtig ist hierbei das präzise Steuern durch klare Vorgaben – und weiterhin die Fähigkeit des Menschen, den Wahrheitsgehalt der Ausgaben zu prüfen.

Das letzte Beispiel ist eine komplexe Aufgabe, an der Menschen länger kiefeln müssten und bei der für ungeschulte Personen ein Irrtum leicht möglich wäre. In solchen Aufgaben beginnen KI-Systeme wie GPT-4 sich bereits leicht überlegen zu zeigen. Von AGI (starker KI) kann jedoch noch nicht die Rede sein. Inwiefern die von Brockman vorgeführten Fähigkeiten von GPT-4 auch in anderen Sprachen funktionieren, ist offen. Und es gilt zu bedenken, dass für die öffentliche Vorführung gezielt Beispiele ausgesucht wurden, bei denen vorher schon feststand, dass GPT-4 sie auch lösen kann. Da GPT-4 das Modell hinter Microsofts neuem Bing ist, sind auch Beispiele bekannt, in denen das Modell ausscherte, eskalierte oder unerwünschten und nicht in jedem Fall steuerbaren Output erzeugte.

Kontextlänge: GPT-4 soll laut Brockman Dokumente mit bis zu 32.000 Token verarbeiten können, was ihm zufolge einer Textlänge von etwa 50 Seiten entspricht. Das Team "optimiere noch" – tatsächlich scheint die 32k-Version von GPT-4 noch nicht einwandfrei zu funktionieren und Brockman empfiehlt, lieber kleinere Textmengen zu bearbeiten. Hier sammelt OpenAI offenbar noch Use Cases und ist auf der Suche nach erfolgreichen Anwendungsbeispielen. Die etwas vagen Aussagen dazu deuten an, dass hier eine offene Baustelle besteht. Das ist nicht ganz unerheblich, da die Fähigkeit, längeren Kontext zu verarbeiten und zu erzeugen, auch ein Sicherheitsrisiko birgt – wie etwa auf Seite 15 in der Systemkarte des Modells indirekt, aber zutreffend geschildert. Offenbar fanden auch die Sicherheitstrainings auf einer früheren Version statt, die weniger lange Texte annahm und ausgab und noch nicht so gut war im Lösen von Problemen.

In diesem Teil des technischen Berichts steht zwar nicht, welche Trainingsdatenbasis das Modell intus hat, aber zumindest versichert das Team von OpenAI, dass es Menschen noch möglich sei, GPT-4 auszuschalten. Bei unabhängigen Tests sei GPT-4 nicht in der Lage gewesen, sich selbst zu replizieren und "in freier Wildbahn" sein Abschalten zu verhindern. Andererseits gibt das Team offen zu, dass bei diesen Tests eine frühere Version überprüft wurde als die final veröffentlichte. Längerer Kontext etwa und verbesserte Problemlösekompetenz seien durchaus relevante Faktoren, um die Fähigkeiten eines Modells, "nach Dominanz zu streben" (power-seeking abilities) zu begrenzen. Etwas verklausuliert steht dort, dass dieses Modell oder künftige Modelle durchaus so ein Verhalten an den Tag legen könnten. Das Team hält es zumindest nicht für ausgeschlossen, denn sonst würde es solche Tests ja nicht durchführen. Dazu passen auch Sam Altmans Rufe nach Regulierung von KI (etwa auf Twitter am 13. März). Auch im Technical Report finden sich in den Fußnoten Überlegungen zu notwendiger Regulierung.

Wer sich genauer interessiert, kann die Live-Demo mit Greg Brockman selbst anschauen und den Technical Report lesen (die GPT-4-Systemkarte ist ihm angehängt). Zwischenzeitlich hat OpenAI auch ein weiteres Video veröffentlicht, das Einsatzmöglichkeiten zeigt, und auf YouTube stellen User ihre eigenen Erfahrungen vor. Kritische Anmerkungen bietet unter anderem Gary Marcus in seinem Aufsatz "GPT-4's Successes, and GPT-4's Failures". Laut Marcus ist GPT-4 nicht qualitativ besser als GPT-3 und -3.5, sondern nur quantitativ überarbeitet. Darauf deutet bereits der ebenfalls im Jahr 2021 endende Trainingsdatensatz hin. Die Skalierungsthese (Sprung von 175 Milliarden auf 100 Billionen Parameter) ist somit widerlegt.

GPT-4 ist auch noch nicht in der Lage, eigenständig seinen Wissensstand zu aktualisieren oder zu erkennen, dass der Wissensstand veraltet ist. Daher bleibt das Halluzinieren und Konfabulieren ein ungelöstes Problem, wie die Integration in Bing bereits zeigte. Auch schafft GPT-4 kein neues Wissen, sondern schafft pseudo-neues Wissen durch das Kombinieren vorhandener Quellen, ohne die Quellen jedoch zitieren oder offenlegen zu können. Einen Fortschritt in Erklärbarer KI stellt es nicht dar. Ganz klar ist auch nicht, auf welchen Daten es trainiert wurde: Hierzu schweigt sich der Technical Report des Teams aus. Die Qualität der Datensätze ist entscheidend für die Qualität des Outputs. Mangelnde Erklärbarkeit ist das größte offene Problem von ChatGPT – und wird für Modelle dieses Bautyps der nächste, notwendige Schritt sein. Auch scheinen wesentliche Teile des Sicherheitstrainings laut der GPT-4-Systemkarte nicht mehr auf der letztlich veröffentlichten Version gelaufen zu sein, sondern auf einer früheren, die weniger umfangreiche Texte verarbeiten und erzeugen kann.

Das Vorhersagen von Fehlern sei durch die mangelnde Transparenz des Closed-Source-Modells erschwert und das wissenschaftliche Arbeiten mit GPT-4 nicht seriös möglich, so Marcus. Neben ihm hatte auch Yann LeCun, der Leiter der KI-Forschung bei Meta, GPT-4 als Abweg (Off-Ramp) bezeichnet auf dem Weg zu einer allgemeineren Künstlichen Intelligenz. Die beiden (früheren?) Streithähne sind sich hier erstaunlich einig, dass das neue KI-Modell ein großer Hype und durch seine Architektur zu nichts Größerem fähig sei. Allerdings ist unbestreitbar, dass die GPT-Serie von OpenAI dem Einzug von KI in Geschäftsanwendungen für die breitere Masse Bahn gebrochen hat, und das Rad wird sich bei dem rasenden Tempo der KI-Entwicklung nicht zurückdrehen lassen.

Siehe auch:

(sih)