c't 3003: GPT-4 ausprobiert | Riesenupgrade für ChatGPT

Das neue KI-Modell GPT-4 versteht nicht nur Bildwitze, sondern ist auch deutlich kreativer geworden. c't 3003 hat GPT-4 innerhalb ChatGPT Plus ausprobiert.

12

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

17.03.2023, 17:44 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

Jan-Keno Janssen

GPT-4 ist fertig – und die Verbesserungen gegenüber den älteren Versionen sind riesig. Fehler macht das Sprachmodell aber immer noch.

Transkript des Videos

(Hinweis: Es handelt sich hier um einen Bonusinhalt für Menschen, die das Video oben nicht schauen können oder wollen. Die Informationen auf der Bildspur gibt das Transkript nicht wieder.)

Guckt mal hier, wenn man dieses Foto hier auf das neue GPT-4 drauf wirft und fragt: „Was ist lustig an diesem Bild?“ – dann sagt GPT-4, das Bild ist lustig, weil es absurd ist, einen großen altmodischen VGA-Stecker in die Ladebuchse eines modernen Smartphones zu stecken.

Oder hier, das finde ich noch krasser: „Erklär‘ dieses Meme hier“: Manchmal gucke ich mir Bilder von der Erde an und staune darüber, wie wunderschön alles ist. Ja, und da sagt GPT-4, das Meme kombiniert zwei eigentlich nicht zusammengehörige Dinge, nämlich Bilder von der Erde aus dem All und Chicken Nuggets. Wow. Nur nochmal zur Sicherheit, damit das allen klar ist. GPT-4 ist eine Software, kein Mensch.

Oder hier, eine Prüfungsfrage der französischen École Polytechnique, einfach so als Bild draufgeworfen und gesagt, "bitte Schritt für Schritt Frage I, 1a beantworten": Zack, richtig beantwortet.

Und jetzt nochmal so richtig wow. Eine auf ein Blatt Papier gekritzelte Skizze von so einer Website: "Meine Witz-Webseite, hier ein lustiger Joke und wenn ich draufklicke, soll die Pointe kommen." Ja, und dann gibt GPT-4 halt den Code für die Website aus. Okay, wow.

Aber um die Begeisterung mal ein bisschen abzumildern: All diese vier Beispiele haben wir nicht selbst ausprobieren können, sondern die kommen von OpenAI, den Entwicklern von GPT-4.

Also auf die sogenannten multimodalen Funktionen, also dass man GPT-4 mit Bildern füttern kann zum Beispiel. Darauf haben bislang erst ein paar Leute Zugriff. Das ist noch nicht veröffentlicht. Aber die reinen Textfunktionen von GPT-4, die konnten wir schon ausprobieren. Die sind nämlich schon Teil vom kostenpflichtigen ChatGPT, und das ist auch sehr beeindruckend und deutlich besser als die bisherige ChatGPT-Textqualität. Sehr lustige Fehler haben wir aber dennoch gefunden. Bleibt dran.

Liebe Hackerinnen, liebe Internet-Surfer, herzlich willkommen hier bei…

Ja, sind wir denn hier jetzt GPT 3003 oder was? Es gibt ja nur noch Videos zu diesem KI-Kram hier, Menno. Ja, ja, ja, ja. Eigentlich wäre heute was anderes dran gewesen, aber da ist diese Woche halt GPT-4 angekündigt worden. Ich habe etliche Nachrichten von euch da draußen bekommen, dass wir darüber doch bitte was machen sollen.

Und ja, da sind wir doch jetzt wieder mit KI, weil GPT-4 ist halt schon eine große Sache. Aber was ist denn jetzt eigentlich GPT? Ist das nicht das gleiche wie ChatGPT? Nein, GPT ist ein KI-Textgenerator von der US-Firma OpenAI. Die Abkürzung heißt in lang "Generative Pretrained Transformer". Und das Ganze dient als Motor etlicher KI-Produkte. Ein eigenes User-Interface hat GPT nicht, sondern lässt sich nur über eine Programmierschnittstelle, eine API, anzapfen.

Und damit können Firmen dann Produkte bauen, wenn sie denn pro 1000 Token, ein Token entspricht vier Buchstaben, ein paar Cent bezahlen. Das mit Abstand bekannteste Produkt, das GPT nutzt, bislang in Version 3.5, ist ChatGPT. Aber ich gehe stark davon aus, dass jetzt bald viele, viele Produkte kommen, die die Technik benutzen.

Ja, weil es gibt ja nun Version 4.0 von GPT. Das ist eine deutlich verbesserte Variante, das können wir nach unserem Test jetzt wirklich schon sagen. Was sich aber unter der Haube genau verbessert hat, sagt OpenAI leider nicht. Also zum Beispiel, mit wie vielen Parametern das Modell arbeitet.

Naja, aber wichtig ist ja ohnehin nur, was es kann. Und neben der insgesamt besseren Textqualität kann GPT-4 nun eben mit Bildern gefüttert werden. Allerdings geht das bislang nur über die erwähnte Programmierschnittstelle und ja, darauf haben erst sehr wenig Leute Zugriff. Die muss man explizit bei OpenAI beantragen und dann auch genau sagen, was man damit vorhat. Damit konnten wir also noch nicht rumspielen.

Eine weitere wichtige Neuerung ist die Menge des Textes, die GPT-4 handlen kann, sprich wie lang die Texte sind, die es ausgeben kann und wie viel Text man zufüttern kann. Insgesamt verwaltet GPT-4 nun 32.000 Token. Und 1 Token sind ja wie gesagt vier Buchstaben ungefähr, also werden das ca. 24.000 Wörter.

Zum Vergleich: Der gesprochene Texte in diesem Video sind ungefähr 2.000 Wörter. Franz Kafkas "Die Verwandlung" sind etwas über 19.000 Wörter. GPT-4 kann also theoretisch Bücher schreiben. Bei GPT-3 waren das nur ungefähr 3.000 Wörter.

Und klar kann man sich dann halt auch ein Buch basteln aus mehreren einzelnen Anfragen, aber das wird sich wahrscheinlich nicht wie aus einem Guss lesen. GPT-4 dagegen kann dann zum Beispiel im letzten Absatz einer Geschichte nochmal auf den Anfang zurückkommen. Es erinnert sich also an den kompletten Text.

Dieses große Textmodell namens GPT-4-32K konnten wir noch nicht ausprobieren, dafür aber das normale, kleinere GPT-4-Modell. Weil das ja, wie gesagt, schon in der kostenpflichtigen Variante von ChatGPT steckt.

Das sieht konkret dann so aus: Wenn man einen neuen Chat startet, kann man hier oben zwischen "Default", "Legacy" und "GPT-4" wechseln. Legacy ist die älteste ChatGPT-Engine auf Basis von GPT-3.5.

Default basiert auf GPT-3.5 Turbo, die ist vor allem schneller als die Standardversion. Ja, und GPT-4 ist natürlich jetzt der neue heiße Scheiß. Nicht so schnell wie GPT-3.5 Turbo, dafür aber laut diesen neckischen OpenAI-Bewertungsbalken deutlich besser in Sachen Argumentationskraft und Prägnanz. Ja, und das stimmt wirklich.

Schaut mal hier zum Beispiel, haben wir ChatGPT gebeten, einen Rap-Text über Wasserkraft zu schreiben, Gangster-Rap-Style. Und GPT-3.5, naja, das ist ein bisschen lame.

„Mein Wasserkraftwerk ist mein Vermögen, ich werde es verteidigen bis zum Ende.“ Und vor allem reimt sich das überhaupt nicht und groovt nicht.

GPT-4 dagegen:

„Wasserkraft, Gangster Rap, wir reißen den Damm auf, mit der Kraft des Wassers, yo, wir pumpen den Jam raus.“

Da kann man theoretisch wirklich Beats drunterlegen. Sollen wir machen? Ach, komm. Machen wir:

„Wasserkraft, Gangster Rap, wir reißen den Damm auf, mit der Kraft des Wassers, yo, wir pumpen den Jam raus. Wasserkraft, Gangster Rap, wir reißen den Damm auf.

Mit der Kraft des Wassers, yo, wir pumpen den Jam raus

Steig aus dem Auto mit der Kraft von Mutter Natur.

Ich dreh mich um, seh' den Damm und denk: Was für ne Struktur!

Also wirklich ganz klar: GPT-4 ist kreativer. Das neue Bing von Microsoft nutzt übrigens auch schon GPT-4. Das durfte Microsoft offenbar jetzt erst öffentlich sagen. Und da hatten wir im Video ja auch schon festgestellt, dass zum Beispiel die Witze deutlich besser sind als bei dem alten ChatGPT-Modell.

Und persönlich hat GPT-4 bei mir eh einen Stein im Brett, weil es mich endlich korrekt beschreibt. Bei GPT 3.5 war wirklich alles falsch, wenn man gefragt hat, wer ich bin, inklusive ausgewürfelten Geburtsdatum und irgendwelchen ausgedachten Büchern. Wenn ich GPT 4 allerdings konkret nach Büchern frage, die ich geschrieben haben soll, dann halluziniert es auch wieder Quatsch.

Besonders krass ist der Quatsch allerdings, wenn man ChatGPT für Sachtexte nutzen will. Also journalistische Texte oder sogar wissenschaftliche, so mit Quellen und so. Auch wenn Wissenschaftsverlage das Arbeiten mit ChatGPT, sagen wir mal, zumindest kritisch sehen, wird sich das in Zukunft ja vielleicht mal ändern.

Ganz ordentlich funktioniert das jedenfalls mit so Themen, die schon omnipräsent sind im Internet. Wenn ich ChatGPT zum Beispiel darum bitte, dass es mir einen wissenschaftlichen Aufsatz über die Markteinführung des iPhones schreibt, dann funktioniert das gut.

Wir haben in unseren Tests festgestellt, dass die Art und Weise, wie ChatGPT sich jetzt ausdrückt, wirklich deutlich besser ist. Ich habe mir wirklich oft gedacht, hätte ich auch nicht schöner schreiben können.

Aber gerade beim wissenschaftlichen Arbeiten ist das Angeben von Quellen ja superwichtig. Und damit hatte ChatGPT in der Vergangenheit so seine Problemchen. Bei unserem iPhone-Beispiel hier macht ChatGPT einen echt guten Job und sucht passende Quellen raus, die man auch so in einer wissenschaftlichen Arbeit angeben könnte.

Problematisch wird es aber, wenn man ChatGPT bittet, einen wissenschaftlichen Text über ein unbekannteres Thema zu schreiben. Wenn ich jetzt zum Beispiel eine wissenschaftliche Arbeit über den deutschen Kameramann Gernot Roll schreiben möchte, kommt GPT-4 immer noch ganz schön ins Schwitzen.

Der Text, den mir die neue Version von ChatGPT liefert, ist zwar viel besser als vorher, aber leider noch immer super ungenau. Die Filme, an denen Gernot Roll mitgewirkt haben soll, stimmen in einigen Fällen einfach nicht und das Buch, das mir ChatGPT als Quelle dafür angebt, existiert nicht mal. Aber wenigstens nimmt ChatGPT meine Korrekturvorschläge freundlicher auf als Bing.

Aber genau diese Ungenauigkeiten haben System. Die Sprachmodelle wollen mir so dringend Antworten liefern, dass es sich zur Not einfach welche ausdenkt. Das wird auch deutlich, wenn ich mir hier mal was über die neuste Apple Watch Ultra schreiben lassen möchte. Denn auch wenn ChatGPT immer wieder darauf hinweist, dass es nur Informationen bis zum September 2021 hat – wenn man es aber darum bittet, einen Artikel über ein Produkt zu schreiben, das erst danach auf den Markt gekommen ist, macht es das in den meisten Fällen trotzdem.

Wenn ich jetzt zum Beispiel einen Text über die Apple Watch Ultra haben möchte, erfindet ChatGPT einfach irgendwelche Fakten und zeigt mir den gleichen Text, wie wenn ich nach der Apple Watch Mega 3003 frage. GPT-4 ist also in vielen Sachen schon echt gut, aber erfindet eben Dinge.

Das gibt OpenAI übrigens auch offen zu. Auf der Website steht schwarz auf weiß: "Am wichtigsten ist: GPT-4 ist noch nicht vollständig zuverlässig. Es halluziniert Fakten und macht Denkfehler." In den meisten Bereichen liegt die Genauigkeit laut OpenAI noch unter 80 Prozent. Das heißt also, bei 80 Prozent der Antworten würden Menschen mit Expertise in diesem Bereich sagen: alles korrekt. Bei 20 Prozent der Antworten gibt es aber noch Fehler. Das ist zumindest laut OpenAI schon deutlich besser als bei den älteren Modellen.

Ganz interessant übrigens: Es gibt schon etablierte Benchmarks, mit denen man solche Sprachmodelle testen kann. Zum Teil sind das speziell auf Sprachmodelle ausgelegte Tests, zum Teil aber auch standardisierte Prüfungen, wie das juristische Bar Exam aus den USA.

Und laut OpenAI, das muss man immer dazu sagen, deklassiert GPT-4 die gesamte Konkurrenz bei diesen Tests. Aber das muss man halt auch sagen, ist GPT-4 halt komplett closed source und kommerziell. Was das heißt, das merkt man ja jetzt schon: Zugriff über ChatGPT bekommen nur Leute, die umgerechnet 23 Euro im Monat für ChatGPT Plus bezahlen.

Und das ist dann womöglich die Zukunft: Wer tolle Sachen mit KI machen will und damit vielleicht sogar bessere Chancen in Schule und Beruf hat… Ja, das geht eben nur für Leute, die das bezahlen können. Also Leute, die sowieso schon bessere Chancen haben.

Ich hoffe, dass da in Zukunft Open-Source-Alternativen entstehen. Nur ist es zurzeit noch sehr teuer, diese Sprachmodelle zu trainieren. Aber zum Beispiel hat Meta neulich erst LlaMA veröffentlicht. Ein Sprachmodell, das durchaus mit GPT mithalten kann und so halb Open Source ist, auf das Forschungseinrichtungen Zugriff beantragen können. Ja, und die benötigten Daten, übrigens 219 Gigabyte, - Hä? Woher weiß ich das eigentlich? - sind längst als Torrent in der Welt. Hab ich zumindest gehört.

Und was immer Krasses passiert, wenn man Sachen in die Welt entlässt: Leute machen crazy Sachen damit, mit denen die ursprünglichen Macher gar nicht gerechnet haben. Zum Beispiel das LlaMA-Sprachmodell auf einem Raspi laufen zu lassen. Obwohl das eigentlich für irgendwelche Nvidia-A100-Karten konzipiert ist, die fünfstellig kosten.

Interessiert euch das womöglich? Also die ganze Hardware-Seite dieser KI-Systeme? Sollen wir dazu mal ein Video machen? Dann schreibt es gerne in die Kommentare und abonniert natürlich und Glocke und so, ihr wisst schon.

Mein Fazit zu GPT 4. Es ist wirklich so beeindruckend, wie schnell sich das alles entwickelt. Während man bei den alten GPT-Version wirklich noch manchmal gemerkt hat, dass sie einfach nur so als stochastischer Papagei Wortwahrscheinlichkeiten ausrechnen, hat man hier wirklich schon sehr häufig das Gefühl, dass man mit menschlicher Intelligenz interagiert.

Und dass das System jetzt auch noch sehen kann und das, was es sieht, verstehen, das ist wirklich ein Schritt Richtung AGI, also Artificial-General-Intelligence, künstliche allgemeine Intelligenz, also "echte Intelligenz". Ich sag' euch, Leute: Diese Technik wird sehr viel verändern auf der Welt – und ich hoffe wirklich nur zum Guten. Tschüss.

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.