ChatGPT-4o ist jetzt kostenlos für alle

GPT-4o ist bis zu 160 Prozent schneller als GPT-4 und liefert zudem bessere Antworten. c't 3003 hat das neue Sprachmodell in ChatGPT getestet.

62

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

22.05.2024, 18:17 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

Lukas Rumpler

Der nächste Sprung in der Geschwindigkeit und Leistungsfähigkeit eines KI-Sprachmodells ist da. GPT-4o macht ChatGPT nicht nur schneller, sondern auch multi-modal. Ausgewählte Nutzer können ab sofort Bilder, Audio, Videos und natürlich Text in ChatGPT eingeben. Außerdem gibt es eine neue Desktop-App für den Mac, die ChatGPT aus dem Browser holt. c't 3003 hat sich GPT-4o angeschaut.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, ChatGPT ist jetzt doppelt so schnell. Genau genommen laut unseres Testes sogar etwas mehr als doppelt so schnell. Ich hab hier mal das Gedicht "Der Erlkönig" aufschreiben lassen. Und GPT-4o war 2,6-mal so schnell. Möglich macht das die neueste Version vom Sprachmodell GPT-4o. Damit wird ChatGPT aber nicht nur schneller, sondern soll auch passendere Antworten liefern und wirklich kontextbezogen mitdenken und weiterhelfen. Und das alles ist im Gegensatz zum normalen GPT-4 auch noch kostenlos für alle Nutzer.

Und keine Sorge, ich bin kein KI-Keno und Keno ist auch nicht weg oder so. Der hat gerade nur Urlaub, und ich mache immer wieder mal Videos, wenn Keno eine Vertretung braucht. Sonst teile ich mir mit Keno ein Büro bei der c’t und arbeite an Videos hinter der Kamera mit.

Also, GPT-4o soll das beste Sprachmodell sein und obendrauf gibt es jetzt auch noch eine Desktop-App für den Mac. Ist das ein wirklich großes Update und verändert die Arbeit mit generativer KI oder ist das nur ein kleiner Schritt? Wir finden es gleich gemeinsam raus. Also bleibt dran!

Liebe Hackerinnen, liebe Internet-Surfer, herzlich willkommen hier bei...

Also, ChatGPT-4o wird gerade genauso wie die neue ChatGPT-Mac-Desktop-App schrittweise ausgerollt. Wenn euer Account für GPT-4o freigeschaltet wird, könnt ihr das einfach hier oben in der ChatGPT-Oberfläche auswählen. Im Browser, in der Smartphone-App und natürlich auch in der Mac-Desktop-App. Die ist allerdings noch nicht für alle Nutzer verfügbar. Über diesen Link aus dem ChatGPT-Forum lässt sich das Programm zwar installieren, aber beim Einloggen gibt es dann diese Fehlermeldung. Dauert also noch etwas.

Aber an sich ist das auf jeden Fall ein kluger Move von OpenAI, den Browser zu verlassen. Alle großen Browser-Anbieter arbeiten an eigenen KI-Modellen und damit wird es ChatGPT irgendwann schwer in diesen Browsern haben. Chrome wird dann ziemlich sicher Gemini integriert haben und Safari sehr wahrscheinlich die angekündigte Apple-KI. In Microsoft Edge ist Copilot bereits von oben bis unten integriert. Also: Nachvollziehbar, dass OpenAI aus dem Browser raus will. Aber worauf ich sowieso mehr gespannt bin: Wie gut ist das neue Sprachmodell?

Während GPT-4 nur als Teil des kostenpflichtigen Abos verfügbar ist und war (bzw. man es in einer veränderten Variante kostenlos als Microsoft Copilot nutzen kann), steht der Nachfolger mit einer begrenzten Anzahl an Anfragen pro Tag von vornherein allen zur Verfügung. Premium-Kunden bekommen dabei mehr Anfragen. Bei unseren Tests war GPT-4o allerdings in unserem kostenlosen Account noch nicht freigeschaltet, in unserem bezahlten schon. Deshalb konnten wir bislang auch noch nicht testen, ob die kostenlose GPT-4o-Variante langsamer ist als die des Plus-Abos.

Bislang funktioniert GPT-4o nur text- und bildbasiert. Der neue Voice-Mode von GPT-4o kommt erst in den nächsten Wochen. Den kann man bisher also nur in den Videos von OpenAI selbst sehen. Aber da wirkt er ehrlich gesagt schon ziemlich beeindruckend. Wie die Textgenerierung auch, ist der deutlich schneller geworden.

GPT-4o kann in nur 232 Millisekunden auf Audio-Eingaben reagieren. Das ist fast so schnell, wie wir Menschen in Gesprächen reagieren. Zum Vergleich: Die alten Modelle brauchten dafür 2,8 bis 5,4 Sekunden. Das ist genau der Flaschenhals bei Sprachassistenten. Wenn die Reaktionszeit zu lange ist, kann man es schneller selbst machen, als eine KI zu fragen. Aber wenn ich mit ChatGPT jetzt sprechen kann und es schnell arbeitet und auch noch menschlich klingt, ist das vielleicht ein Gamechanger für Sprachassistenten. Achtet selbst mal drauf, mit Alexa, Siri und auch dem bisherigen ChatGPT-Sprachchat redet man wegen der Verzögerung automatisch sehr unnatürlich, also so: „WIE. WIRD. DAS. WETTER. HEUTE. IN. HANNOVER?“ Kommen die Antworten sofort, redet man automatisch natürlich: „Ey, sag mal, wie wird denn das Wetter heute?“

GPT-4o kann ruhige von aufgeregten Atemzügen unterscheiden und Emotionen in synthetischer Sprache ausdrücken. Es kann auch Videos oder Grafiken live analysieren, indem man zum Beispiel die Smartphone-Kamera aktiviert. Es kann sogar Emotionen in Gesichtern in einem Video oder auf einem Foto erkennen und beschreiben und entsprechend darauf reagieren. Laut OpenAI soll das neue Modell doppelt so schnell und 50 Prozent günstiger als der Vorgänger GPT-4 Turbo sein. Das ist natürlich nice, wenn ich GPT-4 kommerziell über die API nutze. Die Hälfte an Kosten und bessere Ergebnisse.

Achso, und falls ihr euch fragt, woher das „o“ kommt in „GPT-4o“: Das soll „omni“ heißen, also Latein für: alle, alles, ganz – eben weil das Sprachmodell nicht nur Text kann, sondern auch Bilder, Video, Audio. (Kurzer Einschub: Um wirklich „omni“ zu sein, müsste es auch schmecken, riechen, fühlen können; aber ok.) GPT-4o hat seinen Vorgänger GPT-4 Turbo in der LMSys Arena, einem Benchmark für Sprachmodelle, um rund 60 Punkte übertroffen. Bei schwierigeren Aufgaben, insbesondere im Bereich der Programmierung, ist der Vorsprung sogar noch größer: Hier erreicht GPT-4o einen um 100 Punkte höheren Wert als sein Vorgänger.

In der Chatbot Arena von LMSys können User einen Prompt eingeben und dann auswählen, welches Sprachmodell besser geantwortet hat. Hier mal ein Beispiel. Ich weiß nicht, welcher Text von welchem Modell stammt. Ich entscheide mich für A und sehe dann: Das ist GPT-4o.

Bei traditionellen Benchmarks erreicht GPT-4o laut OpenAI die Leistung von GPT-4 Turbo bei Text, logischem Denken und Programmieren, setzt aber neue Bestwerte bei mehrsprachigen Aufgaben sowie beim Audio- und Bildverständnis.

Aber dazu muss ich sagen: GPT-4 Turbo mit 128.000 Token fand ich immer etwas schlechter als das normale GPT-4-Modell mit 32.000 Token. Also von daher, wenn das neue Modell jetzt die Geschwindigkeit von GPT-4 Turbo hat und noch bessere Antworten liefert. Perfekt.

Mir war vor allem wichtig herauszufinden, ob GPT-4o – wie alle anderen Chatbots auch – halluziniert. Das machen nämlich alle, vor allem in Themenbereichen, wo ihnen Trainingsinhalte fehlen. Anstatt zu melden „Sorry, weiß ich nicht“ fabulieren LLMs munter drauf los. Wir testen zum Beispiel immer gerne mit ungewöhnlichen Touristenattraktionen in Nicht-Metropolen – je kleiner die Stadt, desto größer ist die Wahrscheinlichkeit, auf Halluzinationen zu stoßen. Vor allem, wenn man direkt 10 oder 20 Attraktionen haben will.

Und ja, da halluziniert auch GPT-4o: Die Sprengel-Schokoladenfabrik ist seit 1980 geschlossen, der „unterirdische Bereich unter der Kröpcke-Uhr“ ist einfach eine normale U-Bahn-Station und der Fuchsbau ist keine „kreative Event-Location“, sondern ein Festival, das einmal im Jahr für ein Wochenende stattfindet. Interessant ist aber, dass die Halluzinationen nicht komplett ausgedacht, sondern quasi mit einem Fuß in der Realität stehen – also so etwas wie meine Lieblingshalluzination damals, als Google Bard erzählt hat, es gäbe in Hannover eine Straße, die mit Knochen und Schädeln dekoriert ist. (Hier mal ein Best-of, was Chatbots schon frei erfunden haben). Ich habe ChatGPT-4o auch nach einem Ort gefragt, der so besonders ist, dass man ihn nicht auf Google findet. Und diesen Rüdigerstollen findet man tatsächlich nicht auf Google. Das ist scheinbar ein Stollen aus dem Zweiten Weltkrieg. Aber den scheint es wirklich zu geben, auch wenn er heute nicht mehr öffentlich zugänglich ist. Vermutlich hat GPT-4o in den Trainingsdaten irgendein Archiv aus Hannover.

Unsere Test-Videos zu Chatbots werden irgendwie immer kürzer. Klar, wir probieren alle Tests aus. Aber oft sind die Ergebnisse nicht krass anders und deswegen kauen wir das nicht nochmal alles durch. Sondern nur die Highlights.

Und eines davon ist für mich klar der Humor und die Sprachfähigkeit von GPT-4o. Wir haben natürlich wieder den klassischen c’t-3003-Witz-Benchmark laufen lassen – und GPT-4o schafft den bisher besten Witz mit einem Schokoladenkuchen, Martin Luther und einem Raspi von einer KI.

Martin Luther, ein Schokoladenkuchen und ein Raspberry Pi sitzen in einem Café.

Martin Luther schaut den Schokoladenkuchen an und sagt: „Was machst du hier?“

Der Schokoladenkuchen antwortet: „Ich bin hier, um den Menschen Freude zu bringen!“

Da meldet sich der Raspberry Pi zu Wort und sagt: „Und ich bin hier, um die Welt zu revolutionieren!“

Martin Luther lacht und sagt: „Nun, dann sind wir alle auf einer Mission, die Menschheit zu verändern – einer von uns mit 95 Thesen, einer mit 95 Prozent Kakao und einer mit 95 Prozessoren!“

Joa. Ist noch Luft nach oben. Aber die Messlatte liegt auch nicht super hoch bei den anderen Chatbots. Also da ist schon viel gewonnen, wenn ein Witz Sinn ergibt. Und wenn er dann auch noch etwas Humor hat, passt.

Und ansonsten hat GPT-4o im Bild- und Textmodus wirklich gut funktioniert. Hier hab ich beispielsweise ein Bild von Keno in einen Cartoon wandeln lassen. Richtig gut und damit kann man wirklich einiges machen. Theoretisch auch Videos mit eingebrannten Untertiteln auf Rechtschreibfehler überprüfen lassen. Hat nur leider bei mir nicht immer geklappt. Manchmal hat er das nicht auslesen können und mir dann vorgeschlagen, das doch selbst zu machen – indem ich die einzelnen Frames mit Text runterlade. Das müssten zwar mindestens 25 Bilder sein. Aber angeboten hat er mir nur 6.

Was mich echt beeindruckt hat: Ich habe aus den Attraktionen in Hannover noch eine Karte machen lassen. Das ist dann eine HTML-Datei geworden mit einer Karte von Hannover, auf der die Top-Attraktionen aus der vorherigen Antwort eingezeichnet waren.

Eine Sache, die leider auch nicht mit ChatGPT-4o funktioniert: Dieses PDF mit einer Urlaubsplanung schöner zu machen. Also wirklich eigentlich was ganz Banales. Was ich in 15 Minuten einfach machen könnte, weil es eben recht stupide ist. Die Formatierung etwas bearbeiten, die Links kürzen, eine Karte screenshoten, in der die einzelnen Unterkünfte und die Wanderroute eingezeichnet sind. Und dann noch ein Bild von jeder Unterkunft einfügen. Das hat bisher noch kein Chatbot geschafft. Und auch GPT-4o kommt da an die Grenzen. Ich bekomme zwar noch eine genaue Vorgehensweise gezeigt, aber ein PDF zum Download bekomme ich nie. ChatGPT versucht noch ein Python-Skript zum Erstellen der PDF zu schreiben, aber auch das funktioniert nicht. Am Ende hab ich den Text mit den verkürzten Links dann einfach in Word kopiert. Immerhin die Formatierung war jetzt schon mal schöner – ABER die verkürzten Links haben nicht funktioniert. Das musste ich also nochmal machen. Also da der Text gut ist, wäre ChatGPT-4o so am Desktop wirklich praktisch, wenn das dann direkt in Office-Texte einfügen könnte zum Beispiel. Aber ich habe GPT-4o nicht nur in ChatGPT ausprobiert.

Neben dem Chatbot habe ich GPT-4o auch noch in DC I/O getestet. Das ist ein KI-Tool, das wir bei der c’t verwenden, um Texte zu erstellen. Also ich lade zum Beispiel dieses Skript in das Tool und benutze dann meinen Prompt, der aus dem Transkript einen Artikel-Entwurf macht. Ich kann mir dann hier noch das Sprachmodell aussuchen. Und da gibt es jetzt eben auch GPT-4o. Das hat richtig gut funktioniert und war auch noch ein gutes Stück schneller als die anderen Sprachmodelle. Übrigens: Wir schreiben damit natürlich keine ganzen Texte oder Video-Skripte. Hauptsächlich benutzen wir das, um Transkripte von Whisper auf Rechtschreibfehler zu überprüfen oder mal ein Transkript zusammenzufassen, für den Newsletter. Und klar, da steigt die Qualität natürlich auch mit dem neuen Sprachmodell von OpenAI.

Fazit

GPT-4o ist schnell, also in den meisten Fällen doppelt so schnell wie GPT-4. Es ist allerdings nicht das schnellste aktuelle Sprachmodell, so schafft zum Beispiel Googles Gemini die drei ersten Artikel des Grundgesetzes in 10 Sekunden, GPT-4o hat bei unseren Tests ja 16 gebraucht.

Bei der Genauigkeit schneidet GPT-4o ebenfalls besser ab, halluziniert wird zwar noch, aber der, sagen wir mal, Absurditätsgrad sinkt (sieht man ja zum Beispiel bei den Ausflugstipps). Es gab aber auch nach wie vor richtig krasse Fehler, zum Beispiel waren die falschen verkürzten Links. Wenn ich die nicht nochmal geprüft hätte, dann hätte ich anderen einfach Links, die zu einer 404-Seite führen, geschickt. Also auch bei GPT-4o kann man sich nicht blind auf die KI verlassen.

Wie ist das bei euch? Habt ihr schon Zugriff auf GPT-4o und auf die Mac-Desktop-App? Und sollen wir noch ein Video zu den ganzen multimodalen Möglichkeiten mit GPT-4o machen, wenn die alle freigeschaltet sind? Schreibt es gerne in die Kommentare und natürlich auch gerne abonnieren. Tschüss.

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.