GPT-4o: KI soll Ton, Bild und Text gleichermaßen verstehen – ohne Übersetzung

Mit GPT-4o hat OpenAI ein bemerkenswertes Upgrade initiiert. Ein einziges Modell soll Audio, Text und Bild verstehen. Erste Funktionen sind schon ausgespielt.

GPT-4o ist ein neues Modell für die KI-Anwendung von OpenAI. Es soll Inhalte über Mediumsgrenzen hinweg verstehen können.

(Bild: Tada Images/Shutterstock.com)

14.05.2024, 17:06 Uhr

Lesezeit: 5 Min.

Von

Anika Reckeweg

OpenAI hat mit GPT-4o einen Vieleskönner angekündigt. Das Omnimodell für Künstliche Intelligenz, so OpenAIs Bezeichnung – daher auch das "o" – soll Audio, Text und Bild in einem Schwung verstehen können. Die neuen Funktionen erstrecken sich über Gesangskünste der KI bis hin zu Live-Videochats. Letztere werden erst in den kommenden Wochen ausgerollt. Doch die Auffrischung der Text- und Bildkompetenz ist bereits spürbar.

Für die Bedienung von GPT-4 kamen mehrere Modelle zum Einsatz, die den Ton in Text und schließlich die Antwort der KI wieder in Ton verwandelt haben. Teilweise gehen über diese doppelte Übersetzung Informationen verloren oder die KI interpretiert sie falsch. So macht GPT-4 aus den ersten Textzeilen von "Toxicity" (System of a Down) mal eben das Stück "Losing my religion" (R.E.M.). Beim neuen GTP-4o soll alles über ein Modell funktionieren. Dadurch gehe weniger Information verloren, sagt OpenAI.

Entzifferung von Bildern fällt gemischt aus

Ein erster Test des neuen Modells ist derzeit vorerst nur für die Text- und Bildverarbeitung möglich. Dabei versteht GPT-4o gleichermaßen wie GPT-4 die Zeichnung eines Tic-Tac-Toe-Spiels, empfiehlt aber unterschiedliche nächste Züge. Klingt die Antwort von GPT-4 noch recht analytisch, scheint GPT-4o gewinnen zu wollen: Es schlägt den aus seiner Sicht klügsten Zug für einen Sieg vor.

GPT-4o entziffert ohne Probleme Handschriften. Auf die Frage "Wo ist der Rechtschreibfehler?" findet es in einem korrekt geschriebenen Text auch einen – und schlägt als Lösung genau das vor, was schon auf dem Blatt geschrieben steht. Ein "Wo bin ich?" anhand eines Fotos funktioniert auch gut, solange das Bild kleine Hinweise – etwa ein Firmenlogo – auf die Umgebung enthält. Bei einem historischen Brief in Sütterlin mit leicht verblasster Tinte tun sich beide Modelle schwer und raten, sich an mit historischer deutscher Schrift erfahrene Personen zu wenden.

Gibt man GPT-4o ein Poster eines Jazzmusikers und fragt, wer die abgebildete Person ist, mutmaßt es anhand eines Schriftzugs "Think different" und einer Trompete, die es als Saxophon interpretiert, auf die Apple-Kampagne. In einer ersten Variante nennt es zielsicher John Coltrane. Fragt man erneut, lautet die Antwort anders: Es könne keine Personen auf Fotos erkennen, aber aus dem Kontext könne es ein bekannter Jazzmusiker wie John Coltrane sein. Um es genauer zu erfahren, rät es, die Kampagne nachzuschlagen.

Eine nähere Aufnahme interpretiert der Chatbot wiederum richtig und identifiziert Miles Davis. Hier erfasst es auch den Gesprächsverlauf, und dass das zweite Foto ein Ausschnitt aus dem ersten ist. GPT-4 hingegen vermutet eine Fotocollage eines bekannten amerikanischen Künstlers. Hier scheint GPT-4o seinem Vorgänger trotz des ersten Fehlschlags deutlich überlegen, passte trotz der falschen Vermutung zumindest der Kontext der Apple-Kampagne.

Erklärungen im zweiten oder dritten Versuch deutlich besser

Die Kontextspeicherung wie bei dem Poster funktioniert auch über mehrere Interaktionen hinweg. Verrät man der KI beispielsweise am Anfang eines Gesprächs sein Lieblingstier, erinnert es sich später wieder daran.

Bei der Erklärung komplexerer Sachverhalte, etwa der Relativitätstheorie, bringen Zweit- oder Drittversuche deutlich bessere Ergebnisse als der erste Aufschlag. Bittet man GPT-4o, seine eigene Erklärung noch einmal zu erklären, wirft es im ersten Versuch einen nahezu identischen Text aus. Lässt man es neu antworten, gliedert es seinen eigenen Text übersichtlich in mehrere Elemente und erklärt diese einzeln. Die Interpretation einfacher Songtexte funktioniert da deutlich besser. Hier spucken alle drei Versionen (GPT-4o, GPT-4 und GPT-3.5) für "Rock Show" (Blink182) brauchbare Ergebnisse aus.

Wortgewandt – ja, sprachlich sicher – nein

Erstaunlich durchmischt fallen die Ergebnisse bei Witzen aus. Versteht das Modell das sprachliche Augenzwinkern bei "Was ist orange und läuft durch den Wald? Eine Wanderine", versteht es die Bedeutung des exakten Worts bei Flachwitzen offenbar nicht immer. So schlägt es vor "Warum können Geister so schlecht lügen? Weil man durch sie hindurchsieht". Der inhaltliche Unterschied zum korrekten "Weil sie durchschaubar sind", macht den sprachlichen Witz und damit eine der Kernkompetenzen von Flachwitzen hier zunichte.

Auf den ersten Blick ist GPT-4o in mancherlei Hinsicht durchaus brauchbarer als sein Vorgänger. Offenbar versteht es Kontext besser, verfügt über aktuellere Trainingsdaten und kann teils auch Bilder interpretieren. Spannend werden auch die weiteren Funktionen, die OpenAI in den kommenden Wochen ausrollen will. Die angekündigten Funktionen einer besseren Spracheingabe könnten ebenfalls eine massive Erleichterung sein. Die Live-Übersetzung eines Gesprächs in eine andere Sprache resultiert in GPT-4 spätestens nach wenigen Wortwechseln zu einer Verwirrung bei der KI, die den Faden verliert. In den Ankündigungsvideos von OpenAI funktioniert die neue Version hingegen regelrecht als Dolmetscherin – für Reisen in fremdsprachige Länder ein Traum.

Auch die Ankündigung der Videofunktion weckt Erwartungen, schließlich soll die KI live auf die Kamera zugreifen und beispielsweise die Umgebung interpretieren. GPT-4o kann laut der Ankündigungsvideos außerdem mit anderen KIs sprechen, singen und live mathematische Probleme erklären und lösen. Ob dies eine neue Nachhilfefunktion sein kann oder die Kamerafunktion künftig als Tourguide dient, bleibt abzuwarten. Die neuen Funktionen dürften zudem die Debatte über Datenschutz und Urheberrechte wieder anfachen.

(are)

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}