4o-Modell: Neuer Bildgenerator in ChatGPT

OpenAI aktualisiert den Bildgenerator in ChatGPT. Er basiert künftig auf dem Modell 4o. Dall-E wird abgelöst.

vorlesen Druckansicht 21 Kommentare lesen
Ein Mann mit einem Prisma

Ein Mann mit einem Prisma – generiert von ChatGPT.

(Bild: OpenAI)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Bilder mit ChatGPT erstellen geht künftig auch mittels Eingabe durch Gespräche und hochgeladene Dateien. Sowohl die Generierung als auch die Bildbearbeitung sind verbessert worden, kündigt OpenAI an. Das betrifft das Befolgen von Anweisungen, also wie genau Prompts umgesetzt werden, Kontextverständnis und Text-Rendering. Grund dafür ist die Umstellung des Bildgenerators auf das Modell 4o. Abgelöst wird entsprechend Dall-E. Der separate Bildgenerator wird aber weiterhin verfügbar sein.

Videos by heise

Mit dem Wechsel auf das omnimodale Modell 4o wird die Bildgenerierung nativ, das heißt, es sind nicht mehr zwei verschiedene Modelle für Text und Bild zuständig. Zugriff bekommen alle Menschen mit Plus-, Pro-, Teams- und Free-Konten. Allerdings geschieht die Einführung nach und nach. Enterprise- und Edu-Kunden sind erst später an der Reihe.

OpenAI verspricht im Blogbeitrag deutliche Verbesserungen der Bilder. Dazu gehört etwa eine akkuratere Bildgenerierung von Diagrammen, Infografiken, Logos und Promo-Grafiken für Social Media mit Hexadezimalcodes. Da Text deutlich besser wiedergegeben werden kann, lassen sich sogar Visitenkarten gestalten, schreibt OpenAI. Möglich ist auch, Bilder mit transparentem Hintergrund zu erstellen, die sich dann beispielsweise in Präsentationen einbauen lassen.

Die Referenz eines Bildes.

(Bild: OpenAI)

Bilder lassen sich auf Basis einer Vorlage verändern. OpenAI denkt hier etwa an Interior-Design-Ideen auf Basis eines Wohnzimmerfotos. Als Beispiel für die Generierung eines Bildes auf Basis eines Gesprächs nennt OpenAI die Vogelarten im Central Park oder die Visualisierung einer Epoche, über die man gerade spricht.

Die Zeichnung eines Hauses.

(Bild: OpenAI)

OpenAI hatte schon bei der Vorstellung von GPT-4o gesagt, das Modell könne gleichzeitig Text, Audio und Bilder verstehen und entsprechend auch generieren. Informationen müssen also nicht mehr von einem Modell zu einem anderen Modell weitergereicht werden. Beispielsweise musste zuvor ein Modell Text generieren und diesen an ein anderes Modell weitergeben, um daraus eine Audiodatei zu machen. Der Weg ist eine potenzielle Fehlerquelle.

Bilder, die mit OpenAIs Tools generiert wurden, bekommen grundsätzlich einen Hinweis darauf in den Metadaten. OpenAI nutzt dafür den offenen Standard C2PA, der auch unter anderem von Kameraherstellern genutzt wird, um die Herkunft eines Fotos zu verifizieren.

OpenAI-CEO Sam Altman schreibt bei X, der neue Bildgenerator gebe den Nutzenden mehr Freiheiten bei der Bildgenerierung. Sprich: Es werden weniger Inhalte verweigert. "Wir denken, dass es richtig ist, diese intellektuelle Freiheit und Kontrolle in die Hände der Nutzer zu legen, aber wir werden beobachten, wie es sich entwickelt, und auf die Gesellschaft hören." Zudem glaube er, es sei richtig, die "sehr weiten Grenzen zu respektieren, die die Gesellschaft letztendlich für KI setzen wird, und dass es immer wichtiger wird, je näher wir an AGI herankommen."

Damit rückt OpenAI näher an Elon Musks Bildgenerator, der in Grok integriert ist, heran. Auch dieser hat kaum Leitplanken, wenn es um die Erstellung von Bildern geht.

Siehe auch:

(emw)