ChatGPT erhält neue Bild-KI, die mitdenkt und im Web recherchiert

OpenAIs neues Bildmodell „ChatGPT Images 2.0“ plant und strukturiert visuelle Aufgaben, nutzt die Websuche und erstellt auf Wunsch zusammenhängende Bildserien.

4

OpenAIs neue Bild-KI imitiert ein Fotobuch mit spontanen Straßenaufnahmen aus dem New York der 1970er Jahre im Stil von 35-mm-Fotografien.

(Bild: OpenAI)

11:30 Uhr

Lesezeit: 3 Min.

Von

Tomislav Bezmalinović

OpenAI hat ein neues Bildmodell vorgestellt. Die zentrale Neuerung von „ChatGPT Images 2.0“ ist der Thinking-Modus. Ist dieser ausgewählt, strukturiert das Modell visuelle Aufgaben und bezieht bei Bedarf aktuelle Informationen aus dem Web sowie sein bestehendes Wissen ein, bevor es ein Bild erzeugt. Der Wissensstand reicht nun bis Dezember 2025 und soll insbesondere bei Infografiken, Lehrmaterialien und erklärenden Darstellungen für bessere Ergebnisse sorgen. Im Thinking-Modus kann das Modell zudem eine stimmige Serie von bis zu acht Bildern in einem Durchgang erstellen, die mit konsistenten Figuren und Objekten aufeinander aufbaut. Dabei achtet das System auf eine durchgehende visuelle Gestaltung und inhaltliche Kontinuität.

Parallel dazu legt das Modell auch beim Realismus zu. Laut OpenAI stellt es Licht, Texturen und feine Details konsistenter dar und kann auch kleine Unregelmäßigkeiten einbauen, die Bilder natürlicher wirken lassen. Dadurch nähert sich die Ausgabe stärker fotografischen Aufnahmen oder filmischen Szenen an.

Videos by heise

Ein weiterer Schwerpunkt liegt auf der Darstellung von Text. Während frühere Modelle oft Probleme mit längeren oder komplexeren Texten hatten, soll ChatGPT Images 2.0 hier deutlich zuverlässiger arbeiten. Das gilt auch für nicht-lateinische Schriftsysteme. Laut OpenAI wurden Sprachen wie Japanisch, Koreanisch und Chinesisch verbessert, sodass Texte nicht nur korrekt erscheinen, sondern auch sprachlich stimmig in das Gesamtbild eingebettet sind.

Fortgeschrittene Funktionen nur für zahlende Nutzer

Zugleich soll das Modell Eingaben insgesamt präziser umsetzen, Objekte zuverlässiger platzieren und auch komplexe Layouts mit Text, Symbolen oder UI-Elementen konsistenter darstellen. OpenAI zufolge erleichtern diese Verbesserungen auch die Erzeugung von Benutzeroberflächen und Screenshots.

Das verbesserte Modell unterstützt Seitenverhältnisse von 3:1 bis 1:3 und eignet sich damit laut OpenAI für Formate von Bannern und Präsentationsfolien bis zu Postern, Smartphone-Ansichten und Social-Media-Grafiken.

In der Ankündigung finden sich zahlreiche Beispiele für diese und andere neue Fähigkeiten des Bildgenerators.

Windows-Desktop mit geöffnetem Browser zeigt die Startseite von heise online mit aktuellen IT-Nachrichten. — Das ist kein echter Screenshot.

(Bild: heise medien)

ChatGPT Images 2.0 ist ab sofort in ChatGPT verfügbar, wobei erweiterte Funktionen wie der Thinking-Modus Nutzern von ChatGPT Plus, Pro und Business vorbehalten sind. Das Bildmodell steht auch im Programmierwerkzeug Codex bereit und ermöglicht dort visuelle Workflows direkt in der Entwicklungsumgebung. Über die Schnittstelle „gpt-image-2“ können Entwickler die Funktionen zudem in eigene Anwendungen einbinden. Die Kosten richten sich vor allem nach Qualität und Auflösung: Im Vergleich zum Vorgänger fallen größere Formate teils günstiger aus, während Standardauflösungen mehr kosten. API-Ausgaben über 2K befinden sich noch in der Beta, weil sie als fehleranfällig gelten.

ChatGPT Images 2.0 folgt auf die im März 2025 mit GPT-4o gestartete Bildgenerierung, die im Dezember 2025 mit GPT-Image-1.5 weiter verbessert wurde. Mit dem neuen Modell holt OpenAI im Wettbewerb mit anderen Bildgeneratoren wie Googles Nano Banana Pro auf, das Bildgenerierung mit Analysefähigkeiten kombinierte sowie Fortschritte bei Textdarstellung und Mehrsprachigkeit brachte.