Googles Bildgenerator Imagen 2 jetzt in der Plattform Vertex AI verfügbar

Googles KI-Bildgenerator Imagen 2 soll realistische Hände und Gesichter beherrschen. In- und Outpainting-Funktion kommen allerdings erst 2024.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

(Bild: Google Deep Mind)

Lesezeit: 2 Min.
Inhaltsverzeichnis

Google hat mit Imagen 2 eine neue Version des Text-zu-Bild-Modells vorgestellt. Eine Vorschauversion finden Entwicklern und Google-Cloud-Kunden ab sofort über die Imagen API in Googles Plattform Vertex AI. Um den Output des Modells zu verbessern, hat Google Trainingsbilder mit ausführlicheren Beschreibungen verarbeitet. Das soll Stimmungen in Bildern und Prompts besser einfangen, als Beispiel zeigt Google hier generierte Bilder, die auf lyrischen Textpassagen und Gedichten beruhen. Außerdem soll das System bei Gesichtern und Händen natürlichere Ergebnisse liefern und wurde auf ansprechendere Ästhetik feingetunt.

(Bild: Google Deep Mind)


Für das Ästhetik-Feintuning verwendete Google Trainingsdaten mit Werten für gute und schlechte Lichtverhältnisse, Bildausschnitte, Belichtung und Schärfe der Bilder. Von Menschen bevorzugte Einstellungen spiegeln sich so in den Modellgewichten wider und lassen sich dementsprechend prompten. Ein weiteres Feature ist, dass sich Stile oder Muster aus Referenzbildern für neu generierte Objekte verwenden lassen sollen. Die erste Version von Imagen 2 versteht Englisch, Chinesisch, Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch, weitere Sprachen sollen 2024 folgen.

(Bild: Google Deep Mind)

Die bei vielen Bildgeneratoren mittlerweile gängigen Funktionen von In- und Outpainting sollen bei Imagen im nächsten Jahr folgen. Diese Techniken erlauben es den Nutzern, Inhalte von Bildvorlagen oder generierten Bildern gezielt zu ändern (Inpainting) oder ein gegebenes Bild über seine Grenzen hinaus zu erweitern (Outpainting).


Wie auch die Modelle der Konkurrenz enthält Imagen 2 bestimmte Filter. So sollen Nutzer keine Gewaltdarstellungen, anstößige oder pornografische Inhalte erstellen können. Entsprechend hat Google die Trainingsdaten überprüft, Imagen prüft dies auch bei Prompts und generiertem Output zum Zeitpunkt des Generierens. Außerdem sollen Filter das Erstellen von Bildern von bekannten Personen verhindern.

Um die erstellten Bilder als KI-generiert zu markieren, setzt Google auf das eigene Werkzeug SynthID. Für das Tool zugelassene Google-Nutzer binden damit Wasserzeichen in die Pixel ihrer generierten Bilder ein. Menschen können diese Wasserzeichen nicht wahrnehmen, SynthID soll sie jedoch auch beim Einsatz von Filtern, Bildzuschnitten oder einer veränderten Kompressionsrate weiterhin erkennen. Ähnliche Tools finden sich auch in Amazons kürzlich veröffentlichtem Titan Image Generator.

Googles Text-zu-Bild-Modell Imagen sollte dabei nicht mit Metas Bildgenerator Imagine verwechselt werden. Weitere Informationen zu der Vorschauversion finden sich im Blog von Deep Mind und in der Doku von Vertex AI.

(pst)