eDiffi: NVIDIA bietet als erster Hardwarehersteller hochwertige KI-Bildsynthese

Diffusionsmodell eDiffi gehört zu den KI-Tools, die Spracheingaben in Bilder umsetzen. Es überträgt Stile und gewährt Nutzern mehr Kontrolle als andere Tools.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: NVIDIA, Deep Imagination)

Lesezeit: 4 Min.
Von
  • Silke Hahn

Ein Forschungsteam des Hardwareherstellers NVIDIA hat eDiffi vorgestellt, ein Diffusionsmodell zum Erstellen von Bildern aus Textvorgaben. Stilübertragung, Stilvariationen und Malen mit Worten gehören zum Repertoire des neuen KI-Modells. Der Einsatz spezialisierter Entrauschungsnetzwerke sowie die Kombination von CLIP- und T5-Encodern soll zu verbesserten Synthesefähigkeiten führen.

Vergleich zwischen den Einbettungen von CLIP und T5 sowie der Kombination beider Encoder: Text- und Bildqualität nehmen zu.

(Bild: NVIDIA, Deep Imagination)

Anders als die bisher verfügbaren Modelle wie DALL-E von OpenAI, Stable Diffusion von Stability AI und weiteren Partnern, Imagen von Google oder Make a Scene von Meta AI kann man in eDiffi direkt mit Wörtern malen, also beispielsweise eine grobe Skizze anlegen und die einzelnen Bildsegmente mit Wörtern versehen, woraus das Modell ein zusammenhängendes Bild erstellt. Im Prinzip können Nutzer Bildfläche in Segmente aufteilen, diese mit Begriffen versehen und eDiffi erstellt aus dieser segmentierten Karte ein kohärentes Bildwerk.

Die Nutzerinnen und Nutzer sollen bei diesem Modell mehr Kontrolle über das gewünschte Ergebnis haben als bei den anderen Alternativen (bisher) der Fall ist. Allerdings ist eDiffi (anders als Stable Diffusion) nicht Open Source und noch nicht öffentlich greifbar zum Ausprobieren. Daher sind solche Einschätzungen zum jetzigen Zeitpunkt mit Vorsicht zu genießen. Einige Funktionen des neuen Modells ähneln stark den bekannten KI-Systemen zur Bildsynthese, führen die Techniken aber offenbar in anderer Weise aus. Auch hier soll ein Fokus auf mehr Nutzerkontrolle liegen.

So kann das Modell Bilder textgeleitet erstellen, lässt sich aber auch durch visuellen Input wie eine Zeichnung oder Skizze prompten und ebenfalls in der Kombination aus Text- und Bildvorgaben zum gewünschten Ergebnis lenken. Um auf diese Weise ein Bild zu erstellen, muss man zunächst schon eine klare Vorstellung mitbringen – klarer als bei der Wundertüte eines reinen Textpromptes. Auch den Stil des Outputs können Nutzerinnen und Nutzer durch das Eingeben eines Bildes im gewünschten Stil – zusätzlich zum Textprompt – steuern, was in der Form bei anderen Modellen noch nicht möglich zu sein scheint.

Hier wurde das Modell mit einer segmentierten Grafik und einem Textprompt beschickt, der zu deutsch lautet: "Digitale Zeichnung eines halbgefrorenen Sees nahe bei Bergen unter einem Vollmond und Polarlichtern. Sehr detailliert."

(Bild: NVIDIA, Deep Imagination)

Dass das Modell einerseits sehr ähnliche Fähigkeiten beherrscht wie die bekannten Bildgeneratoren, andererseits neue Qualitäten aufweist, liegt an Änderungen der zugrundeliegenden Architektur. Dem Team war aufgefallen, dass die Phasen des Sampelns (also des Abnehmens von Stichproben) sich im Verlauf des Trainings stark voneinander unterscheiden. Daher entschied sich das Team, ein Ensemble unterschiedlicher "Entrauschungsnetzwerke" zu trainieren, die auf das jeweilige Rauschintervall spezialisiert sind. Diese Einzelexperten nennt das Team Expert Denoisers. Die Pipeline von eDiffi hat drei Diffusionsmodelle und mehrere solcher Expert Denoiser zusammengeschaltet. Von der Auflösung 64x64 geht es schrittweise zum Super-Resolution-Stack mit 256x256 Pixel, das Modell kann Bilder bis zu einer Auflösung von 1024x1024 Pixel hochrechnen.

Modellarchitektur von eDiffi

(Bild: NVIDIA, Deep Imagination)

Das Team greift auf vortrainierte Modelle zurück und kombiniert dabei zwei verschiedene Encodertypen, CLIP-Text- und Bildeinbettungen (Methode von OpenAI) sowie T5-Texteinbettungen (Methode von Google AI). Je nach Eingabeprompt kommen die unterschiedlichen Aspekte zum Tragen. Während T5 die Fertigkeiten bei der Texterkennung stärkt, stärkt CLIP die Treffsicherheit bei der Bild-Text-Paarung. Die Übersetzungsarbeit von Text und Bild für die Maschine scheint durch die Kombination besser zu gelingen, und dem Modell gelingt fotorealistische Bildproduktion.

eDiffi scheint nicht bloß auf dem aktuellen Stand der Technik zu sein, sondern die vorhandenen Modelle in einigen Punkten zu übertreffen: So vermag eDiffi offenbar, gewünschten Text auch visuell korrekt wiederzugeben (eine Fähigkeit, die Imagen möglicherweise beherrscht, Modelle wie DALL-E 2 und Stable Diffusion hingegen fabulieren bei gewünschten Beschriftungen oft Fantasietext oder kryptische Zeichen). Nach Meinung erster Gutachter wie Louis Bouchard, die das Forschungspaper samt zahlreicher Bild- und Textbeispiele angeschaut haben, liefert eDiffi offenbar bessere Resultate als die bisher verfügbaren Modelle.

Vorsicht, Cherrypicking? Vergleich des Outputs von Stable Diffusion, DALL·E 2 und eDiffi

(Bild: NVIDIA, Deep Imagination)

Auf der begleitenden Website stehen Bildbeispiele bereit, und weitere Details zur Forschung und Technik lassen sich dem bei arxiv.org hinterlegten Forschungspaper des eDiffi-Teams entnehmen.

(sih)