Microsofts Drawing-Bot erzeugt genauere Bilder aus natürlicher Sprache

Forscher von Microsoft haben einen Bot geschaffen, der mittels neuronaler Netze Bilder aus natürlicher Sprache erzeugt. Das Netz erzeugt dabei Pixel für Pixel vollständig neue Bilder und achtet dabei genauer auf Vorgaben als bisherige Techniken.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
Microsofts Drawing-Bot zeichnet auf Kommando

Microsofts Drawing-Bot achtet bei Vögeln auf die Details.

(Bild: Microsoft)

Lesezeit: 2 Min.
Von
  • Merlin Schumacher

Eine Forschergruppe von Microsoft und drei US-Universitäten hat neuronale Netze verwendet, um einen Bot zu schaffen, der aus natürlicher Sprache detaillierte Bilder generieren kann. Die Technik soll die Erzeugung von Grafik anhand von Sprache etwa im Computer Aided Design (CAD) oder in der Grafikbearbeitung vereinfachen, da sie komplexere Anweisungen versteht als bisherige neuronale Netze. Die erzeugten Bilder werden dafür nicht aus Elementen zusammengesetzt, sondern vollständig generiert.

Die Forscher haben dafür bestehende Technik für neuronale Netze modifiziert. Statt der zur Bilderzeugung populären Generative Adversarial Neworks, haben sie dafür ein Attentional Generative Adversarial Network (AttnGAN) entwickelt. Das AttnGAN wurde dann mit Trainingsdaten gefüttert, die sowohl Bilder als auch zugehörige Beschreibungen enthielten.

AttnGAN schenkt verschiedenen Unterbereichen von Bildern dediziert Aufmerksamkeit beim Zeichnen. Jedes Wort im Satz wird einzeln ausgewertet und bei der Generierung betrachtet. So achtet das Netz bei der Vorgabe "Ein gelber Vogel mit rotem Schnabel" extra auf den Schnabel und verarbeitet den Satz nicht nur als Gesamtkonstrukt.

Der Algorithmus erträumt sich ein Doppeldeckerbusschiff

Teile der generierten Bilder werden vom Algorithmus mit typischen Inhalten aufgefüllt. "Aus den [Trainingsd]aten lernt der Maschinenlernalgorithmus, wo ein Vogel üblicherweise hingehört" so einer der Forscher. So sitzen die meisten Vögel auf Ästen, wenn die Textvorgabe nicht etwas anderes fordert.

Um dieses Feature zu testen, wurden dem Algorithmus auch absurde Textvorgaben gemacht, wie etwa "ein roter Doppeldeckerbus der auf einem See schwimmt". Der Algorithmus machte daraus ein Bild, dass sowohl einem Doppeldeckerbus als auch einem Boot mit zwei Decks ähnelte. Das ganze auf einem See der von Bergen umgeben ist.

Die Technik ist laut Microsoft noch lange nicht perfekt. Bei genauer Betrachtung erzeugt das Netz immer wieder Fehler, dennoch seien die Bilder bis zu drei mal so gut wie die bisheriger Netze. Die Forscher hoffen, dass man mit mehr Rechenleistung Maler, Innenausstatter oder Grafiker bei ihrer Arbeit unterstützen kann. Auch sei es vorstellbar, dass man Animationsfilme auf Basis des Drehbuchs automatisch erzeugt und so den Animatoren viel Handarbeit abnimmt. (mls)