KI-Bildgenerator DALL-E 2 soll mehr Diversität für Personendarstellungen bringen

OpenAI hat das KI-System weiter angepasst, damit Bilder von Menschen die Vielfalt der Weltbevölkerung widerspiegeln.

In Pocket speichern vorlesen Druckansicht 36 Kommentare lesen

Anweisung "A portrait of a heroic firefighter"

(Bild: OpenAI)

Lesezeit: 5 Min.

Drei Monate nach dem Release von DALL-E 2 hat OpenAI eine neue Technik implementiert, die mehr Diversität für die Darstellung von Menschen bringen soll. Die Maßnahme soll Bilder erstellen, die nicht Vorurteilen oder mehrheitlicher Präsenz beispielsweise zu bestimmten Berufsgruppen folgen, sondern die Vielfalt der Weltbevölkerung repräsentieren.

Die Technik arbeitet direkt auf Systemebene, wenn DALL-E 2 eine Aufforderung zur Darstellung einer Person ohne Angabe von Geschlecht oder Ethnie erhält, wie "Firefighter" oder "CEO". In den Beispielen zum Blogbeitrag erzeugte das System vor der Anpassung für erstere Kategorie sechs weiße Männer. Mit der neuen Technik spuckte es die Portraits von vier Männern und zwei Frauen unterschiedlicher ethnischer Herkunft aus.

Das Thema Bias ist eins der größten Probleme im Bereich der künstlichen Intelligenz. Die Grundlage der Machine-Learning-Modelle sind von Menschen erstellte Trainingsdaten, und es besteht die Gefahr, dass das System Vorurteile übernimmt. 2018 hatte beispielsweise Amazon sein ML-gestütztes Bewertungssystem für Bewerbungen eingestampft, weil es Bewerberinnen gegenüber männlichen Anwärtern benachteiligt hatte.

Von sechs erstellten Bildern mit dem Schlagwort "Teacher" waren vor der neuen Technik alle weiblich und weiß, was sich mit der neuen Technik ändert.

(Bild: OpenAI)

Für generative Modelle, die eigene Inhalte wie Texte oder Bilder erzeugen, besteht zudem das Risiko, dass User versuchen können, sie gezielt zu manipulieren oder beispielsweise für gewaltverherrlichende oder sexistische Inhalte einzusetzen. OpenAI hatte das Sprachmodell GPT-3 erst nach einer relativ langen geschlossenen Phase öffentlich freigegeben. Ein Grund dafür war, dass das Unternehmen zunächst den Bias reduzieren wollte. Eine Analyse hatte Anfang 2021 ergeben, dass das Modell tief verankerte Vorurteile gegen Muslime aus den Trainingsdaten übernommen hatte. Im Februar hatte OpenAI mit InstructGPT eine angepasste Variante von GPT-3 veröffentlicht, die durch menschliches Feedback bestimmte Themenbereiche wie sexuelle Inhalte oder Gewalt ausklammert.

Für DALL-E 2 setzt OpenAI seit der ersten Vorstellung auf einige Vorsichtsmaßnahmen, um das Generieren unangemessener oder vorurteilsbehafteter Bilder zu unterbinden. Unter anderem hat das Unternehmen den Trainingssatz gefiltert, damit er keine Vorlagen für Gewalt, hassgetriebene oder sexuelle Inhalte bietet. Außerdem verbietet die Content Policy des Unternehmens das Generieren entsprechender Inhalte. Auf technischer Seite soll ein Filter für Texteingaben und hochgeladene Bilder einen Missbrauch des Systems abwehren. Die Maßnahmen hat OpenAI nach eigenen Angaben in den letzten Monaten erweitert.

DALL-E ist ein KI-System, das Bilder anhand von Beschreibungen erstellt. Die erste Version hatte OpenAI im Januar 2021 veröffentlicht. Sie setzte auf das ebenfalls von OpenAI stammende Sprachmodell GPT-3. Während Letzteres aus einer großen Sammlung von Texten sein Basiswissen bezieht, hat OpenAI DALL-E und dessen Nachfolger mit zahlreichen Bildern und zugehörigen Beschreibungen trainiert. Das System nutzt die Grundlage, um beispielsweise einen Astronauten auf einem Pferd im Andy-Warhol-Stil zu generieren. Der Name DALL-E ist ein Kofferwort aus dem Nachnamen des spanischen Künstlers Salvador Dali und dem Titel des Pixar-Films "WALL-E".

Der im April 2022 veröffentlichte Nachfolger DALL-E 2 kombiniert zwei Techniken, die OpenAI seit der Veröffentlichung der ersten Variante entwickelt hat: CLIP (Contrastive Language-Image Pre-training), ein künstliches neuronales Netz, das visuelle Konzepte in Kategorien umsetzt, und GLIDE (Guided Language to Image Diffusion for Generation and Editing), ein textgeführtes Diffusionsmodell, das laut einem Paper DALL-E vor allem in den Bereichen Fotorealismus und passende Beschreibung übertroffen hat.

Anders als der Vorgänger kann DALL-E 2 Bilder nachträglich verändern und Inhalte kontextbezogen hinzufügen. Darüber hinaus kann das System vorhandene Bilder umgestalten. Die Projektseite zeigt Variationen bekannter Kunstwerke wie "Das Mädchen mit dem Perlenohrring" von Jan Vermeer van Delft oder "Der Kuss" von Gustav Klimt.

Von DALL-E 2 generierte Bilder im Stil des Expressionisten Egon Schiele sollen im Museum gezeigt werden.

(Bild: OpenAI)

Vor Kurzem hat OpenAI in einem Blogbeitrag Kreationen einiger Künstler vorgestellt. Unter anderem hat der österreichische Schriftsteller und Kurator Stefan Kutzenberger DALL-E 2 genutzt, um Bilder im Stil des mit 28 Jahren gestorbenen Künstlers Egon Schiele zu erstellen, die er im Wiener Leopold Museum neben den echten Gemälden des Künstlers ausstellen möchte.

Weitere Details zu den Maßnahmen für mehr Diversität finden sich im OpenAI-Blog. Das System befindet sich weiter in einer privaten Testphase, und laut eines Updates vom Mai nimmt das Unternehmen wöchentlich etwa 1000 zusätzliche Tester von der Warteliste auf. In Kürze wird zu DALL-E 2 auf heise Developer ein Artikel eines Autors erscheinen, der Zugang zum KI-System hat.

(rme)