Schreibende KI lernt, Bilder zu erzeugen
OpenAI trainiert ihre Künstliche Intelligenz GPT-2 nach Wörtern auch mit Pixeln. Das Modell kann sogar halbe Bilder glaubhaft vervollständigen.
- Karen Hao
Im Februar letzten Jahres hatte das in San Francisco ansässige Forschungslabor OpenAI bekanntgegeben, dass sein Künstliches-Intelligenz-System "GPT-2" überzeugende Textpassagen auf Englisch schreiben kann. Fütterte man es mit dem Anfang eines Satzes oder Absatzes, konnte es den Gedanken bis zur Länge eines Essays mit fast menschlicher Kohärenz fortführen.
Videos by heise
Mitte Juli präsentierte das Labor bei der "International Conference on Machine Learning", was passiert, wenn es statt Text einen Bildteil in den Algorithmus einspeist. Die Ergebnisse eröffnen neue Chance für die Bilderzeugung, ermöglichen allerdings auch schädliche Konsequenzen.
GPT-2 ist im Kern eine leistungsstarke Vorhersage-Engine. Sie lernte, die Struktur der englischen Sprache zu erfassen, indem sie Milliarden von Beispielen für Wörter, Sätze und Absätze aus allen Ecken des Internets betrachtete. Mit der gelernten Struktur konnte es dann Wörter in neue Sätze manipulieren, indem es statistisch die Reihenfolge vorhersagte, in der sie erscheinen sollten.
Als nächstes beschlossen die Forscher von OpenAI, die Wörter gegen Pixel auszutauschen und denselben Algorithmus mit Bildern aus ImageNet, der beliebtesten Bilddatenbank für Deep Learning, zu trainieren. Da der Algorithmus für die Arbeit mit Textzeichenfolgen, also eindimensionalen Daten ausgelegt war, dröselten sie die Bilder zu einer Abfolge von Pixeln auf. Tatsächlich konnte das neue Modell mit dem Namen iGPT die zweidimensionalen Strukturen der visuellen Welt immer noch erfassen. Aus der Pixelfolge für die erste Bildhälfte konnte sie die zweite Bildhälfte so vorhersagen, wie sie auch Menschen für sinnvoll halten würden.
Neue Wege für unbeaufsichtigtes Lernen
In den untenstehenden Beispielen enthält die Spalte ganz links die Eingabe, die Spalte ganz rechts das Original und die mittleren Spalten sind die vorhergesagten Vervollständigungen von iGPT. (Weitere Bild-Beispiele)
(Bild: OpenAI)
Die Ergebnisse sind beeindruckend und zeigen einen neuen Weg für die Verwendung von unbeaufsichtigtem Lernen, das mit unbeschrifteten Daten trainiert, für die Entwicklung von Maschinen-Sicht-Systemen. Während frühe Computer-Vision-Systeme Mitte der 2000er Jahre solche Techniken bereits erprobt hatten, gewann das überwachte Lernen mit beschrifteten Daten die Oberhand, da es sich als weitaus erfolgreicher erwies. Der Vorteil des unbeaufsichtigten Lernens besteht jedoch darin, dass ein KI-System ohne menschlichen Filter etwas über die Welt lernen kann und die manuelle Arbeit bei der Datenbeschriftung erheblich reduziert wird.
Die Tatsache, dass iGPT denselben Algorithmus wie GPT-2 verwendet, zeigt auch seine vielversprechende Anpassungsfähigkeit. Dies steht im Einklang mit dem ultimativen Ziel von OpenAI, eine besser verallgemeinerbare Maschinenintelligenz zu erreichen. Gleichzeitig bietet die Methode allerdings auch einen neuen Weg, um gefälschte Deepfake-Bilder zu erstellen. Generative gegnerische Netzwerke (generative adversial networks, GAN), die in der Vergangenheit am häufigsten für Deepfakes verwendet wurden, müssen auf hochgradig kuratierten Daten trainiert werden. Soll ein GAN beispielsweise ein Gesicht generieren, sollten seine Trainingsdaten nur Gesichter enthalten. Im Gegensatz dazu kann OpenAIs „iGPT“ aus Millionen und Milliarden von Beispielen genug über der Struktur der visuellen Welt lernen, um Bilder auszuspucken, die möglicherweise in ihr existieren könnten. Während des Trainings ist das Modell immer noch rechenintensiv und das seinen Einsatz zunächst bremst, wird das möglicherweise nicht lange der Fall bleiben.
Die weiteren Aussichten
Nähere Details wollte OpenAI nicht verraten. Doch in einem internen Policy-Team-Meeting, an dem MIT Technology Review im vergangenen Jahr teilgenommen hat, dachte Policy-Direktor Jack Clark über die zukünftigen Risiken der Generierung im GPT-Stil nach – einschließlich der Risiken einer Anwendung für Bilder. "Video wird kommen", sagte er und projizierte den Forschungsverlauf des Feldes. "In fünf Jahren werden Sie wahrscheinlich über einen Zeitraum von fünf bis zehn Sekunden eine kausale Videoerzeugung haben." Seine Vision sah so aus: Würde man ein Foto eines Politikers und das einer Explosion einspeisen, würde das System wahrscheinlich ein Output erzeugen, in dem dieser Politiker getötet wird.
(vsz)