Software beschreibt Bilder

US-Forscher haben einen Algorithmus entwickelt, mit der sich Videobilder live mit genauen Textbeschreibungen versehen lassen.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.

US-Forscher haben einen Algorithmus entwickelt, mit der sich Videobilder live mit genauen Textbeschreibungen versehen lassen.

Was sieht man auf einem Bild? Die frei herunterladbare und quelloffene Software NeuralTalk2 kann Bildsignale, die ihr als Foto oder Videofeed vorgelegt werden, erstaunlich genau mit englischen Worten umschreiben. Entwickelt hat sie der Stanford-Doktorand Andrej Karpathy zusammen mit Kollegen, die zeigen wollten, wie weit moderne Bilderkennungssysteme mittlerweile gekommen sind.

Bei der Vorlage eines Bildes spuckt NeuralTalk2 wortreiche Beschreibungen aus wie "schwarz-weiße Katze, die auf einem Waschbecken sitzt" – und erkennt im Versuch sogar Menschen, die sich als Zombies verkleiden. Oder sie beschreibt neben dem auf einem Teller liegenden Sandwich auch noch den daneben vorhandenen Salat. Manchmal liegt die Software allerdings auch falsch und verwechselt etwa einen sitzenden Mann mit einer stehenden Frau. Mit mehr Trainingsdaten soll das Programm allerdings immer genauer werden, was am verwendeten Lernprinzip der Software liegt.

Neuraltalk2 liegt offen im Quellcode vor.

Der Künstler und Software-Entwickler Kyle McDonald hat die Software bereits für ein Kunstprojekt in Amsterdam genutzt. Er lief dabei einige Zeit mit einem umgeschnallten Rechner durch die niederländische Metropole und zeigte den Menschen, was sein Computer dank NeuralTalk2 so alles erkennen konnte.

Passanten waren erstaunt, dass die Software Bilder mit nahezu menschlicher Präzision interpretieren konnte. Der verwendete Rechner, ein Apple MacBook Pro aus dem Jahr 2013 mit NVIDIA-750M-Grafikkarte und nur 2 GByte Grafikspeicher, hatte damit keine leistungsmäßigen Probleme; die Erkennung erfolgte nahezu in Echtzeit.

Die Software in Aktion.

(Bild: Kyle McDonald)

Karpathy will die Software weiter verbessern und hofft, dass ihm freie Entwickler wie McDonald dabei helfen. Der Computerkünstler hat den von ihm verwendeten Code, mit dem von einer Webcam gestreamte Bilder sofort ausgelesen und interpretiert werden können, bereits öffentlich publiziert. Ein Einbau in eigene Programme fällt so leicht.

Für sein Experiment in Amsterdam hatte der Künstler NeuralTalk2 zuvor mit Daten gefüttert, die aus der sogenannten MS COCO-Datenbank stammten. Diese wurde vom Softwarekonzern Microsoft im Rahmen eines Wettbewerbs entwickelt und freigegeben. SIe enthält rund 100.000 verschiedene Paare aus Bild und Bildbeschreibung, die ein breites Spektrum an Situationen abdecken.

Die Bilderkennung ist erstaunlich genau – wenn sie trifft.

(Bild: Andrej Karpathy)

Mit Hilfe des maschinellen Lernens kann der Rechner diese Datensätze dann Schritt für Schritt auf ähnliche Bilder übertragen. Die Software basiert auf dem Prinzip eines neuronalen Netzes.

Selbst lernen kann das System in dieser Konfiguration aber noch nicht – es steht jedoch jedem Interessierten frei, dem Rechner andere Situationen beizubringen. Dazu muss nur eine ausreichend große Datenbank her. (bsc)