Computer erlernen die Blickrichtung

In welche Richtung schaut eine Person? Was ein Mensch leicht erkennen kann, ist für Maschinen ein erhebliches Problem. Britische Forscher trainieren neuronale Netze jetzt darin, indem sie ihnen künstlich erzeugte Bilder vorlegen.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • TR Online

In welche Richtung schaut eine Person? Was ein Mensch leicht erkennen kann, ist für Maschinen ein erhebliches Problem. Britische Forscher trainierten neuronale Netze jetzt darin, indem sie ihnen künstlich erzeugte Bilder vorlegten.

Augenkontakt ist die mächtigste Form der nonverbalen Kommunikation. Wenn Avatare und Roboter jemals damit arbeiten sollen, werden Informatiker vorher genauer erforschen müssen, wie sich dieses Verhalten beobachten, verstehen und reproduzieren lässt.

Denn das Nachverfolgen von Augenbewegungen ist leichter gesagt als getan. Der wahrscheinlich viel versprechendste Ansatz liegt darin, einen Maschinenlernalgorithmus anhand einer großen Datenbank mit Bildern von Augen, deren Blickrichtung bekannt ist, für die Erkennung zu trainieren.

Das Problem dabei ist, dass große Datenbanken dieser Art noch nicht existieren. Und sie sind auch schwierig anzulegen: Man müsste dafür eine Person fotografieren, während sie in unterschiedliche Richtungen blickt, und zwar unter unterschiedlichen Aufnahmewinkeln und unterschiedlichen Lichtverhältnissen. Das Gleiche müsste man dann mit weiteren Personen mit anderen Augenformen und Gesichtern machen und so weiter, bis genügend Referenzmaterial vorliegt. Ein solches Projekt wäre enorm zeitaufwändig und teuer.

Erroll Wood von der University of Cambridge und Kollegen haben jetzt einen anderen Lösungsansatz dafür vorgestellt: Sie schufen eine riesige Datenbank mit genau den Arten von Augenbildern, die ein Maschinenlernalgorithmus benötigt – ohne ein einziges echtes Foto zu machen oder zu nutzen. Dadurch konnten sie einem Computer beibringen, die Blickrichtung genauer zu erkennen, als es jemals zuvor gelungen war.

Der Trick dabei war, dass die gesamte Datenbank künstlich entstanden ist. Zunächst entwickelten die Forscher ein sehr detailliertes Modell eines Auges samt Augenlid und dem Bereich darum herum. Dieses Modell bauten sie dann in Gesichter von Menschen verschiedenen Alters, verschiedener Hautfarben und Augentypen ein und machten – virtuelle – Aufnahmen davon.

Die Fotos lassen sich mit vier unterschiedlichen Variablen beschreiben: Kameraposition, Blickrichtung, Lichtverhältnisse und Augenmodell. Für ihre Datenbank nahmen Wood und Co. zunächst immer dasselbe Augenmodell und dieselben Lichtverhältnisse und generierten Fotos, auf denen die Augen immer in dieselbe Richtung blicken. Dabei variierten sie die Kameraposition, um Aufnahmen aus vielen unterschiedlichen Winkeln um den Kopf zu bekommen.

Als Nächstes gaben sie ihren künstlichen Augen eine andere Blickrichtung und nahmen sie erneut aus unterschiedlichen Kamerapositionen auf und immer so weiter.

Das Ergebnis war eine Datenbank mit mehr als 11.000 Bildern, aufgenommen aus einem Winkelbereich von 40 Grad und mit Variationen der Blickrichtung von 90 Grad. Augenfarbe und Umgebungslicht für jedes Bild wurden nach dem Zufallsprinzip gewählt.

Abschließend nutzen Wood und seine Kollegen diese Datenbank, um ein so genanntes tiefes Convolutional Neural Network für die Erkennung der Blickrichtung zu trainieren. Den so entstehenden Algorithmus testeten sie dann mit einer Reihe von realen Bildern. „Wir konnten zeigen, dass unsere Methode in der Realität besser funktioniert als die bislang am weitesten entwickelten Methoden für die Erkennung von Blickrichtungen“, schreiben sie.

Aufgrund zweier Fortschritte erobern derzeit Techniken für das sogenannte "Deep Learning" die Welt der Informatik im Sturm. Der erste ist das zunehmende Wissen über neuronale Netzwerke an sich, das Informatiker in die Lage versetzt, sie deutlich zu verbessern.

Der zweite Faktor ist die Entstehung riesiger kommentierter Datensammlungen, mit deren Hilfe sich die Netzwerke trainieren lassen. Viele der neuen Datensammlungen wurden mit Hilfe von Crowdsourcing-Diensten wie Mechanical Turk von Amazon erstellt.

Wood und Co. aber gingen einen anderen Weg. Ihre Datensammlung ist komplett synthetisch in einem Computer entstanden. Es wird spannend sein, zu sehen, ob sich diese Methode auch für die Schaffung von Datensammlungen für andere Arten von Deep Learning nutzen lässt.

()