Die Suche nach der Katze im Bilderhaufen

Forscher der Purdue University haben ein Prozessordesign entwickelt, um mit Hilfe des Deep Learning Bilder in groĂźen Fotosammlungen zu erkennen - und zwar auch auf einem Smartphone.

vorlesen Druckansicht 3 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Tom Simonite
  • Niels Boeing

Forscher der Purdue University haben ein Prozessordesign entwickelt, um mit Hilfe des Deep Learning Bilder in groĂźen Fotosammlungen zu erkennen - und zwar auch auf einem Smartphone.

Jede Lebenslage mit einem Foto zu dokumentieren, ist heute Volkssport. Da klicken die Smartphones, was das Zeug hält. Nur wie findet man hinterher ein bestimmtes Bild wieder? Bisher däumelt man sich durch die Fotosammlung. Künftig könnte das ein Verfahren von Forschern der Purdue University übernehmen: Sie haben einen Chip entwickelt, der das sogenannte Deep Learning aus der Künstliche-Intelligenz-Forschung aufs Smartphone bringen – und die Bildersuche enorm erleichtern könnte.

Zwar experimentieren schon Online-Konzerne wie Google, Baidu oder Facebook mit der Deep-Learning-Technologie für eine Bilderkennung. Doch bislang brauchen sie dafür reichlich Hardware: Eine Software von Google, die Katzen in Youtube-Videos erkennen soll, benötigte 16.000 Prozessoren.

Eugenio Culurciello und seine Kollegen haben kürzlich auf der Konferenz „Neural Information Processing Systems“ gezeigt, wie man die Aufgabe auch mit Hilfe eines einzigen Coprozessors lösen kann, der an den Prozessor eines Smartphones angeschlossen ist. Die Deep-Learning-Software konnte Gesichter erkennen oder Teile von Straßenszenen etikettieren.

Bei dem Coprozessor handelt es sich um einen FPGA-Chip (für „Field Programmable Gate Assay“). Diese Chips lassen sich in ihrer Verschaltung umkonfigurieren, um neue Prozessordesigns zu simulieren. Auf diese Weise spart man sich die Fertigung eines teuren Prototyps.

Zwar ist der Bilderkennungsprozessor der Purdue-Forscher nicht so leistungsstark wie die Prozessorbatterie des Katzen-Detektors von Google. Aber er zeigt schon die Richtung, in der das Deep Learning eine stromsparende Bilderkennung ermöglichen würde. „Es gibt einen Bedarf“, sagt Culurciello. „Unter den Tausenden von Bildern in einer Fotosammlung werden manche nie wieder betrachtet. Und wir haben bisher keine gute Technologie, um sie zu analysieren.“

Eine effiziente Bildanalyse könnte auch Geräten wie Google Glass zugute kommen, dessen Stärke es ist, spontan per Sprachbefehl Fotos und Videos zu schießen. Mit Hilfe von Suchbegriffen wie „rotes Auto“ oder „Sommertag mit Eltern“ könnten Nutzer ihre Sammlung durchforsten, ohne einen Finger zu rühren. Vorstellbar sind auch Apps, die in Aktion treten, wenn sie bestimmte Bildmotive erkennen.

Beim Deep Learning werden Daten durch ein hierarchisches, viele Ebenen umfassendes Netzwerk aus simulierten Neuronen gefiltert. Jedes künstliche Neuron ist für sich genommen eine simple Struktur. Doch richtig verschaltet, können viele Neuronen ein sehr komplexes Verhalten an den Tag legen. Herkömmliche Computer sind allerdings für solche neuronalen Netzwerke nicht ausgelegt, weshalb ihre Performance hier gering ist.

Der Purdue-Coprozessor ist nun auf einen solchen Netzwerk-Filter hin zugeschnitten, speziell auf die Verarbeitung von Bilddaten. In Testläufen verrichtete der Coprozessor diese Aufgabe 15 Mal effizienter als ein Grafikprozessor. Culurciello geht davon aus, dass das jetzige Design noch zehnmal effizienter umgesetzt werden kann.

Den Ansatz, mit einem Coprozessor zu arbeiten, findet Narayan Srinivasa überzeugend. Als Forschungsleiter für neuronale und emergente Systeme an den HRL Labs – einem Joint Venture von Boeing und General Motors – arbeitet er an Chips, auf denen Neuronen und Synapsen direkt in Silizium nachgebildet werden, nach dem Vorbild des Gehirns. Konventionelle Rechner seien ungeeignet, weil Recheneinheit und Speicher getrennte Hardwareteile seien. In neuronalen Netzwerken seien Verarbeitung und Speicherung von Daten miteinander verwoben.

Im Unterschied zu Narayans radikalem Ansatz stellt der Chip der Purdue-Gruppe allerdings noch keinen Bruch mit herkömmlichen Prozessorarchitekturen dar. Das könnte einerseits seine maximale Leistungsfähigkeit begrenzen, andererseits seine Integration in heutige Systeme wie Smartphones erleichtern.

Culurciello hat jedenfalls schon ein Start-up gegründet, TeraDeep genannt, um die Technologie zu einem marktreifen Produkt weiter zu entwickeln. Als Berater konnte er Deep-Learning-Koryphäe Yann LeCun von der New York University gewinnen. „Wir wollen das geistige Eigentum an große Hersteller wie Qualcomm, Samsung oder Apple verkaufen, so dass die dann die Funktionalität in ihre eigenen Prozessordesigns einbauen können“, sagt Culurciello.

(nbo)