Redselige Überwachungskameras
US-Wissenschaftler haben ein neues Bilderkennungssystem entwickelt, das das Auffinden interessanter Stellen in Videos deutlich erleichtern soll.
- Tom Simonite
- Ben Schwan
US-Wissenschaftler haben ein neues Bilderkennungssystem entwickelt, das das Auffinden interessanter Stellen in Videos erleichtert.
Forscher an der University of California in Los Angeles (UCLA) haben zusammen mit dem US-Bilderkennungsspezialisten ObjectVideo ein Kamerasystem entwickelt, das das, was es aufnimmt, parallel in Textform erfassen kann. Ziel des Projektes ist es, Überwachungsaufnahmen deutlich leichter navigierbar zu machen, damit der Nutzer interessante Stellen mit wenigen Mausklicks aufrufen kann.
"Man kann schon an YouTube und all den anderen Internet-Plattformen für Bewegtbilder sehen, dass das Durchsuchen von Videos ein großes Problem darstellt", sagt Forschungsleiter Song-Chun Zhu, Professor für Statistik und Informatik an der UCLA, der das Projekt zusammen mit seinen Kollegen Benjamin Yao und Haifeng Gong durchführte. Derzeit erfolge das Auffinden von Aufnahmen stets über beschreibende Texte, die die Nutzer händisch eingeben müssten. Zhu und sein Team haben deshalb ein "Image to Text"-System (I2T) entwickelt, das das ändern soll. Endergebnis jedes Durchgangs der neuen Software ist ein Dokument, das sich nach einfachen Stichworten durchsuchen lässt, um an die jeweils gewünschte Stelle im Film zu gelangen.
Für I2T setzen die Forscher ein spezielles Bilderkennungsverfahren ein, das Videos in Einzelbilder zerlegen kann. Der Algorithmus nimmt dann deren Bestandteile auseinander – der Hintergrund wird entfernt, um verschiedene Objekte wie Fahrzeuge, Bäume oder Personen zu erkennen. Dieser Prozess lässt sich noch verfeinern, um beispielsweise die Räder eines Autos oder die Gliedmaßen eines Menschen zu separieren. Anschließend folgt ein Abgleich der gefundenen Objekte mit einer Datenbank, in der zahllose Bilder verzeichnet sind.
Dabei kann Zhu auf einen großen Pool zurückgreifen, der in Ezhou, China entstand. Dort beschäftigt der Forscher seit mehreren Jahren 20 Absolventen der Kunsthochschule Lotus Hill Institute, um eine Bildbibliothek Schritt für Schritt in Textform zu umschreiben. Das Ergebnis ist eine Datenbank mit mehr als zwei Millionen Bildern, deren enthaltene Objekte in mehr als 500 Kategorien einsortiert wurden.
Damit die Datenbank die notwendige Genauigkeit besitzt, leitet eine eigens entwickelte Software die Bildbeschreiber an. So wird sichergestellt, dass die Kategorisierung stimmt; zudem werden Aufnahmen mit mehreren Elementen automatisch in ihre Einzelteile zerlegt, damit es nicht zu Überschneidungen kommt.
Zhus I2T-Prototyp arbeitet bereits erstaunlich gut. In einer Aufnahme eines Hafens heißt es dann beispielsweise im umschreibenden Text, dass "Boot 1 dem Boot 2 zwischen 13 Minuten und 10 Sekunden und 14 Minuten 50 Sekunden" folgt. Das Verfahren eignet sich bislang allerdings vor allem für statische Kamerapositionen, weil sich Objekte hier deutlich leichter vom Hintergrund separieren lassen. Da die meisten Überwachungskameras auf einen Blickwinkel gerichtet sind, ist dies jedoch verschmerzbar.
Zu Kim, der an der University of California in Berkeley an automatisierter Verkehrsüberwachung forscht, findet Zhus Erfindung spannend. Zudem seien noch weitere Anwendungsmöglichkeiten für den Image-Parser des Forschers denkbar. "Die Technik könnte einer blinden Person im Web helfen, zu verstehen, was auf einem Bild dargestellt ist." (bsc)