Bilderkennung mit Textbeschreibung
US-Wissenschaftler wollen Videos leichter navigierbar machen.
Forscher an der University of California in Los Angeles (UCLA) haben zusammen mit dem US-Bilderkennungsspezialisten ObjectVideo ein Kamerasystem entwickelt, welches das, was es aufnimmt, parallel in Textform erfassen kann. Ziel des Projekts ist es, Überwachungsaufnahmen deutlich leichter navigierbar zu machen, damit der Nutzer interessante Stellen mit wenigen Mausklicks aufrufen kann, berichtet Technology Review in seiner Online-Ausgabe.
"Man kann schon an YouTube und all den anderen Internet-Plattformen für Bewegtbilder sehen, dass das Durchsuchen von Videos ein großes Problem darstellt", sagt Forschungsleiter Song-Chun Zhu, Professor für Statistik und Informatik an der UCLA, der das Projekt zusammen mit seinen Kollegen Benjamin Yao und Haifeng Gong durchführte. Derzeit erfolge das Auffinden von Aufnahmen stets über beschreibende Texte, die die Nutzer händisch eingeben müssten. Zhu und sein Team haben deshalb ein "Image to Text"-System (I2T) entwickelt, das das ändern soll. Endergebnis jedes Durchgangs der neuen Software ist ein Dokument, das sich nach einfachen Stichworten durchsuchen lässt.
Für I2T setzen die Forscher ein spezielles Bilderkennungsverfahren ein, das Videos in Einzelbilder zerlegen kann. Der Algorithmus nimmt dann deren Bestandteile auseinander – der Hintergrund wird entfernt, um verschiedene Objekte wie Fahrzeuge, Bäume oder Personen zu erkennen. Dieser Prozess lässt sich noch verfeinern, um beispielsweise die Räder eines Autos oder die Gliedmaßen eines Menschen zu separieren. Anschließend folgt ein Abgleich der gefundenen Objekte mit einer von Menschen gepflegten Datenbank, in der zahllose Bilder verzeichnet sind.
Mehr zum Thema in Technology Review online:
(bsc)