Die Welt als Bild

Die Grundlagen für eine visuelle Suchmaschine für Kamerahandys mit Objekt- und Gesichterkennung zur Identifizierung und zum Finden von zusätzlichen Informationen sind bereits vorhanden

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Überwachungskameras breiten sich nicht nur immer mehr aus, sie sind auch "intelligenter" geworden und können Menschen identifizieren, sie verfolgen oder auffälliges Verhalten erkennen. Seitdem Digitalkameras immer kleiner werden und vor allem in Handys eingezogen sind, steigt die Flut an Bildern weiter an und gibt es von immer mehr Ereignissen Schnappschüsse und Filme, die sich immer schneller durch Versendenden und Eingabe ins Internet verbreiten können. In Zukunft werden mit Kameras in Handhelds und Handys überwachen, suchen und finden für alle Zwecke und Nutzer neue Dimensionen erschließen, die ebenso interessant wie bedenklich sind. Voraussetzung ist freilich eine riesige Datenbank, in der möglichst viele Bilder von möglichst vielen Menschen, Dingen oder Orten, d.h. möglichst von der ganzen Welt, durchsucht werden können.

Hartmut Neven ist Leiter des Laboratory for Human-Machine Interfaces an der University of Southern California und hat bereits mit seiner Bilderkennungssoftware für Handy-Prozessoren einen ersten Schritt auf seine Vision hin gemacht, das Handy mit seiner Kamera zum Eingabegerät für eine weltweite Suchmaschine für Bilder und zur Identifizierung von Orten, Gegenständen und Menschen zu machen. Die Gesichtserkennung beruht auf dem Person Spotter, einem System, das Neven zusammen mit dem Institut für Neuroinformatik der Ruhr-Universität Bochum entwickelt hat. Mit dem System können in Videos aus Überwachungskameras Gesichter erkannt und mit einer Datenbank verglichen werden (Überwachungskameras zur Verhaltenserkennung).

Nevens Unternehmen Neven Vision bietet beispielsweise die Möglichkeit einer Benutzererkennung für digitale Kameras oder Handys mit Kameras, um diese zu sperren bzw. zu öffnen. Möglich wäre auch, Kreditkartenbenutzung oder mobile banking über Gesichtserkennung sicherer zu machen. Eingänge könnten entsprechend gesichert werden, wenn Zugangsberechtigte mit ihrem Kamerahandy zuerst ein Bild von sich machen und dass über Bluetooth übertragen.

Mit der Kamera auf Jagd

Vorerst testet die Polizei in einem Viertel von Los Angeles ein auf seiner Software basierendes System "Mobile Identifier",. Die Polizisten können auf Streife mit einer Kamera von einem PocketPC ein Bild von einer Person machen, das dann mit den Fotos von flüchtigen Straftätern oder Gang-Mitgliedern in einer Onboard-Datenbank abgeglichen wird. Die Polizei ersucht um eine halbe Million Dollar, um die Anwendung auszubauen. Neven hat der Polizei zwei Geräte zum Testen gegeben. In den 8 Wochen der Testphase wurden 25 Gesichter überprüft, was zu 19 Festnahmen geführt habe, vorwiegend bei Gang-Mitgliedern, denen bestimmte Dinge vom Gericht untersagt wurden. Einmal sei eine Person, die einem Gesuchten ähnlich war, nach dem Bildabgleich entlastet worden.

Vor dem Gericht sei bislang nicht zu Schwierigkeiten gekommen, so Luis Li von der Staatsanwaltschaft, weil der Bildabgleich nur für eine vorläufige Identifizierung verwendet werde. Er habe auch keine Bedenken, was den Schutz der Privatsphäre angeht: "Wenn amn sich auf der Straße aufhält, erwartet man keinen Schutz der Privatsphäre." Das sieht Ramona Ripstone von der Bürgerrechtsorganisation anders. Sie warnt davor, dass die Bilderkennungssysteme nicht zuverlässig seien und es eine Menge Fehler geben könne, nicht zuletzt würden die Kameras von Menschen bedient, die bestimmte Vorurteile haben.

Nevens Software erfasst, wie die LA Times am 25.12.2004 berichtete, Gesichtsmerkmale zwischen Kinn und Haaransatz, so dass angeblich Bärte oder unterschiedliche Frisuren das Ergebnis nicht beeinträchtigen würden. Das Gesicht wird mit Bildern in der Datenbank abgeglichen und eine Galerie mit den besten Treffern erstellt. Das größte Problem seien nicht schlechtes Licht oder die Entfernung, sondern die geringe Auflösung der Bilder der digitalen Kameras. Mit steigender Auflösung könne man dann auch die Textur der Haut oder sogar die Iris als weitere Identifikationsmerkmale verwenden.

Visuelles Google

Aber er stellt sich mehr vor, ein visuelles Google nennt er seine Vision. Das soll so funktionieren: Ein Kunde macht ein Bild von etwas. Das Bild wird an die Server von Nevens Firma Neven Vision geschickt. Wird das Objekt erkannt, so können über das Aufgenommene bestimmte Informationen oder vielleicht auch nur Link bezogen werden, wo sich mehr darüber erfahren lässt. Neven stellt sich vor, dass beispielsweise jemand in einem Museum ein Bild aufnimmt und ein Video mit Erklärungen zu dem Bild erhält. Oder man sieht ein Restaurant, fotografiert es und erhält einen Bericht über es. Im Restaurant könnte man sich so eine Übersetzung der Speisekarte besorgen. Hat man sich in einer Stadt verlaufen, fotografiert man einfach einen Straßenabschnitt - und prompt erhält man von Nevens Universal-Datenbank einen Stadtplan mit der Stelle, an der man sich befindet.

Kommerziell interessant könnte es sein, beispielsweise irgendwelche Produkte aufzunehmen und anhand der Bilder über den Object Recognition and Transaction Server von Neven Vision einen Preisvergleich vorzunehmen, um so herauszubekommen, wo man das Gewünschte am billigsten erhält. Oder es wird eine URL zum Anbieter, weitere Informationen zur Ware oder die Möglichkeit angeboten, diese gleich über das Handy zu bestellen.

Mit der auf Handy-Chips optimierten Gesichtserkennungssoftware von Neven Vision können Gesichter mit Bildern in einer Datenbank zur Identifizierung oder Authentifizierung nach 22 Merkmalen abgeglichen werden, mit der fft-Software (face detection, face recognition and facial feature tracking) ließe sich über Blickverfolgung beispielsweise am Arbeitsplatz oder beim Fahren kontrollieren, ob ein Mensch wach und konzentriert ist. Bei Fotos oder Videos können die Gesichter mit Spezialeffekten verändert werden. Mit der Gesichtsmimik könnte man einen 3D-Avatar für Anwendungen beim Chat oder beim Spielen steuern.

In einem Jahr soll die erste Version seines Systems auf den Markt kommen, das sehr viel aufwändiger als eine normale Suchmaschine ist. Da die Funktionalität nicht nur von der Gesichts- und Objekterkennung, sondern vor allem von den Inhalten der Datenbank abhängt, will Neven mit "gut definierten Segmenten" starten, beispielsweise in einem Museum oder für Werbung. Datenbanken mit 100.000 Objekte seien machbar, noch aber sei es kaum möglich, größere Datenbanken zum Bildvergleich zu betreiben, zumal wenn die Objekte - Neven nimmt das Beispiel von Handtaschen zum Preisvergleich - schwierig zu unterscheiden sind. Hier müsste die Auflösung der Bilder und damit die Datenübertragung steigen, wenn nicht auf dem Kamerahandy die Bilder bereits verarbeitet und auf wesentliche Details reduziert werden, während bei großen Datenbanken nicht mehr eine Suche über alle Bilder gemacht werden kann, sondern neue Suchverfahren entwickelt werden müssten.

Mit der schnellen Zuname von Kamerahandys und anderen mobilen Geräten mit Kameras ist Neven mit seinem Unternehmen und seiner Software womöglich gut positioniert. Nicht nur für Fahndungszwecke, sondern auch für verdeckte Ermittlungen aller Art wäre Nevens "visuelles Google" interessant. Sehr viel leichter ließen Profile von Menschen anlegen, die beispielsweise an Demonstrationen oder Protestveranstaltungen teilnehmen oder sonst irgendwie aufgefallen sind.

Allerdings dürften auch mehr Verbote für die Mitführung von Kamerahandys eingeführt werden. Unternehmen, Organisationen oder Behörden werden sie zunehmend verbieten, um Spionage von Produktentwicklungen, das Auskundschaften von Örtlichkeiten oder die Erkennung von anwesenden Personen zu verhindern. Für Unternehmen könnten neue Möglichkeiten entstehen, Kunden zu identifizieren und zu profilieren oder vorhandene. Irgendwann werden vielleicht auch Privatpersonen nicht mehr erfreut sein, wenn Besuch mit Kamerahandys kommt und Bilder dann in einer Datenbank landen, ganz zu schweigen von Aufnahmen, die in der Öffentlichkeit heimlich gemacht werden, um Identität oder Wohnort einer Person festzustellen.