Standbilder werden beweglich

Ein neuer Web-Dienst wandelt reguläre Fotos mit Hilfe neuartiger Bilderkennungsalgorithmen in 3D-Aufnahmen um.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Brittany Sauser

Forscher an der Stanford University haben einen neuen Web-Dienst namens Make3D entwickelt, mit dem Nutzer sich aus zweidimensionalen Außenaufnahmen ein 3D-Modell fertigen lassen können. So soll es möglich werden, eine realistischere visuelle Repräsentation eines Standbildes zu schaffen – eine, durch die der Zuseher sogar "fliegen" kann.

Um die Standbilder in 3D-Visualisierungen umzuwandeln, setzen Andrew Ng, Juniorprofessor für Computerwissenschaften, und sein Doktorand Ashutosh Saxena auf maschinelles Lernen: Der Rechner nutzt Anhaltspunkte wie Farbe, Textur oder Größe einzelner Bereiche, um Tiefendimensionen zu errechnen.

Dazu wird das System zuvor mit zweidimensionalen Fotos samt passender 3D-Daten gefüttert. Beispielsweise habe Gras eine ganz bestimmte Textur, die dafür sorge, dass es aus der Nähe vollkommen anders wirke als aus der Ferne, erläutert Ng. Der Algorithmus lernt so, dass schrittweise Veränderungen der Textur einer Fläche Informationen über die Entfernung eines Bildbereiches enthalten können.

Larry Davis, Professor am Informatik-Institut der University of Maryland in College Park, ist von der Make3D-Technik beeindruckt – es gehe schließlich um eines der mathematisch komplexesten Probleme im Bereich der Bilderkennung. "Obwohl Make3D manchmal daneben liegt, ist das Resultat doch meist erstaunlich gut."

Das Angebot der Stanford-Forscher ist nicht der erste Web-Dienst, der versucht, aus Einzelbildern 3D-Modelle zu extrahieren. Wissenschaftler an der Carnegie Mellon University (CMU) starteten im Mai 2007 die Website Fotowoosh mit ähnlichen Absichten. Doch deren Algorithmus ist vergleichsweise eingeschränkt, weil er die Orientierung von Flächen nur entweder als horizontale oder vertikale Anordnungen einordnen kann und Objekte wie Berghänge, Dächer oder Treppen nicht einbezieht. Aufgrund dieser Einschränkungen muss Fotowoosh oftmals "raten", um das Standbild in 3D nachzubauen.

Derek Hoiem, der hinter dem Algorithmus des CMU-Projektes steckt, gibt zu, dass seine Technik im Gegensatz zu Make3D Tiefenwerte eher schlecht abschätzen könne. "Ich kann sagen, dass dieser Bereich eines Bildes weiter vom Vordergrund entfernt ist. Dass es beispielsweise fünf Meter sind aber leider noch nicht", erklärt er. Hoiem entwickelte Fotowoosh zusammen mit dem CMU-Forschern Alexei Efros und Martial Hebert. (Hoiem schreibt derzeit an der University of Illionois in Urbana-Champaign seine Doktorarbeit.)

Durch die Abschätzung der Tiefenwerte einzelner Objekte erreiche Make3D qualitativ hochwertige 3D-Modelle, glaubt Saxena. In einer Umfrage, die die Stanford-Forscher 2006 durchführten, hat sich denn auch ergeben, dass Nutzer die Make3D-Bilder deutlich besser finden als die aus Fotowoosh.

Hoiem meint, dass er selbst versucht habe, seine Technik um die Fähigkeit, mit beliebigen Winkeln umzugehen, zu erweitern. Eine Lösung habe er aber noch nicht. Umso beeindruckender sei die Arbeit der Kollegen aus Stanford.

Um den Make3D-Algorithmus zu trainieren, verwendeten die Wissenschaftler zunächst einen Laser-Scanner, um die Abstände von jedem Pixel oder Punkt in einem zweidimensionalen Bild zu ermitteln. Diese 3D-Informationen wurden dann wiederum mit dem Bild gekoppelt und vom Algorithmus begutachtet, so dass dieser lernen konnte, visuelle Eigenschaften im Bild mit Tiefenwerten zu korrelieren. So weiß der Rechner beispielsweise, dass ein großer blauer Bereich wahrscheinlich Teil des Himmels ist und sich weiter entfernt im Bild befindet, sagt Saxena. Es gibt Tausende solcher bildlicher Eigenschaften, die das menschliche Gehirn unbewusst auswertet, um die Tiefendimension eines Gegenstandes festzulegen. Der Make3D-Algorithmus lernt nun diese Regeln und verarbeitet die Bilder danach.

Um ein Foto zu erfassen, wird es zunächst in sehr kleine Stückchen oder auch Segmente unterteilt. "Dann wird versucht, jeden einzelnen Bereich zu nehmen und gleichzeitig die 3D-Position zu ermitteln – den Winkel und die Orientierung im Bild."

Wird ein neues Bild hochgeladen, dauert es nur wenige Minuten, bis der Algorithmus ein 3D-Modell konstruieren und einen Film aus der Szene machen kann. Noch läuft das System aber noch nicht gänzlich rund – so kann es über eine Stunde dauern, bis der Nutzer eine E-Mail erhält, dass die Visualisierung nun verfügbar ist. Der User kann Bilder und Filme dann jedoch in einer persönlichen Galerie ausstellen. Derzeit arbeiten die Make3D-Macher zudem daran, Schnittstellen zu populären Fotosharing-Angeboten wie Photobucket oder Flickr zu schaffen.

Make3D kann außerdem zwei oder drei Bilder des gleichen Ortes nehmen und daraus dann ein 3D-Modell machen, wie man es von Microsofts experimenteller "Photosynth"-Anwendung kennt. Photosynth arbeitet jedoch mit Hunderten von Bildern, um eine Szene zu rekonstruieren – und je mehr Bilder vorhanden sind, desto leichter und mathematisch unproblematischer ist es, die Tiefenwerte einer Szene zu berechnen, wie Hoiem sagt. Make3D setzt aber hingegen voll auf Einzelbilder – im Endkundengeschäft der Standard.

Alex Daley, Gruppen-Produktmanager in den "Microsoft Live Labs", sieht eine Beziehung zwischen Algorithmen für Einzelbilder und denen für Bilderserien – beides zusammen dürfte es Rechnern erleichtern, Bilder genauer zusammenzuführen. "All dies zusammengenommen und auf die richtigen Bilder angewendet bringt die besten Ergebnisse", meint er. Microsoft wolle durchaus mit Drittanbietern wie den Stanford-Forschern zusammenarbeiten (derzeit besteht aber noch kein Vertrag).

Der aktuelle Make3D-Algorithmus arbeitet aber auch nur dann korrekt, wenn das Bild draußen in der Natur oder in einer Landschaft geschossen wurde – Innenaufnahmen sind nur in bestimmten Fällen nutzbar, etwa Bilder einer Treppe. Ziel sei stets, dem Nutzer ein realistisches Nacherleben der Szenen zu ermöglichen und dieses mit anderen zu teilen. Der Algorithmus soll demnächst auch für andere Objekte optimiert werden und dann Dinge vom Menschen bis zum Kaffeebecher besser aus einer Szene herausheben. Letztlich wäre die Technik auch geeignet, lebendig erscheinende 3D-Umgebungen für virtuelle Welten zu schaffen. Selbst Roboter könnten von der neuartigen Bilderkennung profitieren, um beispielsweise komplexe dreidimensionale Aufgaben zu erledigen – inklusive Hausarbeiten wie das Entladen eines Geschirrspülers.

CMU-Forscher Efros glaubt, dass die Technik eine neue Perspektive für den Bereich der Bilderkennung liefern dürfte. "Gleichzeitig können wir vielleicht ein besseres Verständnis dafür erhalten, wie das menschliche Sehen wirklich funktioniert." (bsc)