Neuronales Netz mit "übermenschlichen" Fähigkeiten

Lernende Computersysteme überraschten zuletzt immer wieder mit bemerkenswerten Leistungen. Google-Forscher haben jetzt gezeigt, wie Maschinen Menschen selbst bei der Ortsbestimmung von Bildern übertreffen können.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • TR Online
Inhaltsverzeichnis

Lernende Computersysteme überraschten zuletzt immer wieder mit bemerkenswerten Leistungen. Google-Forscher haben jetzt gezeigt, wie Maschinen Menschen selbst bei der Ortsbestimmung von Bildern übertreffen können.

Suchen Sie sich im Web ein zufälliges Bild aus und versuchen Sie dann, ohne weitere Hilfsmittel herauszufinden, wo es aufgenommen wurde. Wenn das Bild ein berühmtes Gebäude oder eine andere Sehenswürdigkeit wie den Eiffelturm oder die Niagarafälle zeigt, mag das noch leicht sein. Kompliziert aber wird es, wenn es in dem Foto an konkreten Hinweisen über den Standort fehlt, wenn es nicht im Freien aufgenommen wurde oder wenn darauf nur ein Haustier, Essen oder ein anderes Objekt zu sehen ist.

Trotzdem sind Menschen überraschend gut bei dieser Aufgabe. Um sie zu meistern, nutzen sie alle möglichen Arten von Weltwissen, etwa über Schrifttype oder Sprache auf Schildern, Vegetation, Architekturstile, Richtung des Verkehrs und so weiter. Menschen verbringen sozusagen ihr ganzes Leben damit, Hinweise zur Ortung aufzusammeln.

Also könnte man meinen, dass sich Maschinen mit dieser Aufgabe weitaus schwerer tun. Bislang war das tatsächlich der Fall.

Jetzt aber hat sich das geändert, und verantwortlich dafür ist die Arbeit von Tobias Weyand, einem Spezialisten für maschinelles Sehen bei Google, und Kollegen: Die Forscher trainierten ein Deep-Learning-System darauf, allein anhand der Pixel, aus denen ein Bild besteht, den Standort der Aufnahme zu erkennen.

Ihr System schneidet dabei deutlich besser ab als Menschen. Mit einem zusätzlichen Trick funktioniert das sogar bei Innenaufnahmen und Bildern von Lebensmitteln oder Tieren, bei denen es an sich völlig an Hinweisen über den Standort fehlt.

Der Ansatz dafür ist ganz einfach, jedenfalls in der Welt des Maschinenlernens. Zunächst unterteilten Weyand und Kollegen die Welt in ein Netz aus 26.000 Quadraten unterschiedlicher Größe, die sich nach der Zahl der im jeweiligen Gebiet geschossenen Fotos richtet. Für große Städte, in denen häufig fotografiert wird, ist das Netz also enger als für abgelegenere Regionen, aus denen weniger Fotos kommen. Gebiete wie Meere und die Pole wurden sogar ganz ignoriert.

Als Nächstes stellte das Team eine Datenbank von Bildern mit Ortsangaben aus dem Web zusammen und nutzte diese Daten, um sie den Quadraten seines Netzes zuzuweisen. Die riesige Datensammlung umfasst 126 Millionen Fotos zusammen mit ihren Positionsdaten im EXIF-Format.

Mit 91 Millionen von diesen Bildern brachten Weyand und Co. dann einem leistungsfähigen neuronalen Netz bei, den Standort in ihrem Quadrat-Netz allein anhand des Bildes selbst festzustellen. Mit den restlichen 34 Millionen Bildern überprüften sie das Können ihres neuronalen Netzes namens PlaNet.

Die Ergebnisse sind bemerkenswert. Um die Genauigkeit ihres Systems weiter zu testen, fütterten die Forscher es mit 2,3 Millionen mit Geodaten versehenen Bildern auf Flickr und prüften, ob es die richtigen Daten dazu herausfand. "PlaNet ist in der Lage, 3,6 Prozent der Bilder straßengenau und 10,1 Prozent stadtgenau zu lokalisieren", schreiben sie. In 28,4 Prozent der Fälle findet das System das Land der Aufnahme heraus und bei 48,0 Prozent den Kontinent.

Das klingt gut. Um zu zeigen, wie gut es wirklich ist, ließ das Team PlaNet zusätzlich gegen zehn weit gereiste Menschen antreten. Für diesen Test nutzten sie ein Online-Spiel, bei dem Teilnehmer ein zufälliges Bild aus Google Street View lokalisieren müssen. Unter www.geoguessr.com können Sie es selbst ausprobieren – es macht ziemlich Spaß und ist schwieriger, als man zunächst denkt.

Fast unnötig zu sagen: PlaNet war darin klar besser als seine menschlichen Gegner. "Insgesamt gewann PlaNet 28 der 50 Runden mit einem Median des Lokalisierungsfehlers von 1131,7 Kilometern, während der Median bei den Menschen bei 2320,75 Kilometern lag", so die Forscher. "Diese kleine Experiment zeigt, dass PlaNet bei der Lokalisierung von Szenen aus Street View übermenschliche Fähigkeiten hat."

Eine interessante Frage lautet, warum PlaNet so gut ist, obwohl es ohne Hinweise wie Vegetation, Baustile und dergleichen auskommen muss, die Menschen nutzen können. Die Antwort von Weyand und Kollegen: "Wir denken, dass PlaNet einen Vorteil gegenüber Menschen hat, weil es mehr Orte gesehen hat, als ein Mensch je besuchen kann und so aus unterschiedlichen Szenen subtile Hinweise erlernt, die selbst für weit gereiste Menschen schwer zu erkennen sind."

Die Forscher gingen sogar noch weiter und lokalisierten Bilder, die keinerlei Ortshinweise aufweisen, also Innenaufnahmen oder solche von kleineren Objekten. Möglich ist das, wenn die Fotos zu Alben gehören, die komplett vom selben Ort stammen. Das System prüft dann einfach, wo andere Bilder darin aufgenommen wurden, und geht davon aus, dass das jeweilige Bild ebenfalls dort fotografiert wurde.

Die Arbeit ist ein weiteres Beispiel für die Fähigkeiten von tiefen neuronalen Netzen. Noch beeindruckender daran ist vielleicht, dass PlaNet anders als andere Ansätze, die einige Gigabyte benötigen, mit relativ wenig Speicher auskommt. "Unser Modell braucht nur 377 Megabyte, was sogar in den Speicher eines Smartphones passt", schreiben Weyand und Kollegen dazu.

Möglicherweise wird es also nicht mehr allzu lange dauern, bis man ein neuronales Netz mit übermenschlichen Fähigkeiten im Telefon mit sich herumtragen kann. ()