Facebook will, dass Maschinen die Welt so sehen wie der Mensch

Ein gigantischer neuer Videodatensatz soll dabei helfen, intelligente Assistenten und Roboter zu trainieren. Das könnte ethisch zum Problem werden.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen

(Bild: Facebook)

Lesezeit: 8 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Mittlerweile halten es viele Menschen für selbstverständlich, dass Maschinen in der Lage sind, Personen und Gegenstände in Fotos und Videos zu identifizieren. Diese einst nahe an der Magie befindliche Fähigkeit beruht auf maschinellem Lernen. Große Datensätze wie ImageNet, eine von Hand mit Bezeichnungen versehene Sammlung von Millionen von Fotos, werden zum Trainieren der besten Bilderkennungsmodelle des letzten Jahrzehnts verwendet.

Die Bilder in diesen Datensätzen stellen jedoch eine Welt kuratierter Objekte dar – eine Bildergalerie, die nicht das Chaos des Alltagslebens einfängt, wie es Menschen tatsächlich erleben. Um Maschinen dazu zu bringen, die Dinge so zu sehen wie die Menschheit, dürfte ein völlig neuer Ansatz erforderlich sein. Das KI-Labor von Facebook will hier die Führung übernehmen.

Die Forschungsabteilung des Social-Media-Riesen hat dazu ein Projekt namens Ego4D ins Leben gerufen, um KI-Systeme zu entwickeln, die Szenen und Aktivitäten aus der Ego-Perspektive verstehen können – also so, wie die Dinge für direkt Beteiligte und nicht für einen Zuschauer aussehen. Das sieht ungefähr so aus wie bewegungsunscharfe Aufnahmen einer Action-Cam, die mitten im Geschehen aufgenommen wurden. Typische Fotoszenen, die von jemandem am Rande aufgenommen wurden, gibt es hier nicht. Facebook möchte mit Ego4D schließlich für Ich-Videos das tun, was ImageNet für Fotos getan hat.

In den vergangenen zwei Jahren hat Facebook AI Research (FAIR) mit 13 Universitäten auf der ganzen Welt zusammengearbeitet, um den bisher größten Datensatz von First-Person-Videos zusammenzustellen – speziell zum Trainieren von Deep-Learning-Modellen für die Bilderkennung. Anhand des Datensatzes trainierte KI-Systeme werden besser in der Lage sein, Roboter zu steuern, die mit Menschen interagieren. Sie sollen Bilder aus den Kameras smarter Brillen, die Facebook für einen wichtigen Teil der Internet-Zukunft hält, interpretieren. "Maschinen werden uns im Alltag nur dann helfen können, wenn sie die Welt durch unsere Augen erkennen", sagt Kristen Grauman von FAIR, die das Projekt leitet.

Solche Technik könnte Menschen unterstützen, die im Haushalt Hilfe benötigen und sie bei neuen Aufgaben anleiten, die sie gerade erlernen. "Das Videomaterial in diesem Datensatz ist viel näher dran, wie Menschen die Welt betrachten", sagt Michael Ryoo, Forscher im Bereich Bilderkennung bei Google Brain und der Stony Brook University in New York, der nicht an Ego4D beteiligt ist. Unproblematisch ist das nicht: Es gibt Missbrauchspotenzial für solche Verfahren. Und das liegt nicht nur daran, dass die Forschung von Facebook finanziert wird, einem Internetriesen, der kürzlich im US-Senat beschuldigt wurde, seinen Gewinn über das Wohlergehen der Menschen zu stellen.

Das Geschäftsmodell von Facebook und anderen Big-Tech-Unternehmen wie Google besteht darin, dem (Online-)Verhalten der Menschen so viele Daten wie möglich abzupressen und die so gewonnene genaue Zielgruppe an Werbekunden zu verkaufen. Die in dem Projekt beschriebene KI-Technik könnte diese Reichweite auf das alltägliche Offline-Verhalten der Menschen ausdehnen und erkennen, welche Objekte sich in ihrer Wohnung befinden, welche Aktivitäten die Nutzer mögen, mit wem sie ihre Zeit verbringen und sogar wohin ihr Blick fällt – ein noch nie dagewesenes Ausmaß an persönlichen Daten, die abgegriffen werden könnten.

"Auf dem Weg aus der Welt der Forschung hin zu einem Produkt ist noch einiges an Arbeit in Sachen Datenschutz zu leisten", räumt Facebook-Forscherin Grauman ein. Sie hoffe, dass ihre Arbeit hier inspirierend sein könne. Der größte bisherige Datensatz von First-Person-Videos bestand bislang aus 100 Stunden Filmmaterial von Menschen in ihrer Küche. Der Ego4D-Datensatz ist jetzt schon viel größer: Er besteht aus aktuell 3.025 Stunden Videomaterial, das von 855 Personen an 73 verschiedenen Orten in neun Ländern – den USA, Großbritannien, Indien, Japan, Italien, Singapur, Saudi-Arabien, Kolumbien und Ruanda – aufgenommen wurde.

Die Teilnehmer, die die Videos aufnahmen, hatten unterschiedliche Altersgruppen und Hintergründe; einige wurden aufgrund ihrer visuell interessanten Berufe rekrutiert – etwa Bäcker, Mechaniker, Schreiner und Landschaftsgärtner. Frühere Datensätze bestanden in der Regel aus teilweise gescripteten Videoclips von nur wenigen Sekunden Länge. Bei Ego4D trugen die Teilnehmer bis zu 10 Stunden am Stück eine am Kopf befestigte Kamera und nahmen Videos von alltäglichen Aktivitäten ohne Drehbuch auf, z. B. wenn sie eine Straße entlanggingen, etwas lasen, Wäsche wuschen, einkauften, mit Haustieren tollten, Brettspiele spielten und mit anderen Menschen interagierten. Einige der Aufnahmen enthalten auch Audiomaterial, Daten darüber, wohin der Blick der Teilnehmer gerichtet war, und mehrere Perspektiven auf dieselbe Szene. Es ist der erste Datensatz dieses Umfangs, sagt Ryoo von Google Brain.

FAIR hat auch eine Reihe von Challenges gestartet, von denen es hofft, dass sie die Bemühungen anderer Forscher auf die Entwicklung dieser Art von KI konzentrieren werden. Das Team geht davon aus, dass Algorithmen in intelligente Brillen, wie die kürzlich von Facebook angekündigten Ray-Bans, eingebaut werden, die das tägliche Leben der Träger aufzeichnen und protokollieren. Das bedeutet, dass Augmented- oder Virtual-Reality-"Metaverse"-Apps theoretisch Fragen wie "Wo sind meine Autoschlüssel?" oder "Was habe ich gegessen und neben wem saß ich auf meinem ersten Flug nach Frankreich?" beantworten könnten. Ein ewiges Tagebuch. Augmented-Reality-Assistenten könnten dann verstehen, was die Nutzer zu tun versuchen, und Anweisungen oder nützliche "soziale Hinweise" geben.