Computer mit gesundem Menschenverstand
Software hat in den vergangenen Jahren sprunghafte Fortschritte bei Aufgaben wie der Auswertung von Bildern gemacht, zeigt aber trotzdem noch peinliche Schwächen. Facebooks KI-Forschungschef will das ändern.
- Tom Simonite
Vor fünf Jahren gelang Forschern ein plötzlicher Sprung bei der Genauigkeit von Software, die Bilder analysiert. Die Technologie dahinter nennt sich künstliche neuronale Netze, und sie hat einen Boom bei Künstlicher Intelligenz ausgelöst. Die Netze sind die Grundlage dafür, dass Sie bei Google und Facebook jetzt Inhalte in Fotos suchen können, und auch neue Anwendungen zur Gesichtserkennung werden damit möglich.
Yann LeCun ist Leiter der KI-Forschungsgruppe bei Facebook und Professor an der New York University. Er gehört zu den Pionieren beim Einsatz von neuronalen Netzen für maschinelles Sehen. Im Interview mit Technology Review verspricht er weitere Fortschritte – und möglicherweise Software mit gesundem Menschenverstand.
Wie gut ist maschinelles Sehen derzeit?
LeCun: Wenn Sie ein Bild mit einem dominanten Objekt darauf haben und die richtige Kategorie dafür finden wollen – das funktioniert inzwischen einfach. Solange man genügend Daten hat, ungefähr 1.000 Objekte pro Kategorie, können wir sehr spezifische Objekte wie Autos, bestimmte Marken oder Pflanzenarten oder Hunderassen erkennen. Ebenfalls erkennen können wir abstraktere Kategorien, also ob es sich bei Bildern um Landschaften, Sonnenuntergänge, Hochzeiten oder Geburtstagspartys handelt. Noch vor fünf Jahren war nicht klar, ob dieses Problem vollständig lösbar ist. Aber das heißt nicht, dass maschinelles Sehen insgesamt gelöst ist.
Welches wichtige Problem ist bislang nicht "gelöst"?
Seit einigen Jahren wird mit der Idee experimentiert, Bildunterschriften oder Beschreibungen für Bilder und Videos zu generieren. Dazu gab es schon beeindruckende Demonstrationen, aber eigentlich sind die gar nicht so überzeugend. Ihr Können ist sehr eingeschränkt auf das Universum, auf das sie jeweils trainiert wurden. Bei den meisten dieser Systeme ist es so: Wenn man ihnen Bilder mit anderen Arten von Objekten oder ungewöhnlichen Situationen zeigt, die sie nicht kennen, dann geben sie totalen Unsinn dazu aus. Sie haben keinen gesunden Menschenverstand.
Was ist die Verbindung zwischen Sehen und Verstand?
Das kommt darauf an, wen Sie fragen. Selbst innerhalb von Facebook gibt es Leute mit unterschiedlichen Meinungen dazu. Mit einem intelligenten System könnten Sie allein über Sprache interagieren. Das Problem dabei ist, dass Sprache ein Kanal mit sehr geringer Bandbreite ist. Viele Informationen, die mittels Sprache weitergegeben werden, beruhen darauf, dass Menschen viel Hintergrundwissen haben, um sie zu deuten.
Andere glauben, dass die einzige Möglichkeit, um einem KI-System genügend Informationen bereitzustellen, in visueller Wahrnehmung liegt, die einen weitaus höheren Informationsgehalt hat als Sprache. Wenn Sie einem Computer sagen, "Das hier ist ein Smartphone", "Das ist eine Dampfwalze", "Es gibt bestimmte Sachen, die man durch Schieben bewegen kann, bei anderen geht das nicht", kann er dadurch vielleicht Grundwissen darüber sammeln, wie die Welt funktioniert. Das ist Lernen ungefähr wie bei Babys.
Aber Babys lernen viel über die Welt ohne explizite Erklärungen.
Was wir unter anderem wirklich tun wollen, ist, Maschinen dazu zu bringen, sehr viele Fakten über die Begrenzungen der realen Welt zu sammeln, nur indem sie Videos oder andere Kanäle beobachten. Auf diese Weise wären sie letztlich in der Lage, gesunden Menschenverstand auszubilden. Das sind Sachen, die Tiere und Babys in den ersten Monaten ihres Lebens lernen – man lernt unglaublich viel über die Welt nur durch Beobachten. Derzeit gibt es reichlich Möglichkeiten, um Maschinen problemlos in die Irre zu führen, weil sie nur ein sehr enges Wissen über die Welt haben.
Welche Fortschritte gibt es beim Lernen von Software durch Beobachten?
Wir sind sehr interessiert an der Vorstellung, dass ein lernendes System in der Lage ist, die Zukunft vorherzusagen. Man zeigt ihm ein paar Bilder aus einem Video, und es sagt dann voraus, was als Nächstes passieren dürfte. Wenn wir ein System darauf trainieren können, haben wir wahrscheinlich schon Techniken entwickelt, die den Kern eines unüberwachten Lernsystems bilden. An diesem Punkt werden meiner Meinung nach viele interessante Sachen passieren. Die Anwendung dafür ist nicht unbedingt maschinelles Sehen. Es ist insgesamt ein großer Teil unserer Bemühungen um Fortschritte bei KI.
(sma)