"Gesunder Menschenverstand" für Maschinen: Metas Weg zur allgemeinen KI

Wie Meta die lang erhoffte "Artificial General Intelligence" will, hatte der Leiter der Forschungsabteilung Yann LeCun im Sommer 2022 skizziert.

57

(Bild: Besjunior/Shutterstock.com)

Stand: 23.11.2023, 16:05 Uhr

Lesezeit: 13 Min.

MIT Technology Review

Von

Melissa Heikkilä

Schon 2021 erkannte Yann LeCun, dass er sich geirrt hatte. Er gilt als einer der einflussreichsten KI-Forscher der Erde. Als leitender Wissenschaftler im KI-Labor von Meta hatte er versucht, Maschinen ein grundlegendes Verständnis dafür zu vermitteln, wie die Welt funktioniert. Diese Art von gesundem Menschenverstand sollte entstehen, indem er neuronale Netze darauf trainierte, vorherzusagen, was als Nächstes in Videoclips von alltäglichen Ereignissen passieren würde. Doch es zeigte sich, dass es einfach zu komplex war, die kommenden Sequenzen eines Videos Pixel für Pixel zu erraten. LeCun rannte gegen eine Mauer.

Anlässlich der Spekulationen um OpenAIs möglichen Durchbruch auf dem Gebiet der künstlichen, allgemeinen Intelligenz veröffentlichen wir diesen Artikel vom 30. Juni 2022 erneut.

Nachdem er monatelang danach gesucht hatte, was hier noch fehlte, hat er eine kühne neue Vision für die nächste Generation der KI. In einem Entwurf, den er 2022 mit MIT Technology Review geteilt und inzwischen auch online gestellt hat, skizziert LeCun einen Ansatz, der seiner Meinung nach Maschinen eines Tages jenen gesunden Menschenverstand geben wird, den sie brauchen, um sich in der Welt zurechtzufinden. Für LeCun könnte die Idee ein erster Schritt auf dem Weg zur Entwicklung von Maschinen sein, die in der Lage sind, wie Menschen zu denken und vorauszuplanen – was viele als allgemeine Künstliche Intelligenz (AGI) bezeichnen. Dabei entfernt sich der Experte auch von den derzeit angesagtesten Trends im Bereich des maschinellen Lernens und lässt dagegen einige alte, aus der Mode gekommene Ideen wieder auferstehen.

Fragezeichen auf dem Weg zur AGI

Doch noch ist seine Vision bei weitem nicht umfassend; sie wirft möglicherweise mehr Fragen auf, als sie beantwortet. Das größte Fragezeichen ist, wie LeCun selbst feststellt, dass er noch nicht wissen kann, wie er das, was er beschreibt, bauen soll. Das Kernstück des neuen Ansatzes ist ein neuronales Netz, das lernen kann, die Welt in verschiedenen Detailstufen zu betrachten. Da dieses Netzwerk keine pixelgenauen Vorhersagen benötigt, konzentriert es sich nur auf die Merkmale einer Szene, die für die jeweilige Aufgabe relevant sind. LeCun koppelt dieses Kernnetzwerk mit einem anderen, dem so genannten Konfigurator, der bestimmt, welcher Detailgrad erforderlich ist, um korrekt zu arbeiten – und das Gesamtsystem entsprechend anpasst.

Für LeCun wird eine AGI Teil der Art und Weise sein, wie wir in Zukunft mit Technologie interagieren. Seine Vision ist von der seines Arbeitgebers Meta geprägt, der ein Metaversum in der virtuellen Realität vorantreibt. Seiner Meinung nach werden die Menschen in 10 oder 15 Jahren keine Smartphones mehr in der Tasche tragen, sondern Augmented-Reality-Brillen, die mit virtuellen Assistenten ausgestattet sind, welche die User durch ihren Tag führen. "Damit diese Assistenten für uns von Nutzen sind, müssen sie im Grunde genommen mehr oder weniger menschliche Intelligenz besitzen", glaubt er.

"Yann spricht schon seit einiger Zeit über viele dieser Ideen", sagt Yoshua Bengio, KI-Forscher an der Universität von Montreal und wissenschaftlicher Direktor am Mila-Quebec-Institut. "Aber es ist gut, alles zusammen in einem zusammengefügten Bild zu sehen." Bengio ist der Meinung, dass LeCun die richtigen Fragen stellt. Er findet es auch spannend, dass LeCun bereit ist, ein Dokument herauszugeben, das so wenige Antworten enthält. Es handelt sich eher um einen Forschungsvorschlag als um eine Reihe echter Ergebnisse, sagt er. "Die Leute reden privat über diese Dinge, aber sie werden normalerweise nicht öffentlich gemacht", sagt Bengio. "Denn das ist riskant."

Eine Frage des gesunden Menschenverstandes

LeCun beschäftigt sich schon seit fast 40 Jahren mit KI. Im Jahr 2018 erhielt er gemeinsam mit Bengio und Geoffrey Hinton den Turing Award, den wohl wichtigsten Preis der Informatik, für seine bahnbrechenden Arbeiten zum Deep Learning. "Maschinen dazu zu bringen, sich wie Menschen und Tiere zu verhalten, war das Ziel meines Lebens", sagt er.

LeCun glaubt, dass die Gehirne von Menschen und Tieren eine Art Simulation der Welt ausführen, die er ein Weltmodell nennt. Dieses Modell wird im Säuglingsalter erlernt und ist die Art und Weise, wie es uns gelingt, gute Vermutungen darüber anzustellen, was um uns herum vor sich geht. Säuglinge lernen die Grundlagen in den ersten Lebensmonaten durch Beobachtung der Welt, sagt LeCun. Es reicht aus, wenn ein Kind ein paar Mal sieht, wie ein Ball herunterfällt, um ein Gefühl dafür zu bekommen, wie die Schwerkraft funktioniert.

"Gesunder Menschenverstand" ist der Sammelbegriff für diese Art des intuitiven Denkens. Dazu gehört auch das Verständnis einfacher physikalischer Zusammenhänge: zum Beispiel das Wissen, dass die Welt dreidimensional ist und dass Objekte nicht verschwinden, wenn sie aus dem Blickfeld geraten. So können wir vorhersagen, wo ein hüpfender Ball oder ein rasendes Fahrrad in einigen Sekunden sein wird. Und er hilft uns, die Punkte zwischen unvollständigen Informationen zu verknüpfen: Wenn wir ein metallisches Krachen aus der Küche hören, können wir eine fundierte Vermutung anstellen, dass jemand eine Pfanne fallen gelassen hat, weil wir wissen, welche Arten von Gegenständen dieses Geräusch verursachen und wann das passiert.

Kurz gesagt, der gesunde Menschenverstand sagt uns, welche Ereignisse möglich und welche unmöglich sind – und welche Ereignisse wahrscheinlicher sind als andere. Er ermöglicht es uns, die Folgen unserer Handlungen vorherzusehen und Pläne zu machen – und irrelevante Details zu ignorieren. Aber es ist schwierig, Maschinen einen gesunden Menschenverstand beizubringen. Den heutigen neuronalen Netzen müssten dazu Tausende von Beispielen gezeigt werden, bevor sie anfangen, solche Muster zu erkennen.

Lesen Sie auch

Openai,Ceo,Sam,Altman,Attends,The,Artificial,Intelligence(ai),Revolution,Forum, SamAltman

Gründe für Altmans Entlassung: Angeblich Durchbruch bei AGI

Kommentar: Was wir aus dem Drama bei OpenAI lernen können

Distance,Education,Online,Learning,Concept.,Robot,Teacher,,Abstract,Classroom,Interior

AGI: Wie schwer es ist, künstliche allgemeine Intelligenz zu definieren

Geheimnisvolle Zutaten

In vielerlei Hinsicht läuft der gesunde Menschenverstand also auf die Fähigkeit hinaus, vorherzusagen, was als Nächstes passieren wird. "Das ist die Essenz der Intelligenz", meint LeCun. Aus diesem Grund haben er und einige andere Forscher Videoclips zum Trainieren ihrer Modelle verwendet. Bei den bisherigen Techniken des maschinellen Lernens mussten die Modelle jedoch genau vorhersagen, was im nächsten Bild passieren würde – und dies Pixel für Pixel generieren.

"Stellen Sie sich vor, Sie halten einen Stift hoch und lassen ihn los", sagt LeCun. Der gesunde Menschenverstand sagt uns, dass der Stift fallen wird, aber nicht die genaue Position, in der er landen wird. Um das vorherzusagen, müsste man einige schwierige physikalische Gleichungen knacken.

Deshalb versucht LeCun jetzt, ein neuronales Netz zu trainieren, das sich nur auf die relevanten Aspekte der Welt konzentriert: Es soll vorhersagen, dass der Stift fallen wird, aber nicht, wie genau. Er sieht dieses trainierte Netz als das Äquivalent eines Weltmodells, auf das sich Lebewesen verlassen.

LeCun erläutert, dass er eine frühe Version dieses Weltmodells gebaut hat, das grundlegende Objekterkennung leisten kann. Jetzt arbeitet er daran, es so zu trainieren, dass es Vorhersagen macht. Aber wie der ebenfalls notwendige Konfigurator funktionieren soll, bleibe ein Rätsel. LeCun stellt sich dieses neuronale Netz als Controller für das gesamte System vor. Es würde entscheiden, welche Art von Vorhersagen das Weltmodell zu einem bestimmten Zeitpunkt machen sollte und auf welche Detailstufe es sich konzentrieren muss, um diese Vorhersagen zu ermöglichen. Außerdem muss er das Weltmodell nach Bedarf anpassen.

Weltmodell und Konfigurator

LeCun ist davon überzeugt, dass so etwas wie ein Konfigurator benötigt wird, aber er weiß nicht, wie man ein neuronales Netz für diese Aufgabe trainieren kann. "Wir müssen ein gutes Rezept finden, damit es funktioniert, und dieses Rezept haben wir noch nicht", sagt er.

In LeCuns Vision sind das Weltmodell und der Konfigurator zwei Schlüsselelemente in einem größeren System, das als kognitive Architektur bezeichnet wird und weitere neuronale Netze umfasst, z. B. ein Wahrnehmungsmodell, das die Welt wahrnimmt, und ein Modell, das die KI mit Hilfe von Belohnungen motiviert, die Welt zu erkunden oder ihr Verhalten anzupassen.

Jedes neuronale Netz entspricht in etwa einem Teil des Gehirns, sagt LeCun. So sollen beispielsweise der Konfigurator und das Weltmodell die Funktionen des präfrontalen Kortex nachbilden. Das Motivationsmodell entspricht bestimmten Funktionen der Amygdala, und so weiter.

Die Idee von kognitiven Architekturen, insbesondere von solchen, die vom Gehirn inspiriert sind, gibt es schon seit Jahrzehnten. Das gilt auch für viele von LeCuns Ideen zur Vorhersage mithilfe von Modellen mit unterschiedlichen Detailgraden. Doch als Deep Learning zum dominierenden Ansatz in der KI wurde, kamen viele dieser älteren Ideen aus der Mode. "Die Menschen in der KI-Forschung haben sie ein wenig vergessen", sagt er.

Alt und neu kombiniert

LeCun hat diese älteren Ideen aufgegriffen und quasi rehabilitiert, indem er Wege aufzeigte, wie sie mit Deep Learning kombiniert werden können. Für LeCun ist es wichtig, diese veralteten Ideen wieder aufzugreifen, da er die beiden vorherrschenden Ansätze der modernen KI für Sackgassen hält.

Wenn es darum geht, eine universelle KI – also eine AGI – zu entwickeln, gibt es zwei große Lager. Auf der einen Seite sind viele Forscher der Meinung, dass der bemerkenswerte Erfolg von sehr großen Sprach- oder Bilderzeugungsmodellen wie OpenAIs GPT-3 und DALL-E demonstriert, dass wir einfach nur immer größere Modelle bauen müssen.

Auf der anderen Seite stehen die Verfechter des Verstärkungslernens (Reinforcement Learning), einer KI-Technik, bei der bestimmte Verhaltensweisen belohnt werden, damit neuronale Netze durch Versuch und Irrtum lernen. Dies ist der Ansatz, den DeepMind verwendet, um seine Spiel-KIs wie AlphaZero zu trainieren. Wenn man die Belohnungen richtig einsetzt, so das Argument, wird das verstärkende Lernen schließlich eine allgemeinere Intelligenz hervorbringen.

LeCun lässt das nicht gelten: "Die Vorstellung, dass wir einfach die aktuellen großen Sprachmodelle vergrößern und schließlich eine KI auf menschlichem Niveau entsteht - daran glaube ich keine Sekunde." Diese großen Modelle manipulieren lediglich Wörter und Bilder, sagt er. Sie haben keine direkte Erfahrung mit der Welt.

Zu viele Daten, zu hohe Leistungsanforderung

Ebenso skeptisch ist er gegenüber dem Verstärkungslernen, da es riesige Datenmengen erfordert, um Modelle selbst für einfache Aufgaben zu trainieren. "Ich denke, das hat überhaupt keine Chance zu funktionieren", sagt LeCun.

David Silver von DeepMind, der die Arbeit an AlphaZero leitete und ein großer Befürworter von dessen Ansatz ist, stimmt dieser Einschätzung nicht zu, begrüßt aber LeCuns Gesamtvision. "Es ist ein aufregender neuer Vorschlag, wie ein Weltmodell dargestellt und von einer KI erlernt werden könnte", sagt er.

Melanie Mitchell, eine KI-Forscherin am Santa Fe Institute, ist ebenfalls gespannt auf diesen neuen Ansatz. "Das haben wir in der Deep-Learning-Community noch nicht so oft gesehen", sagt sie. Sie stimmt mit LeCun darin überein, dass große Sprachmodelle nicht alles sein können. "Ihnen fehlen das Gedächtnis und interne Modelle der Welt, die eigentlich sehr wichtig sind", sagt sie.

Natasha Jaques, eine Forscherin bei der Initiative Google Brain, ist jedoch der Meinung, dass Sprachmodelle dennoch eine Rolle spielen sollten. Sie findet es seltsam, dass Sprache in LeCuns Vorschlägen nicht vorkommt: "Wir wissen, dass große Sprachmodelle sehr effektiv sind und einen Haufen von menschlichem Wissen einbinden."

KI soll sich austauschen können

Googe-Frau Jaques, die an Möglichkeiten arbeitet, KI-Systeme dazu zu bringen, Informationen und Fähigkeiten untereinander auszutauschen, weist darauf hin, dass Menschen keine direkte Erfahrung mit etwas haben müssen, um etwas darüber zu lernen. Wir können unser Verhalten ändern, wenn uns etwas gesagt wird, z. B. dass wir eine heiße Pfanne nicht anfassen sollen. "Wie kann ich dieses Weltmodell, das Yann vorschlägt, aktualisieren, wenn ich keine Sprache habe?", fragt sie.

Es gibt noch ein weiteres Problem. Wenn sie funktionieren, würden LeCuns Ideen eine mächtige Technologie schaffen, die so transformativ sein könnte wie das Internet. In seinem Vorschlag wird jedoch nicht erörtert, wie das Verhalten und die Motivationen seines Modells kontrolliert werden würde – oder wer diese AGI kontrolliert. Das sei ein merkwürdiges Versäumnis, meint Abhishek Gupta, Gründer des Montreal AI Ethics Institute und Experte für ethische KI bei der Boston Consulting Group.

"Wir sollten mehr darüber nachdenken, was nötig ist, damit KI in einer Gesellschaft gut funktioniert. Und das erfordert unter anderem, über ethisches Verhalten nachzudenken", sagt er. Jaques merkt jedoch an, dass es sich bei LeCuns Vorschlägen noch stark um Ideen und nicht um praktische Anwendungen handelt. Mitchell stimmt zu: "Es besteht sicherlich kaum die Gefahr, dass dieses System in absehbarer Zeit zu einer Intelligenz auf menschlichem Niveau wird."

LeCun sieht das ähnlich. Sein Ziel sei es, die Saat für einen neuen Ansatz auszubringen, in der Hoffnung, dass andere darauf aufbauen. "Dies ist etwas, das viele Menschen in Anspruch nehmen wird", sagt er. Er setze sich dafür ein, weil er glaube, dass dies letztendlich der richtige Weg ist. Zumindest möchte er die Leute davon überzeugen, dass große Sprachmodelle und Reinforcement Learning nicht die einzigen Möglichkeiten sind. "Ich hasse es, wenn Menschen ihre Zeit verschwenden", sagt er.