Bilder, Texte und Sprache erkennen: Facebook will KI das Multitasking beibringen

Eine neue Technik erlaubt es, neuronalen Netzwerken gleichzeitig mehrere Fähigkeiten beizubringen. Ein Schritt hin zur Artificial General Intelligence?

vorlesen Druckansicht 8 Kommentare lesen

(Bild: whiteMocca/Shutterstock.com)

Lesezeit: 5 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Wer einen Hund mit seinen Augen erkennen kann, kann ihn wahrscheinlich auch erkennen, wenn er nur mit Worten beschrieben wird. Heutige Systeme der Künstlichen Intelligenz sind da anders. Tiefe neuronale Netze sind zwar sehr gut darin, Objekte auf Fotos zu erkennen und zu klassifizieren. Auch die Generierung natürlicher Sprache ist mittlerweile möglich. Beides gleichzeitig geht aber nicht: Es gibt KI-Modelle, die entweder das eine oder das andere beherrschen.

Ein Teil des Problems besteht bislang darin, dass die Modelle unterschiedliche Fähigkeiten mit unterschiedlichen Techniken erlernen. Dies ist ein großes Hindernis für die Entwicklung einer allgemeinen Künstlichen Intelligenz (Artificial General Intelligence, AGI), also von Maschinen, die universal intelligent erscheinen. Dazu müssten sie echtes Multitasking beim Lernen betreiben und es schaffen, mittels Deep Learning erworbene Fähigkeiten in andere Bereiche zu übertragen.

Videos by heise

Ein Team bei Meta AI (ehemals Facebook AI Research) hat hier nun einen Ansatz entwickelt. Die Forscher haben einen einzigen Algorithmus entwickelt, mit dem ein neuronales Netzwerk trainiert werden kann, Bilder, Texte oder Sprache zu erkennen – und das alles auf einmal. Das KI-System mit dem Namen Data2vec vereinheitlicht nicht nur den Lernprozess, sondern ist in allen drei Bereichen mindestens genauso gut wie bestehende Verfahren. "Wir hoffen, dass unser Ansatz die Art und Weise, wie die Leute über die Entwicklung solcher Systeme bislang denken, verändern wird", sagt Michael Auli, KI-Wissenschaftler bei Meta AI.

Die Idee baut auf einem Ansatz auf, der als selbstüberwachtes Lernen (self-supervised learning) bekannt ist, bei dem neuronale Netze lernen, selbstständig Muster in Datensätzen zu erkennen, ohne von Beispielen angeleitet zu werden, die der Mensch klassifiziert hat. Auf diese Weise lernen große Sprachmodelle wie GPT-3 aus riesigen Mengen von Texten aus dem Internet, die zuvor nicht mit einem Labeling versehen wurden. Das hat viele der jüngsten Fortschritte im Bereich Deep Learning vorangetrieben.

Auli und seine Kollegen hatten sich mit selbstüberwachtem Lernen im Bereich Spracherkennung beschäftigt. Als sie sich jedoch ansahen, was andere Forscher im Bereich des selbstüberwachten Lernens für Bilder und Text tun, stellten sie fest, dass dabei jeweils unterschiedliche Techniken verwendet wurden – und zwar, um die gleichen Ziele zu verfolgen.

Data2vec verwendet deshalb zwei neuronale Netzwerke, ein "Schüler"- und ein "Lehrer"-Netzwerk. Zunächst wird das Lehrernetzwerk auf die übliche Weise auf Bilder, Text oder Sprache trainiert und erarbeitet sich eine sogenannte interne Repräsentation dieser Daten, die es erlaubt, vorherzusagen, was es sieht, wenn ihm neue Beispiele vorgesetzt werden. Also: Wenn der Software ein Foto eines Hundes gezeigt wird, erkennt sie diesen auch als Hund.

Der Clou ist nun, dass das Schülernetzwerk dann darauf trainiert wird, die internen Repräsentationen des Lehrers vorauszusagen. Mit anderen Worten: Es wird darauf trainiert, nicht zu erraten, dass es ein Foto eines Hundes sieht, wenn es einen Hund sieht, sondern zu erraten, was der Lehrer sehen würde, wenn er dieses Bild sieht. Da das Schülernetzwerk nicht versucht, das tatsächliche Bild zu erraten, sondern die Repräsentation des Lehrers für dieses Bild, muss der Algorithmus nicht auf eine bestimmte Art von Eingabe zugeschnitten sein. Es klappt also auch mit der Texterstellung.

Data2vec ist Teil eines großen Trends in der KI hin zu Modellen, die lernen können, die Welt auf mehr als eine Art zu verstehen. "Das ist ein cleverer Ansatz", kommentiert Ani Kembhavi vom Allen Institute for AI in Seattle, der sich mit visueller KI und Sprach-KI beschäftigt. Eine allgemeine Künstliche Intelligenz rückt seiner Ansicht nach so näher.

Allerdings kann der Lernalgorithmus bislang zwar für verschiedene Fähigkeiten verwendet werden, erlernt aber immer nur eine Fähigkeit auf einmal. Wenn einmal gelernt wurde, Bilder zu erkennen, muss das System wieder von vorne anfangen, um auch Sprache zu erkennen. Es ist schwierig, einer KI mehrere Fähigkeiten gleichzeitig zu vermitteln. Doch damit will sich Meta AI ebenfalls bald beschäftigen.

Die Forscher waren zunächst überrascht, dass ihr Ansatz bei der Erkennung von Bildern und Sprache sogar besser abschnitt als bestehende Verfahren – und beim Textverständnis ebenso gute Ergebnisse zeigte, wie führende Sprachmodelle.

Meta-Boss Mark Zuckerberg träumt bereits von möglichen KI-Anwendungen für das von ihm erträumte Metaversum. "Das alles wird irgendwann in eine AR-Brille mit einem KI-Assistenten eingebaut werden", schrieb er in einem Posting auf Facebook. "Eine solche KI könnte Ihnen dann beim Kochen helfen, indem sie erkennt, wenn Sie eine Zutat vergessen haben oder Sie auffordert, die Hitze vom Herd zu nehmen oder sogar komplexere Aufgaben übernimmt."

FĂĽr Meta-AI-Wissenschaftler Auli besteht die wichtigste Erkenntnis darin, dass die KI-Forschung rausmĂĽsse aus bisherigen "Silos". "Man muss sich eben nicht auf eine Sache konzentrieren", sagt er. "Wenn man hier eine gute Idee hat, kann sie auch fĂĽr andere Bereiche nĂĽtzlich sein."

(bsc)