Machine Learning: Auf der Suche nach einem Alleskönner-Algorithmus

Die Entwicklung geht von datenspezifischem Output zu allgemeineren KI-Modellen. Auch Meta sucht den KI-Gral und leistet mit data2vec einen multimodalen Beitrag.

In Pocket speichern vorlesen Druckansicht

(Bild: Skorzewiak/Shutterstock.com)

Lesezeit: 5 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Mit data2vec hat ein Forschungsteam von Meta/Facebook ein KI-Modell angekündigt, das neben visuellen Aufgaben auch geschriebenen und gesprochenen Text verarbeiten können soll. Das Framework kommt für die unterschiedlichen Zustandsformen (modalities) des Inputs offenbar mit einem gemeinsamen Algorithmus und einem einheitlichen Lernmechanismus aus, den Code und Beispiele können Interessierte auf GitHub einsehen. Der Name ist der Ankündigung zufolge angelehnt an das von Google entwickelte word2vec, ein textspezifisches neuronales Netz für Vorhersagen zu Wortclustern mit Bedeutungsnachbarschaften aus dem Jahr 2013. Grundlage des neuen Modells ist die Basisversion eines Transformers, den das Forscherteam um Alexei Baevski für Bilddaten, sprachliche Audiodaten und Text vortrainiert hatte.

In eine ähnliche Richtung gehen die Arbeiten von Google an DeepMind Perceiver, einer multimodalen Version des Transformers, und das deutsche Unternehmen Aleph Alpha erstellt multimodale KI-Modelle wie luminous, die in der Lage sind, verschiedene Datenarten wie Input in Text- und Bildform kombiniert zu verarbeiten. luminous war Ende 2021 auf der International Supercomputing Conference angekündigt worden, worüber Heise berichtet hat. Im Falle von data2vec hatte das MetaAI-Team seinem Forschungspaper zufolge mit dem Pre-Training eines Vision Transformers (ViT) begonnen, der noch speziell auf visuelle Aufgaben ausgelegt war. Ohne weitere Modifikation soll das gleiche neuronale Netz nun auch Spracherkennung und NLP (Natural Language Processing) beherrschen.

Die Methode der Vorhersage stammt aus dem Self-Supervised Learning und funktioniert über stufenweises Ausblenden von Teilbereichen des zu trainierenden Modells (Masked Prediction). Dabei erlernt ein Modell in mehreren Trainingsphasen, über Wahrscheinlichkeiten die Repräsentationen des Dateninputs zu konstruieren. In weiteren Schritten werden Teile des Inputs ausgeblendet (maskiert) und das System so sukzessive zum (mehr oder weniger plausiblen) Ergänzen der Leerstellen bewegt (s. Abb. 1). Dabei verwendet das Team zwei neuronale Netze, von denen eines den vollständigen Datensatz enthält (Teacher), das andere ausgeblendete Bereiche zu ergänzen hat (Student).

Schematische Darstellung, wie das Training des data2vec-Frameworks in einem Teacher-Student-Modus vonstatten geht (Abb. 1).

(Bild: MetaAI Research)

Was zurzeit in der KI-Forschung los ist, lässt sich am ehesten als eine Art neuer Space Race umschreiben: In den USA, China sowie punktuell auch in Europa entstehen in immer kürzeren Abständen zunehmend riesige KI-Modelle im Umfang vieler Milliarden Parameter, die darauf trainiert sind, ungelabelte Datensätze zu erfassen und kontextbezogenen Output zu liefern. Perspektivisch soll es damit möglich sein, Bilder, Text und auch gesprochene Sprache kombiniert zu verwenden, ohne dafür verschiedene Programme zu benötigen. Maschinen könnten dadurch in die Nähe von "Weltverständnis" und "Weltwahrnehmung" rücken, da ihre Lernfähigkeit sich laut den beteiligten Forschungsteams zunehmend der von Menschen annähert und sie Kontextwissen über das initiale Training hinaus selbst erschließen – langfristig durch eigentätige Beobachtung der Welt. Das eröffnet Raum für zahlreiche neue Anwendungen und Geschäftsfelder, die beispielsweise in Richtung Augmented Reality (AR) gehen.

Waren in der Vergangenheit Modelle noch auf klar abgrenzbare Anwendungsfälle trainierte Spezialmaschinen wie beispielsweise zum Erkennen von Fußgängern im Straßenverkehr, Sprachassistenz, maschinelle Übersetzung oder zur reinen Textverarbeitung gedachte Single-Purpose-Anwendungen, geht die Entwicklung nun im Eiltempo darüber hinaus. Die Zukunft gehört laut Insidern der Multimodalität, also dem Verarbeiten unterschiedlicher Arten von Daten- und Medienformen in einer Maschine. Das Training der dafür notwendigen tiefen neuronalen Netze geschieht zunehmend in Form des Self-Supervised oder auch Unsupervised Learning.

Der Weg dahin ist von kleineren und größeren Meilensteinen gesäumt, und US-amerikanische Hyperscaler nehmen auffallend viel Geld in die Hand, um die Entwicklung in dem Bereich voranzutreiben. Mark Zuckerbergs Ankündigung eines Metaverse und die Umbenennung von Facebook zu Meta hatten im Netz für einige Häme gesorgt, da die verspielt wirkende Computerspieloptik seines Marketingvideos das gesellschaftserschütternde Potenzial der Entwicklung von KI kaum fassbar macht. Greifbarer wird das, worum es geht, in aktuellen Forschungspapieren zu den jüngsten KI-Modellen, die gerade an den Start gehen.

Wer mehr wissen möchte zu data2vec, wird im Blogeintrag des Meta-Forscherteams um Alexei Baevski fündig oder kann das frisch veröffentlichte Forschungspaper einsehen. Die Modelle und der Code von data2vec sind auf GitHub zu finden. Zu Perceiver gibt es Material im DeepMind-Blog. Informationen zur laufenden multimodalen KI-Forschung in Europa lassen sich einem Heise-Artikel zum Launch von OpenGPT-X entnehmen, und die den dabei verwendeten KI-Modellen von Aleph Alpha zugrundeliegende Forschung an multimodaler Erweiterung generativer Modelle durch Adapter-Finetuning (MAGMA) ist mittlerweile auch auf arXiv.org greifbar.

(sih)