KI-Modell kann Bilder beschreiben: Aleph Alpha ist Vorreiter für multimodale KI

Das deutsche KI-Unternehmen hat auf der International Supercomputing Conference ein visionäres multimodales KI-Modell angekündigt – mit NLP und Computervision.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

(Bild: Phonlamai Photo/Shutterstock.com)

Update
Lesezeit: 8 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Zu GPT-3 entwickeln zurzeit einige Unternehmen Alternativen: Microsoft und Nvidia haben im Oktober 2021 das Megatron-Turing Natural Language Generation Model (MT-NLG) vorgestellt. Zuvor war in China im Sommer 2021 die Sprach-KI Wu Dao 2.0 erschienen und ein Unternehmen aus Heidelberg erstellt ein Modell, das als europäische Antwort auf GPT-3 gilt. Im Rahmen der International Supercomputing Conference (ISC) hat am 16. November 2021 das deutsche KI-Unternehmen Aleph Alpha in einem Panel mit Oracle und Nvidia sein neues multimodales Modell Künstlicher Intelligenz (KI) präsentiert, das anders als das reine Sprachmodell GPT-3 Computervision mit NLP verbindet und zudem die Flexibilität von GPT-3 für alle möglichen Arten der Interaktion auf den multimodalen Bereich überträgt.

Das angekündigte Modell luminous verwendet bis zu 200 Milliarden Parameter und gilt im Textteil als genauso mächtig wie GPT, dessen dritte Version bis zu 175 Milliarden Parameter umfasst. Im Unterschied zum amerikanischen Pendant lassen sich bei luminous Bilder beliebig hineinkombinieren, das Modell ist fünfsprachig (Deutsch, Englisch, Französisch, Italienisch, Spanisch) und im europäischen Kulturkontext trainiert. Laut CEO Jonas Andrulis soll es frei Texte generieren und Bilder in einen Text-Kontext mit einbinden. Anders als DALL-E von OpenAI oder andere multimodale Experimente ist die KI nicht auf die Kombination von Bild und Bildunterschrift beschränkt, sondern lässt sich wie das Basissprachmodell (etwa GPT-3) nutzen, nur eben mit beliebigen multimodalen Inhalten. Teststrecken zeigen, dass das neue Modell selbst verrückt ausgefallene Bilder und Texte mit Weltwissen verstehen kann.

Andrulis hatte Beispiele im Gepäck, die greifbar machen, über welche Fähigkeiten sein KI-Modell bereits jetzt verfügt. Die Beispiele zeigten teils ungewöhnliche Bildinhalte mit surrealem Inhalt wie einen Bären im Taxi, ein Pärchen beim Unterwassercamping oder einen Fisch mit riesigen Zähnen und Zahnlücke, die die KI beim Prompting mit Textfragen korrekt zu beschreiben vermag. Eine Stufe komplexer ist das Bild eines Zettels im Aufzug, in dem die KI korrekt zwischen der Situation, wesentlichen und unwesentlichen Inhalten der Botschaft unterscheiden sowie auf den institutionellen Rahmen (Universität) schließen kann, was nur durch kausale Inferenz möglich ist. Die im Output gelieferten Antworten sind nicht aus dem gezeigten Bild allein möglich, sondern das KI-Modell stellt eigenständig weitere Zusammenhänge her.

Auf einer per Hand beschrifteten Schatzkarte vermag das Modell beispielhaft nicht nur die Schrift zu entziffern, sondern darüber hinaus auch zutreffende Einschätzungen zum Charakter der eingezeichneten Orte zu treffen (unter anderem, wo es am gefährlichsten ist). Auch die korrekte Analyse und Beschreibung technischer Zeichnungen mit Metabegriffen, die sich nicht aus dem Prompt ableiten lassen, ist in Einzelfällen bereits gelungen. Diese und weitere Beispiele lassen sich in der Bilderstrecke nachvollziehen, für die Aleph Alpha heise Developer Bildmaterial zur Verfügung gestellt hat.

KI versteht Bilder: Aleph Alphas Modell Luminous – Playground (22 Bilder)

Schatzkarte

luminous findet Schätze auf einer handgeschriebenen Pergamentkarte. Die Fähigkeit der KI, Handschrift zu entziffern, ist dabei nicht das einzig bemerkenswerte Detail.
(Bild: Aleph Alpha)

Das KI-Modell stellt eigenständig über den Input hinausgehende Zusammenhänge her, die ohne kausale Inferenz nicht möglich wären. Es ist laut seinem Erfinder Wegbereiter einer Transformation, die perspektivisch alle Industriezweige auf eine Weise verändern könnte, wie es zuletzt die Elektrizität vermocht hatte – als vierte industrielle Revolution. Symbolisch trug das Panel daher im Titel den Claim "How GPT-3 is Spearheading the Fourth Industrial Revolution". Aleph Alpha liefert mit der Forschung aus Heidelberg eine Alternative zu anderen Hyperscalern und Tech-Giganten wie Microsoft, die sich jüngst für eine Milliarde US-Dollar exklusive Rechte an GPT-3 sicherten (und ist ihnen in Teilen einen Schritt voraus).

Hyperskalierung der Hardware zum Trainieren großer Sprachmodelle wie GPT-3 ist ein Schwerpunktthema der aktuellen Ausgabe der Fachkonferenz, die zurzeit hybrid stattfindet und alljährlich Experten aus Industrie und Forschung zusammenbringt. Ein brennendes Thema ist dabei unter anderem, dass die größer werdenden Modelle entsprechend größere Cluster für das Training und die Inferenz (Anwendung) benötigen, was vor allem bei der Kühlung und der Hochgeschwindigkeits-Verbindung zwischen GPUs große Herausforderungen für die Ingenieure und Forschungsteams birgt.

Die in Heidelberg gegründete Aleph Alpha GmbH gilt als Leuchtturm in Deutschland und Europa, denn sie betreibt laut dem Technologie-Index MAD 2021 (Machine Learning, AI and Data Landscape) als einziges europäisches KI-Unternehmen die Forschung, Entwicklung und Gestaltung allgemeiner Künstlicher Intelligenz (Artificial General Intelligence, kurz: AGI). Selbstbewusst strebt das Unternehmen nach eigenen Angaben danach, technische Kompetenz und Wertschöpfung hier zu bündeln, damit Europa im globalen Wettbewerb handlungsfähig bleibt. "Wenn die gesamte Wertschöpfung zu den Aktionären von Microsoft und OpenAI geht, dann fehlt uns das hier als Gesellschaft", untermauert CEO Andrulis das Anliegen.

Beim heutigen Stand der Technik reicht es offenkundig nicht, eine smarte Idee als Modell zu formulieren, sondern die benötigte hochskalierte Infrastruktur entscheidet über Fortschritt und Erfolg. Panel-Leiter Kevin Jorissen von Oracle und die beiden Panel-Diskutanten Joey Conway von der Nvidia Corporation sowie Jonas Andrulis von Aleph Alpha veranschaulichten dem Fachpublikum der Session, was es bedeutet, ein großes Modell zu betreiben und welche Ressourcen an GPU, vor allem aber auch an Zeit dafür mittlerweile erforderlich sind. So würde das KI-Modell luminous von Aleph Alpha mit seinen rund 200 Milliarden Parametern beim Einsatz von 512 GPUs etwa drei Monate zum Trainieren benötigen. Eine mit dem Publikum diskutierte Frage war die Verteilung des Modells über mehrere GPUs und der Umgang mit Instabilitäten, da bei unzureichender Hardware schon kleine Probleme den Neustart eines wochen- oder gar monatelang laufenden Tests erzwingen können, was neben dem Zeitverlust hohe Kosten verursacht.

Die Aleph-Alpha-Gründer Jonas Andrulis und Samuel Weinbach samt Team arbeiten eng mit dem von Professor Kristian Kersting geleiteten Forschungszentrum Hessian.AI zusammen, das an der TU Darmstadt verankert ist. Es besteht eine wissenschaftliche Kooperation mit der Universität Heidelberg, dem KIT, Fraunhofer, Cyber Valley und DFKI. Zudem hat das KI-Unternehmen internationale Partner wie Oracle und Hewlett Packard Enterprise (HPE) für die Cloudinfrastruktur und Hardware an der Seite.

Jonas Andrulis war zuvor unter anderem bei Apple in leitender Stellung an der KI-Entwicklung beteiligt und wurde im Oktober 2021 mit dem deutschen KI-Preis ausgezeichnet. 2021 hat das Start-up insgesamt bereits rund 30 Millionen Euro an Finanzierung von europäischen Investoren erhalten, um als Pionier das Unsupervised Learning voranzutreiben. Ein eigenes Rechenzentrum mit Hochleistungs-Clustern befindet sich zurzeit im Aufbau. Wer sich genauer für die Arbeit von Aleph Alpha interessiert, findet Wissenswertes auf deren Webseite und im Technologie-Blog des Unternehmens.

Die diesjährige Ausgabe der International Supercomputing Conference (ISC) vom 14. bis 19. November stand beziehungsweise steht unter dem Motto "Science and Beyond", und erstmals haben die Veranstalter die internationale Fachkonferenz auch hybrid ausgerichtet. Neben der Vor-Ort-Veranstaltung in St. Louis im US-Bundesstaat Missouri hatten Teilnehmer weltweit die Gelegenheit, sich auch virtuell einzuklinken. Zahlreiche Sessions sind entweder über die Konferenzplattform oder in Breakout-Räumen via Zoom ausgetragen worden. Wer sich für das Programm interessiert, wird auf der Konferenz-Webseite fündig.

Auch wer den Startschuss verpasst hat, kann noch Last-minute an Bord gehen: Eine Anmeldung ist während der laufenden Konferenz bis zum 19. November 2021 möglich. Je nach Interessenlage könnte das sinnvoll sein, denn registrierten Teilnehmern stehen die Aufzeichnungen der teils mitgeschnittenen Vorträge nachträglich auf der Konferenzplattform zur Verfügung.

[Update-Hinweis 22.01.2022: Bilderstrecke aktualisiert und Aufzählung der Kooperationsparter vervollständigt.]

(sih)