Luminous schließt Europas KI-Lücke: Aleph Alpha auf Augenhöhe mit US-Anbietern

Das deutsche KI-Unternehmen Aleph Alpha hat einen starken Leistungsbericht vorgelegt: KI-Modell Luminous soll im Vergleich doppelt so effizient sein wie GPT-3.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen

(Bild: mixmagic/Shutterstock.com)

Lesezeit: 9 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Die Forschungsabteilung des deutschen KI-Unternehmens Aleph Alpha hat einen Leistungsbericht vorgelegt, der sich sehen lassen kann: Laut neutralen Benchmarks weisen die KI-Modelle der Luminous-Familie im Einsatz eine höhere Effizienz auf als GPT-3 von OpenAI, dem Herausgeber der Konversations-KI ChatGPT. Mit Luminous dürfte demzufolge erstmals europäische KI bei den Leistungsmerkmalen gleichauf liegen mit den KI-Systemen der Weltspitze aus den USA – also den gängigen großen Sprachmodellen (LLM) und Foundation Models, die das Fundament für Anwendungen wie ChatGPT bilden.

Das Heidelberger Forschungsteam hat für den Vergleich seine in Deutschland entwickelten Luminous Foundation Models einer systematischen Testserie unterzogen und unter anderem das 70 Milliarden Parameter große Modell Luminous-supreme mit drei mehr als doppelt so großen Modellen von OpenAI, BigScience und Meta AI verglichen, und zwar mit davinci (OpenAI, 175 Milliarden Parameter), BLOOM (BigScience, 176 Milliarden Parameter) sowie OPT (Meta AI, 175 Milliarden Parameter). Die Benchmarks stammen von der unabhängigen Forschungsgruppe EleutherAI, dazu mehr am Ende des Artikels.

In Anbetracht der Größenunterschiede macht insbesondere die Accuracy, also die Treffsicherheit und Genauigkeit des Heidelberger Modells hellhörig. Bei Aufgaben zur Klassifikation, zum Beantworten von Fragen auf geschlossener Textbasis, beim Argumentieren und Begründen (Reasoning), beim Leseverständnis und auch beim Schlussfolgern in natürlicher Sprache (Natural Language Inference) lag Luminous gleichauf mit den Vergleichskandidaten von OpenAI und Meta – während es BLOOM in vier der fünf Kategorien teils deutlich übertraf. Luminous weist bei gleichem Leistungsniveau eine doppelt so hohe Effizienz auf, womit es als ausgesprochen konkurrenzfähig gelten kann. Spannend dürfte daher das im laufenden Jahr bevorstehende Release einer 300 Milliarden Parameter großen Version sein, die sich zurzeit in einer Testphase befindet und laut Gründer und CEO Jonas Andrulis Möglichkeiten für hochkomplexe und kritische Anwendungen liefern werde.

Kernaufgaben im Vergleich: Luminous von Aleph Alpha im Vergleich zu davinci von OpenAI, BLOOM von BigScience und OPT von Meta AI

(Bild: Aleph Alpha, Luminous Performance Benchmarks)

Bislang sind die KI-Modelle von Aleph Alpha in drei Größen zwischen 13 und 70 Milliarden Parametern verfügbar. In weiteren Tests sind die Fähigkeiten dieser drei Modellkategorien zum Vergleich auf die Probe gestellt worden: Luminous-base (13B), Luminous-extended (30B) und Luminous-supreme (70B) schnitten gegenüber dem 175 Milliarden Parameter großen davinci von OpenAI auffällig gut ab (davinci ist ein generatives Textmodell der GPT-3-Familie) – sowohl bei der erweiterten Textverarbeitung als auch beim Ergänzen von Text in mehreren Schritten (Few-Shot Prompting). Im Test wurden null bis fünf Schritte untersucht. Insbesondere das jüngste Mitglied der Luminous-Familie, das 70 Milliarden Parameter große Luminous-supreme, schlug sich bei den Testläufen beachtlich und übertraf teilweise die Performance von OpenAIs Textmodell. Der vollständige Leistungsbericht lässt sich im Forschungsbereich von Aleph Alpha öffentlich einsehen.

So überzeugend schlugen sich die Luminous-Geschwister (13 bis 70 Milliarden Parameter) gegenüber davinci von OpenAI (175 Milliarden Parameter).

(Bild: Aleph Alpha, Luminous Performance Benchmarks)

Der Vergleich umfasste Aufgaben zum Klassifizieren, Auswerten und Erstellen von Texten sowie das Beantworten von Fragen zu Textinhalten. Alle Aufgaben und Ergebnisse sollen sich laut der GitHub-Beschreibung des Testkits reproduzieren lassen. Das Spektrum entspricht den drei Grundoptionen, die der Aleph-Alpha-Playground und der API-Client den Nutzern sowie App-Entwicklern bieten: Q&A, Textergänzung sowie das Zusammenfassen hochgeladener Texte. Auch Bilder und Bild-Textkombinationen lassen sich bei Aleph Alpha kombiniert (multimodal) verarbeiten, was für diesen Benchmark-Test aber offenbar keine Rolle spielte. Vortrainiert sind die Luminous-Modelle auf mehrsprachiger Textbasis mit ausgewählten Quellen in Englisch, Deutsch, Französisch, Italienisch und Spanisch, wobei für jede dieser Sprachen zwischen 400 und 588 Milliarden Token in das Training eingingen. Mit Blick auf die Trainingsdatenbasis von GPT-3 durch OpenAI hat das Gewicht, wie manche User beim Testen von ChatGPT schon bemerkt haben ("Mit Englisch funktioniert das gefühlt 10 mal besser.").

Zum Vergleich: In das Training von GPT-3 flossen insgesamt 499 Milliarden Token ein, wovon der überwiegende Teil (410 Milliarden) aus gefiltertem "Common Crawl" stammte, also aus per Daten-Schleppnetz abgeschöpften Konversationsdaten aus dem World Wide Web. 67 Milliarden Token stammen aus Büchern, 19 Milliarden aus einer Datensammlung namens "WebText2", die Weblinks über einen längeren Zeitraum abgrast, sowie lediglich 3 Milliarden (knapp 3 Prozent Gewichtung im Trainingsmix) aus der englischsprachigen Wikipedia – und offenbar nur aus dieser.

Für das Training von GPT-3 verwendete Datensätze in Milliarden Token und deren prozentuelle Gewichtung (weight).

(Bild: arxiv.org / damaliges OpenAI-Team)

Anders als das gezielt einsprachig trainierte Vorgängermodell GPT-2 hatte GPT-3 im Training immerhin auch ein bisschen Material in Fremdsprachen gesehen. Das bei arxiv.org hinterlegte Paper zu GPT-3 ("Language Models are Few-Shot Learners") nennt grob die Zahlen: 93 Prozent der Trainingsdaten von GPT-3 waren auf Englisch. Die restlichen, etwas dürftig wirkenden sieben Prozent enthielten Material in anderen, aber gewiss nicht allen Sprachen der Welt. Europäische Sprachen waren im GPT-3-Trainingsdatensatz somit kaum vertreten und sind in den davon abgeleiteten Anwendungen stark unterrepräsentiert. Gleiches gilt für afrikanische und asiatische Sprachen (weshalb es beispielsweise in Afrika zahlreiche Initiativen für eigene KI-Modelle gibt, die die sprachliche Wirklichkeit besser repräsentieren).

Grundlage der wissenschaftlichen Untersuchung war das Paket "Evaluation Harness lm-eval" des Forschungskollektivs EleutherAI, ein Framework zur Few-Shot-Auswertung autoregressiver Sprachmodelle. Gemeint sind – in Abgrenzung zu bidirektionalen Modellen wie BERT, die eine andere Architektur aufweisen – große KI-Transformermodelle wie GPT-2, GPT-3 und GPT-Neo, in deren Klasse vom Typ her auch Luminous gehört.

Laut Andrulis ist Luminous "in vielen Umgebungen eine starke Alternative und damit ein wichtiger Schritt zur Technologiesouveränität Europas." Praxistaugliche Use-Cases gibt es auch bereits: Unter anderem die Stadt Heidelberg hat den von Aleph Alpha entwickelten Bürgerassistenten Lumi im Einsatz, der auf einer kuratierten Datenbasis arbeitet und dem Austausch zwischen öffentlicher Verwaltung und Bevölkerung dient. Ein weiterer Fokus des baden-württembergischen Unternehmens liegt auf der Nachvollziehbarkeit und Erklärbarkeit (Explainable AI), um KI in der Praxis sicher zu machen – eine Notwendigkeit angesichts des raschen Einzugs KI-gesteuerter Fähigkeiten in Alltagsanwendungen.

Dazu hatte das Team Ende Januar 2023 ein Forschungspaper vorgelegt, das international Aufsehen erregte. Nicht ohne Selbstbewusstsein hatte der Geschäftsführer und Gründer ChatGPT damals auf Twitter als "nutzlos" bezeichnet für hochwertige Arbeit, die große Genauigkeit und Kontrolle über den Output erfordert. Andrulis und sein Team hatten 2021 für ihre Grundlagenforschung den Deutschen KI-Preis gewonnen. Der Tweet zur Explainable-AI-Forschung von Aleph Alpha erreichte rund eine Viertelmillion Twitterleser und hat offenbar die Sichtbarkeit des Unternehmens über die deutschen Sprachgrenzen hinaus verstärkt.

Wer mehr Informationen sucht oder die Modelle testen möchte, wird auf der Website von Aleph Alpha fündig. Zugang zu Luminous gibt es über den Playground (mit kostenlosem Startguthaben) oder per API. Weitere Forschungsergebnisse sind im Research-Bereich auf der Website greifbar, und neben den Vergleichswerten bietet der Leistungsbericht zu Luminous Beispiele für Prompts und Output. Das 300 Milliarden Parameter große Luminous-World befindet sich zurzeit in einer Testphase und soll noch in diesem Jahr veröffentlicht werden.

EleutherAI zielt als dezentrales Forschungskollektiv auf die Verständlichkeit und Skalierung von KI, Open-Source-KI-Forschung und das Alignment für Künstliche Intelligenz, also das Ausrichten von KI-Modellen und Anwendungen auf menschliche Werte und deren sicheren Einsatz in Anwendungen. Anfang 2022 hatte die Gruppe selbst mit GPT-NeoX-20B ein 20 Milliarden Parameter großes quelloffenes Sprachmodell vorgestellt, das als Open-Source-Alternative zu GPT-3 von OpenAI gilt. Das Kollektiv unabhängiger Forscherinnen und Forscher arbeitet über Discord und GitHub zusammen und setzt sich für Alternativen zu den proprietären Modellen US-amerikanischer Provenienz ein, deren Zugang im Falle von Microsoft-OpenAI seit dem Erscheinen von GPT-3 im Frühjahr 2020 stark eingeschränkt ist.

Das Kollektiv besteht seit Juli 2020 als loser Zusammenschluss von KI-Forscherinnen und -Forschern, -Ingenieuren und -Entwicklerinnen. Der Schwerpunkt gemeinsamer Interessen ist Open-Source-KI, wobei auch europäische Konkurrenten der "Hyperscaler" sich bei EleutherAI einbringen und die im Kollektiv etablierten Forschungsmethoden zum Überprüfen der eigenen Entwicklung einsetzen, wie die Forschungsabteilung von Aleph Alpha es tut. Die Heidelberger unterstützen seit ihrem Gründungsjahr 2019 diese KI-Graswurzelbewegung und machten Teile ihrer eigenen Modelle und ihrer Forschung öffentlich zugänglich – so zum Beispiel das Modell MAGMA, zu dem auch ein arxiv-Paper samt GitHub-Repository existieren.

(sih)