Das Netzwerk LAION erzeugt generative KI-Modelle frei und transparent
Hinter LAION (Large-scale Artificial Intelligence Open Network) steht ein Verein nach deutschem Recht und zugleich ein internationales Netzwerk von Freiwilligen, das innerhalb von drei Jahren die Forschung an generativer KI stark beeinflusst hat. Offene Datensätze und offener Quellcode sollen Anwender großer Sprach- und Bildmodelle beflügeln.
Von
Arne Grävemeyer
Als OpenAI im Januar 2021 erstmals seinen Bildgenerator Dall-E ankündigte, regte sich Widerspruch in der Open-Source-Gemeinde. Das US-Softwareunternehmen hatte bereits mit seinen Sprachmodellen der GPT-Reihe für Furore gesorgt und stellte nun ein Modell vor, das Bilder einzig aufgrund eines Beschreibungstexts anfertigen konnte. Aber abgesehen von diesen bisher unvorstellbaren Funktionen erfuhr man fast nichts darüber. Nicht, welche Daten im Training verwendet worden waren, und nicht, wie der Code aussah. Das Modell stand zunächst nicht einmal für Tests zur Verfügung und später nur gegen Bezahlung. Das war die Geburtsstunde von LAION (Large-Scale Artificial Intelligence Open Network).
Der gemeinnützige Verein mit Adresse in Hamburg hat bis heute viel erreicht. Mitglieder und Unterstützer trainierten und veröffentlichten quelloffene openCLIP-Modelle. Ebenso wie CLIP von OpenAI sind auch die Mitglieder der openCLIP-Produktfamilie Sprach-Bild-Modelle mit Funktionen zur Bilderkennung und -analyse. Sie können dazu dienen, Objekte in Bildern zu finden, Bildszenen zu segmentieren und Bilder zu beschriften. Nicht nur viele Forschungsgruppen nutzen diese offenen Modelle, auch das US-Unternehmen Stability AI nutzte openCLIP, um den Bildgenerator Stable Diffusion zu entwickeln.
Zudem hat LAION bereits 2021 offene Bilddatensätze aus dem Common Crawl, der größten frei zugänglichen Sammlung von Webseiten, zusammengestellt. Diese Datensätze, darunter die bekannten Sammlungen LAION-400M und LAION-5B, dienten seitdem für viele KI-Modelle als Trainingsgrundlage. Die Namensgebung bezieht sich jeweils auf die Anzahl der Bild-Text-Paare. Demnach verzeichnet LAION-400M die Webadressen von 400 Millionen öffentlich zugänglichen Bilddateien, bei LAION-5B geht es sogar um mehr als fünf Milliarden. Zu jeder URL sind im Datensatz die Bildmaße hinterlegt, dazu beschreibende Texte, die ein CLIP-Modell erstellt hat, sowie Lizenzbedingungen gemäß Creative Commons, sofern diese vorliegen.
Begehrte Bilddatensätze
Auch die Bilddatensätze von LAION haben in der KI-Entwicklung weltweit Zuspruch bei Forschern und Mitwirkenden verschiedener Industrieprojekte gefunden. Google verwendete beispielsweise für das Training seines Text-zu-Bild-Modells Imagen eine Auswahl von LAION-400M; das Stable-Diffusion-Modell beruht auf LAION-5B.
In einem weiteren Projekt namens DataComp untersuchten Forscher aus dem LAION-Netzwerk Filtertechniken, um mit bestimmten Machine-Learning-Trainingscodes und festgelegten Rechenkapazitäten das beste CLIP-Modell zu erzeugen. Der DataComp-Benchmark gibt einen Trainingscode vor und ermöglicht es dadurch, die Auswahl eines Trainingsdatensatzes zu bewerten. Im Fokus dieses Projekts stand also nicht das beste Datenmodell, sondern die beste Auswahl des Trainingsdatensatzes. Im selben Rahmen ist auch der bisher größte Datensatz aus Bild-Text-Paaren zusammengestellt worden: CommonPool umfasst etwa 12,8 Milliarden Bildlinks und -beschreibungen.
Ein weiteres Ergebnis des DataComp-Projekts ist DataComp-1B, ein CommonPool-Subset, das etwa 1,4 Milliarden Bild-Text-Einträge verzeichnet. DataComp-1B ermöglicht es als Trainingsdatensatz, besonders treffsichere allgemeine CLIP-Modelle zu erzeugen, und hat in Vergleichen bereits deutlich umfangreichere Trainingsdatensätze ausgestochen.
LeoLM spricht Deutsch
Die LAION-Community organisiert sich über einen Discord-Server. Dessen Teilnehmerzahl liegt aktuell über 28.000. Dazu gehören Forscher, Softwareentwickler und Open-Source-Unterstützer. Gründungsmitglied Christoph Schuhmann unterstreicht, dass die Initiative zwar mit starker deutscher Beteiligung ins Leben gerufen worden, aber international aufgestellt ist. Viele Teilnehmer leben über ganz Europa verstreut in Amerika oder in Indien. Eine starke internationale Open-Source-Community hat inzwischen selbst bei großen US-Konzernen zu einem Umdenken geführt: Auch Google und Meta stellen heute einige Datenmodelle als offenen Code zur Verfügung.
Dadurch konnten LAION-Mitglieder auf der Basis von Metas großem Sprachmodell LLaMA 2 das deutsche Foundation Language Model LeoLM entwickeln. Foundation Models legen die Basis für ganze Modellfamilien und sind dadurch an verschiedene Anwendungsszenarien anpassbar. Die Entwickler initialisierten das neuronale Netz von LeoLM mit den gleichen Gewichtungsparametern wie in LLaMA 2 und führten das Training anschließend mit einem deutschen Textkorpus von 65 Milliarden Wörtern weiter. Dabei achteten sie insbesondere darauf, dass ihr Modell nicht die zuvor erlernten Fähigkeiten wieder verlor.
Im Ergebnis steht ein Sprachmodell, das in Benchmarks gegenüber LLaMA 2 nur wenig schlechtere Ergebnisse liefert, aber bei Aufgaben in deutscher Sprache weit vorne liegt. Auch mit GPT-3.5 kann LeoM mithalten und zudem in Übersetzungs-Tasks seine besonderen Stärken ausspielen. Speziell auf diesem Feld kann es sogar GPT-4 Paroli bieten, in allen anderen Bereichen aber nicht.
Mit LeoLM (hier das Maskottchenmotiv) ist eine offene Sprachmodellfamilie entstanden, die besondere Stärken in deutscher Sprache aufweist.
Bild: LAION
Am Beispiel LeoLM zeigt sich einmal mehr der gesellschaftliche und wissenschaftliche Vorteil des Open-Source-Ansatzes. Mit LeoLM ist vordergründig eine Suite deutscher Sprachmodelle unter offener Lizenz entstanden. So gibt es Modelle mit sehr unterschiedlicher Größe: Sie umfassen beispielsweise 7, 13 oder 70 Milliarden Parameter. Während die kleineren Familienmitglieder noch auf dem Laptop laufen, genügt für das größte Modell eine einzige Grafikkarte nicht mehr. Produktentwickler können ein Modell passend zum jeweiligen Anwendungsfall wählen und in ihr Projekt integrieren. Beispielsweise setzt das Hamburger Bildungs-Start-up Fobizz Informationsdienste an Schulen mit ChatGPT um und hat sich bereits an LeoLM interessiert gezeigt. Zudem ist LeoLM Ergebnis einer wissenschaftlichen Arbeit, die demonstriert, wie sich internationale Sprachmodelle auf eine lokale Sprache erweitern lassen.
Personal Assistant to go
Das jüngste LAION-Projekt ist BUD-E, ein Personal Assistant, der in natürlicher (englischer) Sprache und mit natürlicher Stimme, empathisch und emotional intelligent, den Anwender auf seinem Laptop oder Smartphone begleitet. Dieses Projekt ist in Zusammenarbeit mit dem ELLIS Institute in Tübingen, Collabora und dem Tübingen AI Center entstanden.
Das LAION-Projekt BUD-E ist ein persönlicher Assistent für lokale Anwendungen und soll wie sein Maskottchen auf einem Staubsaugerroboter immer dabei sein.
Bild: LAION
Die Besonderheit an BUD-E ist, dass die lokale Software ziemlich schnell antworten kann, schneller als Cloudsysteme wie ChatGPT von OpenAI und Gemini von Google. Das zeigt eine Demo auf der LAION-Website. Zudem soll sich der ständige Begleiter an die Inhalte bisheriger Gespräche erinnern und entsprechend kontextbezogen antworten. Das könnte natürlich auch die Antwortzeiten in der Demo verkürzt haben.
Als Open-Source-Projekt ist auch die Entwicklung von BUD-E ein laufender Prozess. Es gibt eine lange Liste geplanter Verbesserungen. Dazu zählen verschiedene Ansätze, die Latenz der Antworten zu verringern, die natürlich klingende Stimme zu verbessern, Gesprächsinhalte besser im Speicher zu behalten und sogar, sich auf mehrere Sprecher einzustellen.
Auch an dieser Stelle erkennt man die Vorteile quelloffener Programmierung gegenüber geschlossenen Ansätzen einzelner Marktteilnehmer. LAION-Projekte bauen, wie bei der wissenschaftlichen Forschung abgeguckt, auf offenen, reproduzierbaren und wiederverwendbaren Ergebnissen auf. So entstehen Projekte, die naturgemäß eine Vielzahl an Verbesserungsansätzen für neue Forschungsgruppen eröffnen. Und es entstehen Modelle, die von vielen Unternehmen, auch kleinen und mittelständischen, aufgegriffen und kommerzialisiert werden können.
(agr@ct.de)