Sprachmodell: OpenEuroLLM soll KI in der EU unabhängiger und vielfältiger machen

Ein europäisches Konsortium will eine Open-Source-Familie leistungsfähiger, mehrsprachiger großer Sprachmodelle für private und öffentliche Dienste aufbauen.

12

(Bild: Vasin Lee/Shutterstock.com)

04.02.2025, 18:50 Uhr

Lesezeit: 4 Min.

Von

Stefan Krempl

Im weltweiten Wettbewerb um leistungsfähige Systeme mit Künstlicher Intelligenz (KI) schickt Europa mit OpenEuroLLM ein weiteres Projekt ins Rennen. Dahinter steht ein Konsortium aus 20 europäischen Forschungseinrichtungen, Unternehmen und Hochleistungsrechenzentren (EuroHPC). Ziel ist es, auf Open-Source-Basis eine Familie leistungsfähiger, mehrsprachiger Large Language Models (LLMs) für kommerzielle, industrielle und öffentliche Dienste aufzubauen.

Das Konsortium gibt sich zuversichtlich: Die geplanten transparenten und mit dem EU-Recht konformen Open-Source-Modelle "werden den Zugang zu hochwertigen KI-Technologien demokratisieren und die Wettbewerbsfähigkeit europäischer Unternehmen auf einem globalen Markt" stärken. OpenEuroLLM zahle auf das Anliegen der EU-Kommission ein, "die Wettbewerbsfähigkeit und digitale Souveränität Europas zu verbessern". Das Projekt sei "ein Paradebeispiel für die Art von Technologieinfrastruktur, die erforderlich ist, um die Hürden für die Entwicklung und Verfeinerung europäischer KI-Produkte zu senken".

Die internationale Konkurrenz ist freilich groß, auch bei Open-Source-LLMs. Größen in diesem Markt sind Metas Llama, Google Gemma und nicht zuletzt das gehypte Modell R1 des chinesischen Newcomers DeepSeek. OpenEuroLLM will aber damit punkten, dass nicht nur der Code der Modelle, die zugehörige Software und die Evaluierung für alle gänzlich offen zugänglich sind, sondern auch die Trainingsdaten. Das ist bei den Wettbewerbern aus den USA und China nicht der Fall. OpenEuroLLM soll so nicht nur bei den Ergebnissen leichter erklärbar sein, sondern auch besser "an die spezifischen Bedürfnisse der Industrie und des öffentlichen Sektors angepasst" werden können.

Training in 35 Sprachen

Die neuen Modelle werden dem Plan nach direkt in 35 Sprachen trainiert. Dabei handelt es sich nicht nur um die Sprachen aller EU-Mitgliedsstaaten und Beitrittskandidaten, sondern auch um wichtige von Drittstaaten wie Arabisch, Chinesisch oder Hindi. Widerspiegeln soll sich so in der KI-Basistechnik die sprachliche und kulturelle Vielfalt, die auch leichter in konkrete Anwendungen einfließen könne.

Zu den Mitstreitern aus Deutschland gehören das Ellis-Institut und das universitäre AI Center aus Tübingen, das Forschungszentrum Jülich, das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS), Aleph Alpha aus Heidelberg sowie das Bremer Start-up Ellamind. Die Projektkoordination haben der tschechische Computerlinguist Jan Hajič und Peter Sarlin vom finnischen KI-Labor Silo AI übernommen, das mittlerweile zum US-Chiphersteller AMD gehört.

Videos by heise

Laut der EU-Kommission verfügt OpenEuroLLM aktuell über ein Gesamtbudget von 37,4 Millionen Euro, von denen 20,6 Millionen aus dem Förderprogramm Digitales Europa stammen. In Ausschreibungsunterlagen vom vorigen Jahr war von 54 Millionen Euro verteilt auf mehrere Jahre die Rede.

20,6 Millionen vs. 500 Milliarden

Die Brüsseler Regierungsinstitution hat das Projekt bereits am Montag mit dem Siegel der Plattform "Strategische Technologien für Europa" (Step) ausgezeichnet. Das ist eine Initiative für eine höhere Wettbewerbsfähigkeit der europäischen Industrie durch den Einsatz kritischer Technologien wie KI. Über Step erhalten Teilnehmer, die europäischen Werte der Transparenz und Offenheit berücksichtigen, privilegierten Zugang zu Supercomputing-Zentren.

Im Vergleich zu den 500 Milliarden US-Dollar, die ChatGPT-Enwickler OpenAI zusammen mit Oracle und Softbank innerhalb von vier Jahren in KI-Rechenzentren im Rahmen des US-Projekts Stargate stecken wollen, ist das OpenEuroLLM-Budget ein Klacks. Doch es mehren sich Zweifel, dass die Beteiligten das Geld gar nicht haben und so hohe Finanzmittel möglicherweise fürs Entwickeln leistungsfähiger LLMs gar nicht nötig sind. Zumindest soll das Training von DeepSeek-Modellen deutlich günstiger gewesen sein.

OpenEuroLLM hat eine enge Zusammenarbeit mit Open-Source- und Open-Science-Communitys wie LAION, Open-Sci und OpenML sowie weiteren Experten auf diesem Gebiet angekündigt. Letztere seien schon Teil eines Beirats für strategische Partnerschaften. Das europäische Forschungsprojekt OpenGPT-X, das im November das LLM Teuken-7B veröffentlicht hat, erwähnt OpenEuroLLM nicht direkt. Dieses wurde mit den 24 Amtssprachen der EU trainiert. Es soll ebenfalls gezielt den Anforderungen europäischer Werte, Datenschutzstandards und sprachlicher Vielfalt gerecht werden. Die Teilnehmerstrukturen beider Projekte überschneiden sich aber deutlich, sodass eine enge Kooperation kaum vermeidbar scheint.