KI-Modell BERT lernt europäisch: EuroBERT vorgestellt
Das neue Encoder-Modell EuroBERT soll dank multilingualer Trainingsdaten mehr Leistung in europäischen Sprachen bringen und ebenso für Code-Reasoning taugen.

(Bild: Andrey Suslov/Shutterstock.com)
- Prof. Christian Winkler
Ein Konsortium aus Forschungseinrichtungen und Industriepartnern wie der KI-Plattform Hugging Face hat das multilinguale Encoder-Modell EuroBERT vorgestellt, das die Leistung in europäischen und weltweit verbreiteten Sprachen verbessern soll. EuroBERT ist den Angaben nach für Aufgaben auf Dokumentenebene optimiert, unterstützt Kontextsequenzen mit 8192 Tokens und bringt Fähigkeiten für mehrsprachiges Retrieval, Klassifikation, Regression sowie Mathematik- und Code-Verständnis mit.
Das Modell eignet sich, um damit über Finetuning Klassifikationsaufgaben zu lösen, aber auch als Basis für Embedding-Modelle. In vielen Bereichen soll EuroBERT damit nach den eigenen Benchmarks des Konsortiums der Konkurrenz voraus sein.
Sechs Prozent der Trainingsdaten auf Deutsch
Die EuroBERT-Modelle liegen in unterschiedlichen Größen vor (210 Millionen Parameter, 610 Millionen Parameter, 2,1 Milliarden Parameter). In das Training ist eine große Menge an Rechenkapazität geflossen, das größte Modell benötigte über 12 GPU-Jahre, aber auch das Training der kleineren Modelle brauchte mehrere GPU-Jahre. Das Finetuning funktioniert natürlich viel schneller, auch wenn man den dazu notwendigen Speicherbedarf nicht unterschätzen sollte. Bereits das mittlere Modell benötigt dafür etwa 14 GByte RAM, weil die Daten in float32 abgespeichert sind.
Interessant ist das offene Trainingsverfahren, das bei EuroBERT zum Einsatz kam. Laut dem Paper lagen etwa sechs Prozent der Trainingsdaten auf Deutsch vor und kamen aus dem CulturaX-Korpus. Im Vergleich zu den 41 Prozent auf FineWeb ist das zwar nicht viel, aber immer noch bedeutend mehr als bei den bisherigen ModernBERT-Modellen. Das zeigt sich auch in dem Vokabular mit 128.000 Tokens im Vergleich zu ModernBERT, das mit etwa 50.000 Tokens auskommen muss – unterschiedliche Sprachen benötigen mehr Tokens.
Encoder oft im Schatten generativer Modelle
Bei allem Wirbel um generative Sprachmodelle werden die Encoder-Modelle wie BERT oft vergessen, obwohl sie für viele Unternehmensanwendungen eine große Rolle spielen. BERT steht für Bidirectional Encoder Representations from Transformers – ein ursprünglich 2018 von Google vorgestelltes, quelloffenes Verfahren zur Verarbeitung natürlicher Sprache, um die sich längst ein Ökosystem gebildet hat. Mithilfe solcher Modelle kann man zum Beispiel Texten bestimmte Kategorien zuweisen (Klassifikation), Stimmungslagen erkennen (Sentiment Detection) oder semantische Suchen implementieren (Information Retrieval als Vorstufe zu Retrival Augmented Generation).
Genau wie bei generativen Modellen ist auch hier das Training sehr aufwendig, dafür können die Modelle verhältnismäßig leicht an individuelle Bedürfnisse angepasst werden. Das funktioniert dann besonders gut, wenn das Grundmodell für die entsprechende Domäne schon gut vortrainiert ist. Auch wenn es leistungsfähige multilinguale Embedding-Modelle gibt, sind leider viele Basismodelle primär mit englischen Texten trainiert. In diesem Fall führt ein Finetuning mit deutschen Texten nicht immer zu guten Ergebnissen. Speziell für Deutsch trainierte Modelle gibt es zwar zum Beispiel von Google oder der Bayerischen Staatsbibliothek, aber die sind viele Jahre alt und technisch nicht mehr auf dem neuesten Stand.
In Deutsch besser als ModernBERT
Ende 2024 hat Answer.AI zusammen mit Hugging Face die Modelle mit der ModernBERT-Architektur erneuert. In die Encoder-Architektur wurden viele Optimierungen (wie Flash Attention) eingebaut, die man aus den generativen Sprachmodellen kennt. Auch der Trainingsprozess wurde mit diesen neuen Erkenntnissen optimiert, sodass daraus sehr solide, aber auch schnelle Basismodelle entstanden sind. Aber auch diese sind primär mit englischsprachigen Texten trainiert. EuroBERT nutzt die ModernBERT-Architektur als seine Basis.
EuroBERT kann man überall dort einsetzen, wo bisher BERT zum Einsatz kam. Nicht immer muss das notwendigerweise zu besseren Ergebnissen führen, deshalb ist es sinnvoll, eine Performance-Metrik (wie Accuracy oder F1-Score) zu definieren und zu vergleichen. In unseren Tests konnten wir für deutschsprachige Texte mindestens so gute Ergebnisse erzielen wie mit den (alten) deutschsprachigen Modellen (und deutlich bessere als mit ModernBERT), dabei aber aufgrund der modernen Architektur schneller zum Ziel kommen. Gleichzeitig hat man den Vorteil, dass man mit viel längeren Texten (Kontext-Länge 8192) arbeiten und leicht auf andere Sprachen umstellen kann.
(axk)