Aleph Alpha und AMD stellen neue KI-Architektur vor

Mittels Tokenizer-freier Architektur kann man Sprachmodelle leichter an eigene Bedürfnisse anpassen. Aleph Alpha kooperiert dafür mit AMD.

vorlesen Druckansicht 1 Kommentar lesen

(Bild: Peshkova/ Shutterstock.com)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Gängige Large Language Models (LLMs) können mittels Finetuning an unterschiedliche Bedürfnisse angepasst werden. Das liefert jedoch laut Aleph Alpha oft "unbefriedigende Ergebnisse, wenn sie an neue Sprachen oder hochspezialisiertes Branchenwissen angepasst werden". Das Heidelberger Startup hat eine neue KI-Architektur entwickelt, die das ändern soll. Zudem kooperiert Aleph Alpha dafür mit AMD und SiloAI sowie Schwarz Digits.

LLMs lernen beim Training Muster, die auf einer tokenisierten Version der Texte basieren, die für das Training genutzt werden. Dabei werden die Texte zerlegt und ihr Aufbau analysiert, woraus schließlich Wahrscheinlichkeiten abgeleitet werden. Ist das Training abgeschlossen, lassen sich die entstandenen LLMs nur noch mittels Finetuning weiter anpassen. Das geschieht als eine Art Aufbau auf das bestehende LLM. Problematisch wird es nun, wenn neuer Text beim Finetuning stark von denen abweicht, mit denen das LLM trainiert wurde. Dann, so schreibt es Aleph Alpha, "kann er nicht effizient tokenisiert werden".

Eine neue tokenizerfreie Architektur soll das ändern. Diese ist hierarchisch angeordnet und kombiniert die Verarbeitung auf Zeichen- und Wortebene. Im veröffentlichten Paper heißt es: "Sie verwendet einen leichtgewichtigen Kodierer auf Zeichenebene, um Zeichensequenzen in Wort-Embeddings umzuwandeln, die dann von einem Backbone-Modell auf Wortebene verarbeitet und über einen kompakten Decoder auf Zeichenebene wieder in Zeichen dekodiert werden."

Videos by heise

Damit lassen sich laut Aleph Alpha "souveräne Modelle für verschiedene Alphabete, weniger verbreitete Sprachen und hochspezifische Branchenwissen" erstellen. Aleph Alpha spricht von einem Durchbruch. Für ein erfolgreiches Finetuning seien bisher sehr viele Daten notwendig gewesen. Die neue Architektur sei deutlich effizienter. Das schont Rechenleistung und damit Ressourcen. Daten liegen für viele Sprachen gar nicht ausreichend vor, um auf vorherige Weise gute Ergebnisse zu bekommen.

Aleph Alpha kooperiert zudem mit AMD und SiloAI. Das finnische Startup ist im Sommer von AMD übernommen worden. In der Pressemitteilung heißt es, "so ermöglicht diese neue, innovative KI-Modellarchitektur etwa bei Finnisch eine Reduzierung der Trainingskosten und des CO₂-Fußabdrucks um 70 Prozent im Vergleich zu alternativen Optionen." Und so spricht auch AMD davon, dass durch die Zusammenarbeit das europäische KI-Ökosystem gestärkt würde.

Vergleichswerte Trainingseffektivität

(Bild: Aleph Alpha)

Zunächst richtet sich das Angebot an europäische Behörden. Die hat Aleph Alpha bereits seit Längerem als Kunden im Blick. Das KI-Betriebssystem für Behörden nennt sich Pharia. Die Initiative wird zusätzlich durch die Datenzentren von Stackit, der Cloud-Lösung von Schwarz Digits, unterstützt. Schwarz Digits ist die IT- und Digitalsparte der Schwarz-Gruppe (Lidl, Kaufland).

(emw)