Machine Learning: Mixture of Experts-Strategie erklärt

Damit LLMs nicht bei jeder Anfrage alle Parameter verschiedener Wissensbereiche durchlaufen, setzt die Mixture-of-Experts-Architektur auf Spezialistenmodelle.

Artikel verschenken

3

02.09.2024, 12:00 Uhr

Lesezeit: 15 Min.

iX Magazin

Von

Prof. Christian Winkler

Machine Learning: Mixture of Experts-Strategie erklärt
- Mehr Informationen verlangsamen große Modelle
- Verringerte Genauigkeit und Modellquantisierung
Neue Ansätze und Sparse Mixture of Experts
Llama 3.1 vs. Mixtral 8x7B
Fazit

Artikel in iX 10/2024 lesen

Sprachmodelle wie ChatGPT, Llama oder Mistral kennen Antworten auf viele Fragen und formulieren gekonnt. Das ist allerdings teuer erkauft. Das Training ist äußerst aufwendig, und auch bei jeder einzelnen Nutzeranfrage fällt Rechenaufwand an, der nicht zu vernachlässigen ist. Der Ansatz Mixture of Experts versucht an diesen beiden Schrauben zu drehen und setzt auf verteiltes Wissen von mehreren Expertenmodellen, die sich in bestimmten Themen besser auskennen als andere Herangehensweisen, die ein monolithisches Modell als Universalgelehrten verwenden.

Die Grundaufgabe generativer Sprachmodelle besteht darin, zu einem vorhandenen Text eine Wahrscheinlichkeitsaussage für das jeweils nächste Wort zu treffen. Entscheidend ist dabei der Kontext des Textes, also die bereits bekannten Wörter. Ein längerer Kontext führt zu einem tieferen Verständnis und zu einer exakteren Vorhersage des nächsten Worts. Unterschiedliche Sprachmodelle unterscheiden sich im Umfang ihres Kontextes.

Bei klassischen Transformermodellen steigt der Trainingsaufwand quadratisch mit der Kontextlänge. Das Verarbeiten und Erstellen längerer Abschnitte benötigt auch mehr RAM in der GPU.
Soll so ein Sprachmodell Fragen aus verschiedenen Wissensdomänen beantworten können, muss es auf vielen Texten trainiert sein, die es allerdings bei jeder Anfrage durchläuft.
Die Mixture-of-Experts-Architektur (MoE) setzt auf Expertenmodelle für verschiedene Wissensdomänen. Ein Routermodell entscheidet, welche Teile des neuronalen Netzes Nutzeranfragen verarbeiten.
Sparse-MoE-Modelle lassen sich schneller trainieren als dichte Modelle und eignen sich besonders, wenn kurze Antwortzeiten erforderlich sind.

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Als Professor an der TH Nürnberg konzentriert sich seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

Eine Vergrößerung des Kontextes muss man sich teuer erkaufen. So steigt der Trainingsaufwand quadratisch mit der Kontextlänge, aber auch der Aufwand bei der Vorhersage von Wörtern hängt davon ab. Erschwerend kommt hinzu, dass längere Kontexte auch mehr RAM in der GPU erfordern. Daher versucht man, eine optimale Balance zwischen nötiger und hinreichender Kontextlänge zu finden. Modelle, die Texte fortsetzen können, werden als Foundation Models bezeichnet.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Wissensmanagement: Sich mit Anki an alles erinnern

Manche Menschen sind ein wandelndes Lexikon. Ihr Geheimnis: auswendig lernen. Genau das optimiert Anki. Wir zeigen, wie Sie mit der Software Wissen aufbauen.

Alternativen zu US-Clouddiensten: Überblick und Konfigurationstipps

US-Clouddienste spenden bereitwillig für den neuen US-Präsidenten. Damit das nicht auch für Ihre Daten gilt, zeigen wir welche Alternativen es gibt.

Fünf Office-Programme ohne Microsoft im Test

Datenhunger, Cloud-Gängelei, Copilot-Übergriffe – viele Gründe für einen Abschied von Microsoft Office. Wir vergleichen fünf Alternativen.

Freelancer-Studie 2025: Das verdienen IT-Freiberufler in Deutschland

Stagnierende Stundensätze bereiten Freiberuflern wirtschaftliche Sorgen. Aber IT-Freelancer sehen für 2025 auch Lichtblicke, zeigen zwei aktuelle Studien.

VW ID.7 Pro S Tourer im Test: Der bessere Passat

Der Start der ID-Reihe war ein Flop, mit dem ID.7 sollen alle groben Mängel behoben sein. Wie schlägt sich der elektrische Kombi im Test?

PV-Heimspeicher mit Netzstrom laden: Was möglich ist und ob es sich lohnt

Mit Heimspeicher und dynamischem Tarif könnte man sich günstigen Strom für teure Zeiten sichern. Dazu lastet man den Speicher besser aus. Das müssen Sie wissen.

Beliebte Bestenlisten

Alle bestenlisten

Top 10: Das beste Balkonkraftwerk mit 800 Watt im Test

Top 8: Die beste Wärmebildkamera fürs Handy im Test

Top 10: Der beste Mini-PC von Office bis Gaming im Test

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}