Machine Learning: Mixture of Experts-Strategie erklärt
Damit LLMs nicht bei jeder Anfrage alle Parameter verschiedener Wissensbereiche durchlaufen, setzt die Mixture-of-Experts-Architektur auf Spezialistenmodelle.
- Prof. Christian Winkler
Sprachmodelle wie ChatGPT, Llama oder Mistral kennen Antworten auf viele Fragen und formulieren gekonnt. Das ist allerdings teuer erkauft. Das Training ist äußerst aufwendig, und auch bei jeder einzelnen Nutzeranfrage fällt Rechenaufwand an, der nicht zu vernachlässigen ist. Der Ansatz Mixture of Experts versucht an diesen beiden Schrauben zu drehen und setzt auf verteiltes Wissen von mehreren Expertenmodellen, die sich in bestimmten Themen besser auskennen als andere Herangehensweisen, die ein monolithisches Modell als Universalgelehrten verwenden.
Die Grundaufgabe generativer Sprachmodelle besteht darin, zu einem vorhandenen Text eine Wahrscheinlichkeitsaussage für das jeweils nächste Wort zu treffen. Entscheidend ist dabei der Kontext des Textes, also die bereits bekannten Wörter. Ein längerer Kontext führt zu einem tieferen Verständnis und zu einer exakteren Vorhersage des nächsten Worts. Unterschiedliche Sprachmodelle unterscheiden sich im Umfang ihres Kontextes.
- Bei klassischen Transformermodellen steigt der Trainingsaufwand quadratisch mit der Kontextlänge. Das Verarbeiten und Erstellen längerer Abschnitte benötigt auch mehr RAM in der GPU.
- Soll so ein Sprachmodell Fragen aus verschiedenen Wissensdomänen beantworten können, muss es auf vielen Texten trainiert sein, die es allerdings bei jeder Anfrage durchläuft.
- Die Mixture-of-Experts-Architektur (MoE) setzt auf Expertenmodelle für verschiedene Wissensdomänen. Ein Routermodell entscheidet, welche Teile des neuronalen Netzes Nutzeranfragen verarbeiten.
- Sparse-MoE-Modelle lassen sich schneller trainieren als dichte Modelle und eignen sich besonders, wenn kurze Antwortzeiten erforderlich sind.
Eine Vergrößerung des Kontextes muss man sich teuer erkaufen. So steigt der Trainingsaufwand quadratisch mit der Kontextlänge, aber auch der Aufwand bei der Vorhersage von Wörtern hängt davon ab. Erschwerend kommt hinzu, dass längere Kontexte auch mehr RAM in der GPU erfordern. Daher versucht man, eine optimale Balance zwischen nötiger und hinreichender Kontextlänge zu finden. Modelle, die Texte fortsetzen können, werden als Foundation Models bezeichnet.
Das war die Leseprobe unseres heise-Plus-Artikels "Machine Learning: Mixture of Experts-Strategie erklärt". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.