KI Navigator #8: GenAI-Mogelpackung Reflection Llama
Der Trubel um eine vermeintliche Sensation zeigt, wie schwer es ist, mit der schnellen Entwicklung bei GenAI Schritt zu halten, meint Christian Winkler.

(Bild: erstellt mit KI (Dall-E) von iX-Redaktion)
- Prof. Christian Winkler
Generative KI ist das Hype-Thema schlechthin, ständig gibt es neue Modelle, Technologien und Durchbrüche. Bei dieser hohen Schlagzahl ist es schwierig, jederzeit auf dem aktuellen Stand zu bleiben.
Schlag auf Schlag
Am Anfang der rasanten GenAI-Entwicklung stand GPT, dann folgten offene Modelle wie Llama und Mistral. Schließlich kamen die Modelle in unterschiedliche Größen daher, mit unterschiedlichen Fähigkeiten wie multimodal oder mehrsprachig und mit verschiedenen Architekturen: dichte Modelle, Mixture of Experts und weitere Ansätze. Hinzu kommen neue Modelle wie Phi-3.5 von Microsoft, Qwen von Alibaba und der von Nivida trainierter Llama-Abkömmling Nemotron. In dem Dschungel den Überblick zu behalten, ist nahezu unmöglich.
Erschwerend kommt hinzu, dass fast alle Modelle in unterschiedlichen Quantisierungsstufen existieren, es also Varianten mit geringerer Bit-Anzahl gibt, die für kleinere Grafikkarten oder gar CPU optimiert sind. Und bei diesen Quantisierungsverfahren gibt es auch wieder mehrere Varianten: GPTQ, AWQ, HQQ, 1,58 bit. In dieses Rennen ist Meta nun eingestiegen und bietet die kleinen Llama-Modelle in einer eigenen Quantisierung an, die wohl noch weiter optimiert sind – die von Meta gezeigten guten Ergebnisse müssen jedoch erst noch verifiziert werden.
Auch wenn die meisten Unternehmen seriös arbeiten, spielt das Marketing eine nicht zu unterschätzende Rolle. Dass nicht immer alles stimmt, was veröffentlicht wird, zeigt die Geschichte von Reflection Llama.
Als Sensation gefeiert: Reflection Llama
Am 6. September 2024 verkĂĽndete eine Meldung auf X (ehemals Twitter) eine Sensation. Der bis dahin wenig in Erscheinung getretene Matt Shumer meldete, dass er eine neue Technik fĂĽr das Feintuning von Sprachmodellen entwickelt hat, die er Reflection getauft hat.
Das mit diesem Verfahren aus dem offenen Llama-Modell (70b) erzeugte Modell sei besser als jedes andere Open-Source-Modell, verkündete er stolz. Dieselbe Technik wolle er auf das Lllama-Modell mit 405 Milliarden Parametern anwenden und erwarte, dass es das beste Modell überhaupt werde – also auch besser als die GPT-Modelle von Open AI. Zum Beweis stellte er einen Service zur Verfügung und lud die Gewichte des Llama-Modells auf Hugging Face hoch.
Die Begeisterung war groß, und der Tweet kommt auf über drei Millionen Aufrufe. Der Service funktionierte sehr gut und gab exzellente Antworten. Dass diese von dem auf Hugging Face stehenden Modell nicht direkt reproduziert werden konnten, war zwar etwas merkwürdig, aber LLMs geben aufgrund des Hyperparameters Temperatur, der die Zufälligkeit steuert, nicht immer die gleichen Antworten. Nachdem sich die Community unter anderem auf Reddit unterschiedliche Prompts und Aufgaben angesehen hatte, wuchs die Skepsis.
Fassade statt intelligentem Feintuning
Einige Experten kamen auf die Idee, den Service zu fragen, welches Modell sich dahinter verbirgt. Das Ergebnis war eindeutig: Es war Claude Sonnet 3.5. Shumer hatte also gar kein eigenes Modell mit der revolutionären Reflection-Methode feingetunt, sondern nur eine Fassade vor einen existierenden (guten) Service gebaut.
Die Diskussion setzte sich dann fort, weil noch nicht klar war, was das auf Hugging Face geladene Llama-Reflection-Modell tatsächlich konnte. Hier gibt es nur Vermutungen, aber aufgrund der Antworten auf bestimmte Fragen kann man folgern, dass das Modell auf dem (veralteten) Llama 3.0 beruht, das Shumer mit herkömmlichen Feintuning-Methoden optimiert hat.
Zusätzlich hat er neue Tags eingeführt wie <thinking>
, <reflection>
und <output>
, was durchaus sinnvoll ist und auch in anderen Modellen genutzt wird. Genau das machte es anfangs auch schwierig, den Schwindel zu erkennen.
Eine genaue Analyse der Vorgänge findet sich auf der DataCamp-Website.
Zu schnell, um Schritt zu halten
Wie konnte das passieren? Schuld sind wohl vor allem die extrem schnellen Entwicklungen im Bereich der Sprachmodelle. Selbst Experten fällt es schwer, hier Schritt zu halten und die Modelle zu überprüfen. Hilfe kann die Community geben, weil hier viele Fachleute zusammenarbeiten und gemeinsam in Diskussionen Erkenntnisse gewinnen.
Neben den Online-Diskussionen lassen sich solche Unterhaltungen besonders gut auch offline führen. Gelegenheit dazu bietet die von DOAG, heise medien und de’ge’pol ausgerichtete Konferenz KI Navigator in Nürnberg am 20. und 21. November 2024.
(rme)