Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 4

Der letzte Teil der Serie betrachtet Reasoning-Modelle und gibt einen Ausblick auf die mögliche Zukunft der LLMs.

1

Blick unter die Motorhaube

(Bild: generated by DALL-E)

21.03.2025, 09:16 Uhr

Lesezeit: 6 Min.

Developer

Von

Dr. Michael Stal

Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 4

Ein Large Language Model (LLM) ist darauf ausgelegt, menschliche Sprache zu verarbeiten und zu generieren. Nach der grundlegenden Einführung von LLMs im ersten, den Hardwareanforderungen und vorab trainierten Modellen im zweiten sowie den Architekturtypen im dritten Teil geht es zum Abschluss um Reasoning-Modelle.

Prof. Dr. Michael Stal arbeitet seit 1991 bei Siemens Technology. Seine Forschungsschwerpunkte umfassen Softwarearchitekturen für große komplexe Systeme (Verteilte Systeme, Cloud Computing, IIoT), Eingebettte Systeme und Künstliche Intelligenz. Er berät Geschäftsbereiche in Softwarearchitekturfragen und ist für die Architekturausbildung der Senior-Software-Architekten bei Siemens verantwortlich.

Fasten your seat belts!

Als LLMs denken lernten

Wer moderne LLMs wie Deepseek R1 oder OpenAI o3 nutzt, dürfte öfter Ausgaben wie "thinking" oder "reasoning" zu Gesicht bekommen. Das Sprachmodell ist also in der Lage, strukturiert und systematisch auf eine Anfrage zu reagieren. Daher nennt man sie Reasoning-Modelle.

Argumentationen beziehungsweise Schlussfolgerungen in Large Language Models werden durch verschiedene Techniken umgesetzt, die ihre Fähigkeit verbessern, komplexe Probleme in handhabbare Schritte zu zerlegen und logische Erklärungen zu liefern. Zu den wichtigsten Methoden gehören:

Chain-of-Thought-Prompting (CoT) beinhaltet das Training von LLMs, damit diese schrittweise Erklärungen für ihre Antworten generieren, was ihnen hilft, menschenähnliche Denkprozesse zu imitieren.
Supervised Fine-Tuning (SFT) und Reinforcement Learning: Techniken wie STaR (Self-Taught Reasoner) verwenden Reinforcement Learning, um Modelle für die Generierung korrekter Argumentationsschritte zu belohnen, die sich dann für das SFT verwenden lassen.
Prompt-Engineering: Strategien wie Active Prompt und Chain of Thought setzen LLM-Entwickler ein, um Argumentation von LLMs zu fördern, indem das LLM die Eingabe so strukturiert, dass es in der Lage ist, schrittweise zu "denken".

Lesen Sie auch

Wer, wie, was: Textanalyse über Natural Language Processing mit BERT

Machine Learning und KI: Das Programm der Minds Mastering Machines 2025 steht

KI-generiertes Bild zeigt Chatbot mit China-Flagge

DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1

Diese Methoden zielen darauf ab, die Fähigkeit von LLMs zur Argumentation zu verbessern und transparente Denkprozesse bereitzustellen, obwohl Experten den Umfang, in dem sie tatsächlich argumentieren, weiterhin diskutieren.

Chain-of-Thought-(CoT)-Prompting verbessert die Argumentationsfähigkeiten von Large Language Models, indem es sie dazu anregt, komplexe Aufgaben in eine Reihe logischer Schritte zu zerlegen. Dieser Ansatz spiegelt menschliches Denken wider und ermöglicht es Modellen, Probleme systematischer und transparenter anzugehen. Zu den wichtigsten Vorteilen gehören:

Verbesserte Genauigkeit: Durch die Konzentration auf einen Schritt nach dem anderen können LLMs genauere Ergebnisse liefern, insbesondere bei komplexen Aufgaben wie mathematischem Problemlösen und logischem Denken.
Verbesserte Erklärbarkeit: CoT-Prompts bieten einen klaren Einblick in die Art und Weise, wie das Modell zu seinen Schlussfolgerungen gelangt, was das Vertrauen und das Verständnis für AI-Ausgaben verbessert.
Reduzierte Halluzinationen: Durch die Führung des Modells mit strukturierten Argumentationsschritten hilft CoT-Prompting, Fehler und Halluzinationen in den Antworten von LLMs zu reduzieren.

Fazit: Die Zukunft der LLMs

Große Sprachmodelle haben das Feld der natürlichen Sprachverarbeitung revolutioniert und ermöglichen Anwendungen wie Sprachübersetzung, Textzusammenfassung und Chatbots. Die Zukunft der LLMs ist aufregend, mit möglichen Anwendungen in Bereichen wie Bildung, Gesundheitswesen und Unterhaltung.

Eine innovative Lösung ist die Einführung von MoE-Verfahren (MoE = Mixture of Experts) in LLMs. Diese Modelle bestehen aus LLM-Komponenten, von denen jedes auf einer gewissen Domäne spezialisiert ist. Durch einen Gating-Mechanismus leitet das Modell Benutzeranfragen an die jeweils passende LLM-Komponente weiter.

Unter Agentic AI sind LLM-Agenten zu verstehen, die in der Lage sind, auf ihre Umgebung zuzugreifen, etwa um Funktionen zu starten oder die UI zu bedienen.

Multi-Agent-Systeme enthalten unterschiedliche LLM-Agenten, die ihrerseits verschiedene Rollen innehaben und miteinander agieren, um eine gemeinsame Aufgabe zu lösen, was an das bereits genannte Mixture of Experts erinnert.

Inzwischen sind auch immer mehr multimodale Modelle verfügbar, die neben Text auch Bilder, Videos, Audios oder Symbole verstehen und/oder generieren können. Vision-Modellen kann man ein Bild vorlegen, um danach Fragen zu dem Bild zu stellen. Einige Modelle erlauben die Eingabe von Prompts über gesprochene Sprache statt über Text. Modelle wie OpenAI Sora generieren realistische Videos aus Sprach-Prompts. Midjourney, DALL-E und ähnliche Modelle können Bilder aus Benutzeranforderungen (Prompts) erzeugen. Die Architektur der Modelle ähnelt der in diesem Artikel vorgestellten Architektur sehr stark. Nur dass die Modelle neben Text-Tokens auch andere Elemente wie Pixelsegmente verarbeiten und generieren können.

In Anbetracht dieser rasanten Entwicklung ist es essenziell, sich als Entwicklerin oder Nutzer intensiv mit dem Thema LLM und Generative AI zu beschäftigen. Ebenso wichtig sollte es sein, die neuen LLM-Technologien kritisch zu hinterfragen, speziell was ihre Auswirkungen auf unser Leben und unsere Gesellschaft betrifft. Das gilt insbesondere in Bezug auf ethische Grundsätze und Werte. Nur wer die Technologien kennt und versteht, kann die Chancen und Risiken einschätzen und abwägen.

Zusätzliche Ressourcen

Für diejenigen, die mehr über LLMs erfahren möchten, sind hier einige zusätzliche Ressourcen:

Das berühmte "Attention-Is-All-You-Need"-Paper, das die heutige Architektur von LLMs begründet hat.
Hugging Face Transformers: Eine beliebte Bibliothek für die Erstellung und Verwendung von LLMs.
BERT: Ein vorab trainiertes Modell, das einen mehrschichtigen bidirektionalen Transformer-Encoder verwendet, um kontextualisierte Darstellungen von Wörtern im Eingabetext zu generieren.
RoBERTa: Ein vorab trainiertes Modell, das eine modifizierte Version der BERT-Architektur und ein anderes Trainingsziel verwendet.
XLNet: Ein vorab trainiertes Modell, das eine Kombination von Autoencoding- und autoregressiven Techniken einsetzt, um kontextualisierte Darstellungen von Wörtern im Eingabetext zu generieren.
Die Stanford Natural Language Processing Group: Eine Forschungsgruppe, die sich auf die Entwicklung und Anwendung von LLMs für verschiedene NLP-Aufgaben konzentriert.

Glossar

Hier ist ein Glossar einiger der in dieser Artikelserie verwendeten Begriffe:

LLM: Large Language Model
Tokenizer: Eine Komponente, die den Eingabetext in kleinere Einheiten namens Token zerlegt.
Embeddings: Numerische Darstellungen von Wörtern, Subwörtern oder Zeichen, die die semantische Bedeutung erfassen.
Encoder: Eine Komponente, die eine kontinuierliche Darstellung des Eingabetextes generiert.
Decoder: Eine Komponente, die Text basierend auf der Eingabe und der kontextualisierten Darstellung generiert.
Self-Attention: Ein Mechanismus, der es dem Modell ermöglicht, auf verschiedene Teile des Eingabetextes zu achten und eine kontextualisierte Darstellung zu generieren.
Cross-Attention: Ein Mechanismus, der es dem Modell ermöglicht, auf externe Informationen zu achten, z. B. den Eingabetext oder andere Modelle.
Vorab trainierte Modelle: Modelle, die ihre Schöpfer auf großen Datensätzen trainiert und für spezifische Aufgaben feinabgestimmt haben.
Kontextfenster: Die Menge an Eingabetext, die das Modell zu einem bestimmten Zeitpunkt betrachten kann.
Masken: Mechanismen, die das Modell daran hindern, auf bestimmte Teile des Eingabetextes zu achten.

(rme)