RAG mit deutschsprachigen Embedding-Modellen aufsetzen

RAG soll Dokumente gezielt und mit geringer Fehlerrate durchsuchen. Schon bei der Wahl des Embedding-Modells lassen sich wichtige Weichen stellen.

Artikel verschenken
vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 14 Min.
Von
  • Danny Gerst
Inhaltsverzeichnis

Retrieval Augmented Generation (RAG) hat sich als Methode etabliert, große Sprachmodelle (LLMs) effizient mit zusätzlichen Wissensbeständen zu verknüpfen und Antworten auf komplexe Fragen zu generieren. Während viele Implementierungen auf englischen oder mehrsprachigen Embedding-Modellen basieren, bietet der Einsatz spezialisierter, sprachoptimierter Modelle das Potenzial, die Leistung eines RAG-Systems zu verbessern. Insbesondere, wenn die durchsuchten Inhalte in einer bestimmten Sprache wie Deutsch verfasst sind.

RAG-Systeme nutzen die Fähigkeit großer Sprachmodelle, basierend auf vorgegebenen Inhalten im Prompt neue Schlüsse zu ziehen – dieser Prozess heißt In-Context Learning. In einem RAG-System speichert man zu durchsuchende Daten und Dokumente in der Regel als Vektoren in einer Vektordatenbank. Die Vektoren bilden hierbei die Semantik der zugrunde liegenden Information ab.

iX-tract
  • Der Einsatz eines auf Deutsch trainierten Embedding-Modells für ein RAG-System kann die Präzision des Information Retrieval bei deutschen Inhalten erheblich steigern.
  • Durch Feintuning auf den eigenen Anwendungsfall mit eigenen Daten lässt sich die Retrieval-Leistung nochmals verbessern.
  • Da Embedding-Modelle oft Schwierigkeiten mit unbekannten Daten haben, ist es wichtig, sie im produktiven Einsatz zu testen und sich nicht ausschließlich auf Benchmark-Ergebnisse zu verlassen.

Um die Vektoren zu erstellen, unterteilt man Dokumente in kleinere Abschnitte (Chunking) und codiert sie zusammen mit Metadaten in die Vektoren. Stellt der Benutzer eine Frage an das RAG-System, durchsucht das System die Vektordatenbank nach zur Anfrage passenden Vektoren, die für die Antwort relevante Inhalte repräsentieren (Retrieval). Die gefundenen Dokumente übergibt das RAG-System anschließend zusammen mit der ursprünglichen Frage als Prompt an ein KI-Sprachmodell, das auf dieser Grundlage eine Antwort generiert.

Das war die Leseprobe unseres heise-Plus-Artikels "RAG mit deutschsprachigen Embedding-Modellen aufsetzen". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.