Machine Learning: Facebooks RAG schlägt vor dem Antworten bei Wikipedia nach

Das Retrieval-Augmented-Generation-Modell verbindet ein seq2seq-Modell mit dem Auffinden von Dokumenten, die zum Thema passen.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Machine Learning: Facebooks RAG schlägt vor dem Antworten bei Wikipedia nach
Lesezeit: 3 Min.

In Zusammenarbeit mit Hugging Face hat Facebook unter dem Namen Retrieval Augmented Generation (RAG) ein Modell veröffentlicht, das zwei wesentliche Ansätze des Natural Language Processing (NLP) kombiniert: das Auffinden von Dokumenten über Document Retrieval und die Umsetzung von Inhalten über seq2seq.

Die Kombination der Techniken findet sich im Namen des Modells: Das Nachschlagen (Retrieval) verbessert oder augmentiert (Augmented) das Erzeugen (Generation) von Text. RAG ist ab sofort als eine Komponente für Transformers von Hugging Face verfügbar, einem Open-Source-Projekt für NLP im Zusammenspiel mit Facebooks PyTorch und Googles TensorFlow 2.0.

seq2seq-Modelle übertragen eine Sequenz in eine andere. Der Name steht für "Sequence to Sequence". Im Bereich des NLP kommen die Modelle unter anderem für die maschinelle Übersetzung, das Zusammenfassen von Texten und in Konversationsmodellen zum Einsatz. Für die Umsetzung nutzt RAG Facebooks Bidirectional and Auto-Regressive Transformers (BART) – also vom Akronym her Simpsons statt Sesamstraße, aber leicht zu verwechseln mit dem ebenfalls auf NLP zugeschnittenen Bidirectional Encoder Representations from Transformers (BERT), den Google initiiert hat.

RAG schlägt zunächst Informationen zu den Romanen Hemmingways nach, ...

(Bild: Facebook)

... um eine passende Aussage zu formulieren, die beide Romane kombiniert.

(Bild: Facebook)

RAG arbeitet grundsätzlich wie andere seq2seq-Modelle, greift allerdings als Zwischenschritt auf das Dense-Passage-Retrieval-System (DPR) von Facebook zurück, um passende Dokumente zu finden, deren Inhalt es für die Ausgabe nutzt. Der Blogbeitrag zum Veröffentlichen des Modells nennt als Beispiel die Frage "When did the first mammal appear on Earth?" – "Wann erschien auf der Erde das erste Säugetier?"

Für die passende Antwort nutzt das RAG-Modell beispielsweise Wikipedia, um Informationen zu "Säugetier", "Geschichte der Erde" und "Evolution der Säugetiere" nachzuschlagen. Die Ergebnisse verbindet RAG mit der Eingabe und füttert das Ergebnis in das seq2seq-Modell, das schließlich die Ausgabe erzeugt. Freilich lassen sich statt Wikipedia andere Quellen für die Informationssuche verwenden.

Die gefundenen Dokumente geben dem Modell somit bessere Hinweise auf die Antwort. Der Blogbeitrag spricht von einer Kombination aus dem parametrischen "Closed Book"-Ansatz von seq2seq, der in der geschlossenen Textwelt bleibt mit dem abfragegetriebenen "Open Book"-Ansatz von Dense Retrieval.

Schließlich gibt RAG Vorhersagen für die Treffsicherheit der Paarungen aus Fragen und Dokumenten und nutzt dafür das aus allen Dokumenten herangezogene Wissen. Ein Scoring-System soll vor der Ausgabe die am ehesten zutreffende Antwort ermitteln.

Im Stil von Jeopardy soll das Modell eine zur Antwort passende Frage finden. Die Ausgabe zeigt die vier Ergebnisse mit dem höchsten Score.

(Bild: Facebook)

Weitere Details zum Retrieval-Augmented-Generation-Modell lassen sich dem KI-Blog bei Facebook entnehmen.

(rme)