Neuer Ansatz gegen "Lost in the middle"-Problem von Sprachmodellen

Sprachmodelle können lange Kontexte bisher nicht sehr gut verarbeiten. In der Regel fehlen Informationen aus der Mitte. Das soll sich bessern.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
A,Person's,Head,Covered,By,An,Ai-labeled,Dark,Cloud

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 2 Min.

Das Problem, dass Large Language Models (LLMs) gerne die Mitte eines ihnen zur Verfügung gestellten Textes beziehungsweise Kontextes überlesen, nennt sich "Lost in the middle". Informationen vom Anfang und vom Ende eines langen Kontextes sind bekannt, können verarbeitet werden, doch Informationen aus der Mitte fehlen einfach. Dieses Phänomen ist eines der größten Probleme großer Sprachmodelle – neben den Halluzinationen, also ausgedachten Informationen. Denn bisher gibt es auch keine wirkliche Lösung. Microsofts Forscher haben gemeinsam mit Wissenschaftlern der Universität Peking immerhin einen Ansatz, wie man das Problem minimieren könnte. Dafür muss ein Modell allerdings in eine Art zweites Training.

Die Idee nennen sie "INformation-INtensive (IN2) Training". Sie gehen von der Grundannahme aus, dass der Fehler im Training der Sprachmodelle liegt. Dabei werde nicht ausreichend überwacht, dass bei langen Kontexten überall entscheidende Informationen enthalten sein können und diese verarbeitet werden. IN2-Training nutzt nun ein langes, synthetisches Datenset (4K bis 32 K Tokens), in dem zufällig verteilt kurze Segmente (128 Tokens) steckten. Mit diesem wird ein Modell trainiert. In den kurzen Passagen steckten wiederum die wichtigen Informationen, nach denen dann gefragt wird. So schult man das Modell darauf, diese Teile aus der Mitte zu beachten. Dabei hat es Fragen gegeben, die sich auf ein einzelnes kurzes Segment bezogen und welche, für deren richtige Beantwortung mehrere Segmente wichtig waren.

Als Modell nutzten die Forscher das Open-Source-Modell Mistral-7B, das nach ihrem IN2-Training herausgekommene Modell nennen sie FILM-7B (FILI-in-the-middle). Überprüft wurden die Fähigkeiten mit Aufgaben aus den Bereichen Dokument, Code und strukturierter Datenkontext sowie auf Informationsabfragemuster, also verschiedene Abrufe. Laut der Forscher hat sich gezeigt, dass FILM-7B Informationen aus einem 32K Kontextfenster deutlich besser abrufen und auch lange Texte besser zusammenfassen kann. Aufgaben, für die nur ein kurzer Kontext nötig ist, verschlechtern sich dabei nicht im Vergleich zum ursprünglichen Modell.

Dennoch: Das "Lost in the middle"-Problem ist damit nicht komplett gelöst. Das zeigt sich auch in den im Paper veröffentlichten Benchmark-Ergebnissen. Noch sind 100 Prozent richtiger Antworten bei jeglichen Aufgaben nahezu illusorisch.

(emw)