Dense Passage Retrieval: Neuronale Suche in Texten
Auf Sprachmodellen basierende Systeme verstehen semantische Unterschiede. Eines davon ist Dense Passage Retrieval.
- Leon Marius Schröder
- Leon Lukas
- Clemens Gutknecht
Wer mehr über neuronale Suche erfahren will, muss aktuell einige fragmentierte Quellen und wissenschaftliche Papers in englischer Sprache wälzen. Dieser Artikel soll das zusammenführen und einen Einstieg in Dense Passage Retrieval (DPR) geben, ein solches neuronales Suchverfahren, das Dokumentensammlungen nach passenden Dokumenten durchsucht. Grundlegende Technik wie Tokenization, die Transformer-Architektur und Attention-Mechanismen beschreibt dieser Artikel nicht – diese Informationen sind im Internet aber leicht auffindbar.
Zusätzlich zu diesem Artikel zeigt ein Repository auf GitHub, wie sich diese Mathematik in Python-Code implementieren lässt.
Beim Verständnis von DPR hilft zunächst der Vergleich mit den weitverbreiteten Information-Retrieval-Systemen, die auf TF-IDF basieren. Da TF-IDF als gute Baseline dient und auch in der Ära der neuronalen Netze seine Daseinsberechtigung hat, folgt hier ein kurzer Abriss dieser Methode. Der Artikel erklärt nur die wesentlichen Punkte, die für den Vergleich mit DPR hilfreich sind.