Dense Passage Retrieval: Neuronale Suche in Texten

Auf Sprachmodellen basierende Systeme verstehen semantische Unterschiede. Eines davon ist Dense Passage Retrieval.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 21 Min.
Von
  • Leon Marius Schröder
  • Leon Lukas
  • Clemens Gutknecht
Inhaltsverzeichnis

Wer mehr über neuronale Suche erfahren will, muss aktuell einige fragmentierte Quellen und wissenschaftliche Papers in englischer Sprache wälzen. Dieser Artikel soll das zusammenführen und einen Einstieg in Dense Passage Retrieval (DPR) geben, ein solches neuronales Suchverfahren, das Dokumentensammlungen nach passenden Dokumenten durchsucht. Grundlegende Technik wie Tokenization, die Transformer-Architektur und Attention-Mechanismen beschreibt dieser Artikel nicht – diese Informationen sind im Internet aber leicht auffindbar.

Zusätzlich zu diesem Artikel zeigt ein Repository auf GitHub, wie sich diese Mathematik in Python-Code implementieren lässt.

Mehr zu KI-Tools
Clemens Gutknecht

Clemens Gutknecht ist Data Scientist/Engineer bei der BettercallPaul GmbH und spezialisiert auf Transformer-Modelle im Bereich NLP.

Leon Lukas

Leon Lukas ist Machine Learning Engineer im IT-Referat der Stadt München, dort entwickelt er Modelle und betreut KI-Projekte.

Leon Marius Schröder

Leon Marius Schröder ist Freelancer, Informatiker, seit 2012 spezialisiert auf neuronale Netze und im Institute for Applied AI tätig.

Beim Verständnis von DPR hilft zunächst der Vergleich mit den weitverbreiteten Information-Retrieval-Systemen, die auf TF-IDF basieren. Da TF-IDF als gute Baseline dient und auch in der Ära der neuronalen Netze seine Daseinsberechtigung hat, folgt hier ein kurzer Abriss dieser Methode. Der Artikel erklärt nur die wesentlichen Punkte, die für den Vergleich mit DPR hilfreich sind.