Neuronale Suche in Texten
Statt Urlaubsantrag steht im Formular Antrag auf Urlaub und schon stoßen Information-Retrieval-Systeme auf Probleme. Auf Sprachmodellen basierende Systeme verstehen hingegen semantische Unterschiede. Eines davon ist Dense Passage Retrieval.
Wer mehr über neuronale Suche erfahren will, muss aktuell einige fragmentierte Quellen und wissenschaftliche Papers in englischer Sprache wälzen. Dieser Artikel soll das zusammenführen und einen Einstieg in Dense Passage Retrieval (DPR) geben, ein solches neuronales Suchverfahren, das Dokumentensammlungen nach passenden Dokumenten durchsucht. Grundlegende Technik wie Tokenization, die Transformer-Architektur und Attention-Mechanismen beschreibt dieser Artikel nicht – diese Informationen sind im Internet aber leicht auffindbar (siehe ix.de/z272).
Zusätzlich zu diesem Artikel zeigt ein Repository auf GitHub, wie sich diese Mathematik in Python-Code implementieren lässt (siehe ix.de/z272). Ein Folgeartikel im iX Special 2023 „Künstliche Intelligenz“, das Mitte Juni erscheint, zeigt, wie man mit dem resultierenden Modell in Kombination mit dem Framework Haystack Annotation Tool ein produktionstaugliches neuronales Suchsystem aufbaut. Zusätzlich wird dann ein Datensatz veröffentlicht, der zusammen mit der Landeshauptstadt München entwickelt wurde.