Dense Passage Retrieval: Neuronale Suche in Texten

Auf Sprachmodellen basierende Systeme verstehen semantische Unterschiede. Eines davon ist Dense Passage Retrieval.

Artikel verschenken

23.05.2023, 12:30 Uhr

Lesezeit: 21 Min.

iX Magazin

Von

Leon Marius Schröder
Leon Lukas
Clemens Gutknecht

Dense Passage Retrieval: Neuronale Suche in Texten
- TF-IDF
Dokumente als Punkte in hochdimensionalen Räumen
Von TF-IDF zu Sprachmodellen und DPR
Loss-Funktion bei Dense Passage Retrieval
Passagen aufteilen
Fazit

Artikel in iX 6/2023 lesen

Wer mehr über neuronale Suche erfahren will, muss aktuell einige fragmentierte Quellen und wissenschaftliche Papers in englischer Sprache wälzen. Dieser Artikel soll das zusammenführen und einen Einstieg in Dense Passage Retrieval (DPR) geben, ein solches neuronales Suchverfahren, das Dokumentensammlungen nach passenden Dokumenten durchsucht. Grundlegende Technik wie Tokenization, die Transformer-Architektur und Attention-Mechanismen beschreibt dieser Artikel nicht – diese Informationen sind im Internet aber leicht auffindbar.

Zusätzlich zu diesem Artikel zeigt ein Repository auf GitHub, wie sich diese Mathematik in Python-Code implementieren lässt.

Clemens Gutknecht ist Data Scientist/Engineer bei der BettercallPaul GmbH und spezialisiert auf Transformer-Modelle im Bereich NLP.

Leon Lukas ist Machine Learning Engineer im IT-Referat der Stadt München, dort entwickelt er Modelle und betreut KI-Projekte.

Leon Marius Schröder ist Freelancer, Informatiker, seit 2012 spezialisiert auf neuronale Netze und im Institute for Applied AI tätig.

Beim Verständnis von DPR hilft zunächst der Vergleich mit den weitverbreiteten Information-Retrieval-Systemen, die auf TF-IDF basieren. Da TF-IDF als gute Baseline dient und auch in der Ära der neuronalen Netze seine Daseinsberechtigung hat, folgt hier ein kurzer Abriss dieser Methode. Der Artikel erklärt nur die wesentlichen Punkte, die für den Vergleich mit DPR hilfreich sind.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wir zeigen, welche Smart-Home-Lösung sich für wen lohnt: Amazons Echo Hub für 200 Euro oder die kostenlose Smart-Home-Software Home Assistant.

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

GrapheneOS ist eine besondere Android-Spielart. Seine Bandbreite reicht von "sicher wie Fort Knox" bis "komfortabel vernetzt wie ein Google-Phone".

Innovative,Ai,Robot,Tutor,Helping,A,Teenage,Boy,With,Homework,

Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet

Sie möchten mit einem KI-Sprechtrainer eine Fremdsprache üben, dafür aber kein Abo abschließen? ChatGPT macht es möglich – sogar in der kostenlosen Version.

ChatGPT optimieren

OpenCore Legacy Patcher: Wie Sie alte Macs mit jungem macOS aufbrezeln

Äußerlich verschlissen, aber innen fit? Alte Macs kann man mit einem modernen macOS aufrüsten und weiternutzen, obwohl Apple das nicht vorsieht.

Hackintosh mit Sonoma bauen

Günstiges Display samt Einplatinencomputer für Bastelanfänger im Kurztest

Das "Cheap Yellow Display" samt ESP32 ist günstig und bereits verlötet. Bastler können es zum Informationen anzeigen oder zum Steuern des smarten Heims nutzen.

DNS-Leck: Browser ignorieren Windows-Konfiguration

Viele Browser und Anwendungen verschicken kritischen DNS-Verkehr ungeschützt am Betriebssystem vorbei, obwohl Windows diese Daten verschlüsseln soll.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wir zeigen, welche Smart-Home-Lösung sich für wen lohnt: Amazons Echo Hub für 200 Euro oder die kostenlose Smart-Home-Software Home Assistant.

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

GrapheneOS ist eine besondere Android-Spielart. Seine Bandbreite reicht von "sicher wie Fort Knox" bis "komfortabel vernetzt wie ein Google-Phone".

Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet

Sie möchten mit einem KI-Sprechtrainer eine Fremdsprache üben, dafür aber kein Abo abschließen? ChatGPT macht es möglich – sogar in der kostenlosen Version.

ChatGPT optimieren

OpenCore Legacy Patcher: Wie Sie alte Macs mit jungem macOS aufbrezeln

Äußerlich verschlissen, aber innen fit? Alte Macs kann man mit einem modernen macOS aufrüsten und weiternutzen, obwohl Apple das nicht vorsieht.

Hackintosh mit Sonoma bauen

Günstiges Display samt Einplatinencomputer für Bastelanfänger im Kurztest

Das "Cheap Yellow Display" samt ESP32 ist günstig und bereits verlötet. Bastler können es zum Informationen anzeigen oder zum Steuern des smarten Heims nutzen.

DNS-Leck: Browser ignorieren Windows-Konfiguration

Viele Browser und Anwendungen verschicken kritischen DNS-Verkehr ungeschützt am Betriebssystem vorbei, obwohl Windows diese Daten verschlüsseln soll.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Dense Passage Retrieval: Neuronale Suche in Texten

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet

OpenCore Legacy Patcher: Wie Sie alte Macs mit jungem macOS aufbrezeln

Günstiges Display samt Einplatinencomputer für Bastelanfänger im Kurztest

DNS-Leck: Browser ignorieren Windows-Konfiguration

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet

OpenCore Legacy Patcher: Wie Sie alte Macs mit jungem macOS aufbrezeln

Günstiges Display samt Einplatinencomputer für Bastelanfänger im Kurztest

DNS-Leck: Browser ignorieren Windows-Konfiguration

Spiele

Für alle unter 30: heise+ mit 50% Rabatt

Das digitale Abo für IT und Technik.