Suchmaschinenforscher ausgezeichnet

Die Suchtechnik von Holger Bast kombiniert Volltextsuche mit Semantik.

In Pocket speichern vorlesen Druckansicht 16 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Monika Ermert

Google ist gut, CompleteSearch will ein bisschen besser sein. Die von der Forschungsgruppe Informationssysteme und angewandte Algorithmik am Max-Planck-Institut für Informatik (MPI) entwickelte Suchtechnik erlaubt eine Kombination aus semantischer und Volltextsuche und liefert, etwa für die drei Millionen Einträge des englischen Wikipedia, innerhalb weniger Millisekunden nach Subklassen geordnete Treffer für Begriffe und Begriffskombinationen, und das bereits auf der Basis eingegebener Präfixe.

Einen "Suche"-Knopf sucht man bei CompleteSearch vergeblich. Mit jedem eingegebenen Teilwort errechnet die Suchmaschine die Trefferschnittmenge neu. Dem Kopf der Forschergruppe, dem bereits für seine Arbeiten zu intelligenten Navigationssystemen ausgezeichneten Holger Bast, verleiht die Alcatel-Lucent-Stiftung heute ihren Forschungspreis Technische Kommunikation für die Arbeiten zur "intelligenten Suche in großen Datenbeständen"

Die Suchmaschine hinter CompleteSearch verbindet die klassische Volltextsuche der großen Suchmaschinen wie etwa Google mit einer "intelligenten" semantische Suche. Diese erlaubt, nicht nur nach dem Vorkommen von Wörtern und Wortkombinationen in Dokumenten, sondern auch nach "Instanzen" des jeweiligen Suchbegriffs zu suchen. Statt zum Beispiel beim Suchpaar "Beatles-Musician" nur die Schnittmenge der jeweils dafür indizierten Dokumente aufzulisten, liefert CompleteSearch vielmehr gleich noch eine Liste der vier Pilzköpfe, angeordnet nach der Anzahl der Treffer für jeden einzelnen. Gestützt haben sich Bast und seine Kollegen auch auf die Ontologie Yago, die Klassen, Subklassen und weitere Datenrelationen für die semantische Suche liefert.

Trotz der Kombination von semantischer und klassischer Volltextsuche ist CompleteSearch laut Bast sehr schnell. Die Bedienoberfläche liefert neben den Toptreffern auch Trefferzahlen zu verschiedenen Kategorien. Die Indexierung von Präfixen erlaubt der Suchmaschine, Ergebnisse bereits während der Eingabe aufzulisten, wie bei Google Suggest. Praktisch eingesetzt wird CompleteSearch vorerst bevorzugt für dezidierte große Datenbestände, etwa eine Sammlung fachärztlicher Enzyklopädien, für den Bibliotheksbestand seines Fachbereichs und das zentrale Literaturverzeichnis der Informatik, die DBLP. Geplant ist auch der Einsatz für die interne Suche über das Intranet der hessischen Polizei. (Monika Ermert) / (jo)