Semantische Suche über 500 Millionen Web-Dokumente
US-Forscher haben eine besonders gut skalierende Such-Software entwickelt, die die wichtigsten Fakten aus großen Datenmengen extrahieren kann.
Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden.
Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert, berichtet Technology Review in seiner Online-Ausgabe.
Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert.
"TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen – und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbstständig ermittelt."
Mehr zum Thema in Technology Review online:
(bsc)