Sinnsuche im Internet

Nach fünf Jahren endet das große IT-Forschungsprogramm "Theseus". Es soll Informationen mithilfe sogenannter semantischer Technologien leichter auffindbar machen – und greift damit auch Google an.

vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 9 Min.
Von
  • Christian Buck
Inhaltsverzeichnis

Nach fünf Jahren endet das große IT-Forschungsprogramm "Theseus". Es soll Informationen mithilfe sogenannter semantischer Technologien leichter auffindbar machen – und greift damit auch Google an.

Wie viele Einwohner hat Hamburg? Tippt man diese Frage bei Google ein, bekommt man statt einer klaren Antwort eine Liste von drei Millionen Webseiten, in denen "Hamburg" und "Einwohner" vorkommen. Die gesuchte Information darf sich der Nutzer dann – meist aus einem Fließtext – selber herausfischen. Die neue Suchmaschine "Alexandria" antwortet hingegen schlicht "1770629". Die Software hat also verstanden, dass eine ganz bestimmte Eigenschaft der Hansestadt gesucht wird, und sie gibt genau diese Information aus.

Alexandria ist ein Teilergebnis des IT-Forschungsprogramms "Theseus", an dem sich neben dem Bundeswirtschaftsministerium rund 60 Partner aus Forschung und Wirtschaft beteiligt haben. Ihr Ziel: den Zugang zu Informationen vereinfachen, Daten zu neuem Wissen verknüpfen und neue Dienstleistungen im Internet ermöglichen. Dafür flossen zwischen 2007 und 2012 rund 100 Millionen Euro Fördergelder, weitere 100 Millionen steuerte die Wirtschaft bei, darunter Schwergewichte wie SAP und Siemens. Bis heute kann Theseus auf rund 50 Patente, 800 Publikationen und etwa 130 laufende Systeme verweisen. Damit war Theseus eines der größten IT-Forschungsprojekte aller Zeiten.

Ob die Qualität der Ergebnisse ebenfalls rekordverdächtig ist, lässt sich schwer beurteilen. Zum einen sind praktisch alle einschlägigen Forscher in Deutschland mit dem Projekt verbandelt, sodass sich hierzulande kaum Experten für eine unabhängige Einschätzung finden lassen. Zum anderen richten sich die meisten Teilprojekte nicht an private Nutzer, sondern dienen professionellen Informationssystemen, zum Beispiel Archiven. Deshalb lassen sie sich nicht so einfach ausprobieren.

Eine Ausnahme bildet die Suchmaschine Alexandria, bei der sich jeder selbst von den Fortschritten der semantischen Technologien überzeugen kann. Dahinter steckt die Idee, Informationen so zu verknüpfen, dass Computer ihren Sinn "verstehen". Bei Alexandria analysiert ein Algorithmus zunächst, welche Objekte und Beziehungen die Frage enthält. Bei der Sucheingabe "Wo wurde Angela Merkel geboren?" wären dies eine Person, ein Ort sowie die Relation "wurde geboren in". Im nächsten Schritt sucht die Software in ihrer Datenbank das Objekt "Angela Merkel" und überprüft, ob es über die Relation "wurde geboren in" mit einem anderen Objekt (einer Stadt) verknüpft ist. Aus diesem Fundus spuckt die Suchmaschine dann die richtigen Antworten aus – in diesem Fall "Hamburg" und "Deutschland".

Derzeit ist der Wissensschatz von Alexandria noch beschränkt auf Orte, Personen und Organisationen. Die Daten stammen aus DBpedia (eine Datenbank, die Fakten aus Wikipedia-Artikeln extrahiert), Freebase (eine ähnliche Datenbank, die Google 2010 gekauft hat), der Geografie-Datenbank GeoBase sowie rund 1000 deutschsprachigen Nachrichtenseiten im Internet. Zudem können auch Nutzer Informationen beisteuern.

Die Daten sind so fein differenziert, dass sie auch komplexe Relationen abbilden – etwa wer mit wem von wann bis wann verheiratet war. Die Auflösung von Zweideutigkeiten beherrscht die Suchmaschine ebenfalls – sie kann beispielsweise die Sängerin Sarah Connor von der gleichnamigen Filmfigur unterscheiden. Selbst Aussagen in direkter oder indirekter Rede erkennt die Software als solche, verspricht die Berliner Softwarefirma Neofonie, die Alexandria entwickelt hat. Was in der Theorie schön klingt, führt in der Praxis schnell zu Ernüchterung.

Schon eine schlichte Kleinschreibung überfordert Alexandria: Die Eingabe "wie viele einwohner hat hamburg?" führt nur zu einem Sammelsurium von Links. Auf die Frage "Wo hat Angela Merkel studiert?" weiß Alexandria trotz korrekter Schreibung keine Antwort – dabei ist Leipzig als Studienort sogar auf der Alexandria-Karteikarte zu Merkel verzeichnet. Auch das Verständnis der Fragen funktioniert mehr schlecht als recht. "Welche Religion hat Angela Merkel?" beantwortet Alexandria noch korrekt – fragt der Nutzer stattdessen nach "Konfession", muss die Suchmaschine passen.

Entsprechend groß war die Kritik einzelner Nutzer, als Alexandria im Februar online ging – schließlich wurde die Suchmaschine regelmäßig als Highlight des ganzen Theseus-Projekts hervorgehoben. Die Entwickler von Alexandria relativieren diesen Anspruch: Das Projekt solle lediglich zeigen, was mit der semantischen Suche im Prinzip möglich sei. Vor allem fehlende Server-Kapazität bremse Alexandria aus, sagt Neofonie-Entwickler Florian Kuhlmann. Deshalb wolle man künftig verstärkt auf die Rechenleistung der Cloud setzen.

Die ersten Nutzer der Alexandria-Technologie sind die Online-Redakteure des "Stern". Sie suchen damit in ihrem Archiv nach verwandten Artikeln zu einem Thema und erzeugen daraus per Knopfdruck Themen-Specials. Das dürfte in Zukunft Schule machen: "Wir werden wegkommen von Informationen, die in Fließtext-Dokumenten versteckt sind", sagt Professor Stefan Decker, der das Digital Enterprise Research Institute im irischen Galway leitet. Semantische Suchmaschinen könnten darum "durchaus das Geschäftsmodell von Google bedrohen". Allerdings will Google das Feld nicht kampflos räumen: Die Kalifornier arbeiten ebenfalls an einer semantischen Suche und wollen auf konkrete Fragen künftig sofort die gewünschten Fakten statt einer Linkliste liefern.