Jenseits von Google
Am berĂĽhmten IT-Forschungszentrum PARC arbeitet man seit 30 Jahren an Algorithmen zur Erfassung natĂĽrlicher Sprache. Ein Internet-Start-up will daraus nun eine Suchmaschine entwickeln, die Kontexte besser erfasst als alle heutigen Technologien.
- Michael Reimann
Powerset, eine Neugründung aus San Francisco, will im September eine innovative Suchmaschine auf den Markt bringen, die sich mit natürlicher Sprache bedienen lässt. Die darunter liegenden Softwarekonzepte basieren auf sprachwissenschaftlicher Forschung, die über Jahrzehnte am renommierten IT-Forschungszentrum Palo Alto Research Center (PARC) erfolgte. Powerset soll mehr können als nur die Annahme von Suchbegriffen in Form natürlicher Fragen. Die besten Suchergebnisse sollen auch dadurch ermittelt werden, dass die Bedeutung und der Kontext einer Anfrage einbezogen werden – samt Websites, die dazu in Beziehung stehen. "Powerset extrahiert die tiefer liegenden Konzepte und Beziehungen aus Web-Texten und Nutzeranfragen und bringt diese effizient zusammen", sagt Powerset-Chef Barney Pell.
Obwohl solche Ideen bereits seit langem verfolgt werden, will man bei Powerset nun ein System entwickelt haben, das die grundlegenden technischen Probleme mit solchen Suchmodellen "endlich löst". Das dabei herausgekommene Produkt soll zwar IT-technisch anspruchsvoll, aber dennoch wirtschaftlich sein.
Pell will keinen spezifischen technischen Durchbruch nennen, der zur Entwicklung von Powerset geführt habe, doch greife man auf die 30jährige Arbeit der PARC-Forscher zurück (eine entsprechende Lizenz erwarb die Firma im Februar). Nicht ein einzelnes Stück Technologie habe das Problem gelöst, sondern die Vereinigung vieler Theorien und Fragmente. "Nach 30 Jahren ist die Forschung hier endlich an dem Punkt angelangt, an dem sie in die Welt gebracht werden kann", meint er.
Eine Kernkomponente der Suchmaschine ist ein System zur Verarbeitung natürlicher Sprache, das die Beziehungen zwischen Worten extrahiert. Es entstand aus dem "Xerox Linguistic Environment" (XLE), einer Software-Plattform, die am PARC entwickelt wurde. Diese Plattform basiert wiederum auf dem Modell der so genannten lexikalischen funktionalen Grammatik, mit der sich verschiedene Grammatik-Engines erstellen lassen, die einer Suchmaschine dabei helfen können, Text zu verstehen. Laut Pell können diese Algorithmen beispielsweise besser als andere Ansätze mit Doppeldeutigkeiten umgehen, um die tatsächliche Bedeutung eines Satzes auf einer Web-Seite zu verstehen. All diese Innovationen sollen das System anpassungsfähiger machen.
Powerset-Technologiechef Ron Kaplan war seit den siebziger Jahren technischer Leiter des XLE-Team im PARC und ist Autor großer Teile der Technologie, die nun an das Start-up lizenziert wurde. Er habe zusammen mit Pell vor zwei Jahren erstmals an der Idee gearbeitet, die Technologie ins Internet zu holen. Aktuelle Suchmaschinen setzten eher auf Schlüsselbegriffe und deckten Inhalte nur oberflächlich ab. "Da gibt es Raum für Verbesserungen", meint Kaplan. Besonders Beziehungen zwischen Inhalteteilen würden kaum verstanden: "Das beste, was unsere Konkurrenten hier können, sind Beziehungen anhand von Wörtern abzuleiten, die nahe bei anderen Wörtern liegen." Es sei notwendig, einen wesentlich tieferen Analysemaßstab anzulegen.
Frühere Versuche kombinierten hier die Annahme von Suchanfragen in natürlicher Sprache mit Standard-Suchmodellen anhand von Schlüsselbegriffen. Dies lässt sich beispielsweise bei Google sehen, wenn die Suchmaschine dem Nutzer einen neuen Vorschlag macht, weil die aktuelle Anfrage nicht verstanden wurde. Auch Yahoo nutzt die Erkennung natürlicher Sprache zum Teil. Eine vollständig auf dieser Technologie basierende Suchmaschine existierte für Endkunden bislang jedoch noch nicht. Laut Pell lag einer der Hauptgründe dafür darin, dass die Technologie schlicht bislang noch nicht verfügbar war.
Auch Powerset-Konkurrenten wie iPhrase und EasyAsk, die ebenfalls ihr Verständnis natürlicher Sprache in den Vordergrund stellen, sollen Textinhalte weniger gut verarbeiten können wie Powerset. "Auch hier werden nur Datenbanken nach einer Antwort auf eine Frage durchsucht." Noch stärker auf der Erkennung natürlicher Sprache basierende Ansätze wie Hakia und Cognition Search besäßen hingegen nur ein geringeres Bedeutungsverständnis, wie Pell meint.
Eine Demo-Version von Powerset soll im September auf einer speziellen "Powerlabs"-Website veröffentlicht werden. Mit dem dort gewonnenen Nutzerfeedback will man dann im nächsten Jahr das Endprodukt fertig stellen. "Die Hauptherausforderung ist, das System soweit voranzutreiben, dass die Nutzer verstehen, wie sie es benutzen können und es ihnen trotz bestehender kleiner Fehler Mehrwert liefert." Sein Unternehmen stünde kurz vor diesem Punkt, meint Pell.
Auch bei IBM arbeitet man an ähnlichen Projekten. Eine neue semantische Suchmaschine namens Avatar befindet sich derzeit im Betatest innerhalb des IT-Konzerns. Das Projekt wendet sich allerdings vor allem an Unternehmenskunden. Projektmanager Shivakumar Vaithyanathan sieht das schwierigste Problem darin, wichtige semantische Informationen aus großen Dokumenten zu ziehen, ohne dass Präzision und Geschwindigkeit darunter leiden.
Die IBM-Suchmaschine soll vor allem beim Durchsuchen interner Dokumente wie E-Mails und Intranet-Korrespondenzen helfen. Sie ist für Fälle optimiert, bei denen bestimmte Teilinformationen gesucht werden, die sich sonst nur schwer auffinden lassen – etwa eine Telefonnummer oder eine Paketverfolgungs-URL, die in einer von Tausenden E-Mails stecken, die eine Person auf ihrem Computer hat.
Avatar setzt dabei auf das Anlegen so genannter "Interpretationen" eingegebener Suchbegriffe, die die eigentliche Suchabsicht als Modell umschreiben. Gibt der Nutzer beispielsweise "Telefonnummer" ein, durchsucht die Suchmaschine Tausende von E-Mails eines Nutzers nach Zahlen, die an Telefonnummern erinnern. Die Suchmaschine liefert dann die Informationen, die er sucht – und nicht einfach nur E-Mails, die den Suchbegriff enthalten.
Um möglichst schnell alle sinnvollen Informationen sowohl aus den durchsuchten Texten als auch aus der Suchanfrage zu ziehen, ist viel Rechenpower notwendig. IBM will nun einen Weg finden, exakte Bedeutungen schneller und mit weniger Servern aufzufinden. "Wenn wir Informationen besser extrahieren, können wir die Fragen, die die Nutzer stellen, auch besser beantworten", meint Vaithyanathan. (bsc)