Das große Suchen

Warum kauft Microsoft Powerset?

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Nachdem seit Mai Gerüchte kursierten, machte ein Eintrag im "Live-Search"-Blog die Sache vergangene Woche offiziell: Microsoft hat die semantische Suchmaschine Powerset mitsamt Patenten und Belegschaft eingekauft. Offiziell wurde kein Preis genannt, doch es gab auch kein Dementi, als der Branchendienst Venture Beat den Kaufpreis mit "etwas mehr als 100 Millionen" Dollar bezifferte.

Mit dem Versprechen, die Internet-Suche zu revolutionieren, hatte Powerset vor gut eineinhalb Jahren eine frühe Wagniskapital-Runde von 12,5 Millionen Dollar eingefahren, der damals geschätzte Markwert belief sich auf 42,5 Millionen. Durch eine leistungsfähige PR-Abteilung hatte die Firma in der Zwischenzeit den Hype weitergetrieben und die Phantasien vom langerwarteten "Google-Killer" beflügelt, weshalb der frühzeitige Ausverkauf zu einem im Vergleich zur Vorab-Evaluation eher mäßigen Preis in der Branche für einiges Augenrollen und Schulterzucken sorgte: So viel Vertrauen, dass sie einen Alleigang gegen den Marktführer Google gewagt hätte, scheint die Powerset-Firmenleitung doch nicht ihre "revolutionäre" neue Technologie gesetzt zu habe.

Ganz überraschend kommt das hastige Einholen der eigenen Flagge jedoch nicht, denn die "semantische Suche" ist eine ausgesprochen kapitalintensive Angelegenheit. Während eines Branchentreffens Anfang Mai 2008 bekannte Chad Walters, Technischer Direktor von Powerset, dass die Suchmaschine "bis zu 100mal mehr Prozessorleistung" pro Suchanfrage brauche als die Konkurrenz. Für Googles Ergebnisse ist im Wesentlichen entscheidend, dass die gesuchten Worte in einem Dokument vorkommen; daneben noch ihre Entfernung voneinander im Text, ihre Reihenfolge und ihre Häufigkeit. Ein weiterer Relevanzfaktor ist natürlich der PageRank, der jedoch mit dem Dokumenteninhalt in keinerlei Beziehung steht.

Semantische Suchmaschinen dagegen benutzen Informationen über den Bedeutungszusammenhang zwischen Worten, behandeln diese also innerhalb des Kontextes, in dem sie vorkommen. Das setzt eine weit über das eigentliche Dokument hinausgehende, aber mit ihm verknüpfte Infrastruktur voraus. Eine Anfrage wie "Was ist die Ursache von Masern?" muss zunächst in ihre Satzglieder zerlegt werden. Dann muss festgestellt werden, dass "Masern" das Thema der Antwort sein muss. Um herauszufinden in welcher Beziehung "Masern" zu dem unbekannten, dem gesuchten Begriff steht, wird die Nominalphrase "ist die Ursache von" normalerweise in die Verbalphrase "wird verursacht durch" transformiert. Und schließlich - sofern alle benötigten Ontologie-Server, RDF-Triple-Stores und SPARQL-Schnittstellen einwandfrei funktionieren - kann die Maschine auf den Verursacher schließen: "RNA-Masernvirus".

Dort, wo viele Daten in einem eng begrenzten Themenbereich anfallen und die Anfragen von relativ wenigen, gut ausgebildeten Usern ausgehen, und wo darüber hinaus ein international besetztes Konsortium das bei der Suche verwendete Vokabular in jahrelanger Arbeit standardisiert hat - dort funktioniert das heute bereits ausgezeichnet. Das Gene Ontology-Projekt etwa liefert weltweit einheitliche Beschreibungen von Genprodukten in unterschiedlichen Datenbanken und beschleunigt die Verbreitung neuen Wissens ungemein. Doch das von Tim Berners-Lee anvisierte globale Semantic Web als Massenmedium ist von ganz anderer Größenordnung: Da spielt die Tatsache, dass Powersets Suche bis zu 100mal teurer ist als die Googles, eine entscheidende Rolle. So trat der Newcomer im Mai auch nicht mit einem komplett indizierten Web in den Markt ein, sondern beschränkt seine Dienste bislang auf das Durchsuchen von Wikipedia und der "offenen Datenbank" Freebase.

Das kann natürlich ganz anders werden, wenn man Microsoft im Rücken hat. Der Konzern baut gerade ein neuartiges Datencenter in Chicago, das fast ausschließlich der Web-Suche gewidmet sein soll. Damit steht für Powerset eine Infrastruktur zur Verfügung, die die Firma trotz der eingeworbenen Vorab-Millionen allein nie hätte schaffen können. Gründer und Investoren haben das genau so gesehen, und sie entschieden sich für einen mittelprächtigen Ausstieg anstelle eines spektakulären Vabanque-Spiels.

Yahoo

Auf Seiten Microsofts verstärkt der Deal den Eindruck, dass der Gigant von Redmond wieder einmal den Ergebnissen der hauseigenen Forschungs- und Entwicklungsabteilung misstraut und stattdessen Unternehmen, die an erfolgverheißenden neuen Technologien arbeiten, schlicht aufkauft. Powerset ist bereits der neunte Zukauf innerhalb der letzten sechs Monate; unter anderem dabei sind die Reise-Suchmaschine Farecast (115 Millionen Dollar), der Desktop-Virtualisierer Kidaro (100 Millionen Dollar), und der norwegischen Enterprise Search-Spezialist Fast Search & Transfer (1,2 Milliarden Dollar). Und trotz der gescheiterten Fusion mit Yahoo gab Steve Ballmer seine Idee nicht auf: Am 2. Juli berichtete das Wall Street Journal über Gespräche zwischen Microsoft und den Medienkonzernen Time Warner und News Corp über den Vorschlag, Yahoo gemeinsam zu kaufen und zu zerschlagen. Ballmer will unbedingt die Suchabteilung, um gegen Google an Größe zu gewinnen; jemand anders soll den Rest, etwa die populären Finanz- und Sportsites, schlucken.

Yahoo hat bisher auf dem US-Markt einen etwa doppelt so hohen Anteil an der Suche als Microsoft und setzt bei der semantischen Suche besonders auf die Zusammenarbeit mit Website- und Service-Entwicklern: Tutorials werben für die Verwendung von Linked-Data-Formaten wie Microformats und RDF, SearchMonkey bietet bisher kostenlose Möglichkeiten, um maßgeschneiderte Such-Services auf der Yahoo-Plattform zu implementieren, und für die beste Anwendung sind gar 10.000 Dollar Preisgeld ausgesetzt.

Microsoft sucht derweil nach wie vor die Erfolgsstrategie im Suchgeschäft. Bis zum Dezember 2002 kaufte man den Such-Service, damals unter dem Dach der Marke msn.com, als Dienstleistung vom Suchmaschinenentwickler Inktomi - dann übernahm Yahoo die Firma. Anfang 2003 entstand daraufhin bei MS eine eigene Entwicklungsabteilung für die Suche. Das Ergebnis wurde im Februar 2005 als "MSN Search" der Öffentlichkeit vorgestellt, konnte sich dann allerdings nicht gegen die Konkurrenz von Google und Yahoo durchsetzen. Im September 2006 folgte ein Rebranding unter dem Namen Windows Live Search, was das Angebot allerdings auch nicht wesentlich populärer machte: Nach den Zahlen der Medienforscher von Nielsen Online erreichte Google auf dem US-amerikanischen Markt im April 2008 einen Marktanteil von 62 Prozent, gegenüber den 58,7 Prozent im März, die bis dahin das Rekord-Ergebnis dargestellt hatten. Yahoos Anteil schrumpfte derweil leicht, von 18,1 auf 17,5 Prozent, während der von Microsoft von 12 auf 9,7 Prozent zurückging und damit erstmals seit Jahren unter der 10-Prozent-Marke blieb. Durch das das cashback-Programm werden Kunden mit dem Versprechen auf Bargeld zu Live Search gelockt. Und Konkurrent Google bietet höhnisch eine Extra-Seite zum Durchsuchen von Microsoft-Websites an: Alleine, so die Botschaft, schaffen die ihre eigenen Inhalte nicht.

Alleinstellungsmerkmal

Künftig kann Microsofts Marketing-Abteilung immerhin mit einem Alleinstellungsmerkmal hausieren gehen, um sich gegenüber den großen Konkurrenten zu profilieren: Semantische Suche - das, was uns so anders macht! Genau genommen sind sie so allein nicht, denn die Idee ist fast so alt wie das Web:

1995 trat Excite als Konkurrent von Yahoo auf. Durch "Intelligent Concept Extraction" sollte die Maschine je nach Kontext den Begriff "Mutter" als dem Gegenstück "Vater" oder als Gegenstück zu "Schraube" interpretieren können. Doch der Newcomer konnte weder Yahoo gefährden noch verhindern, später von Google in den Schatten gestellt zu werden.

1998 warb Ask Jeeves mit der Möglichkeit, in kompletten Fragesätzen zu suchen. Doch wenn bei häufig gestellten Fragen die Antworten besser ausfielen als die der Konkurrenz, lag das nicht an der besseren Technologie, sondern daran, das eine Redaktion aus 100 Leuten diese Fragen beantwortete. Das rechnete sich auf die Dauern nicht - was allerdings heutzutage Mahalo nicht davon abhält, es ebenfalls mit dieser Idee zu versuchen.

Ebenfalls wurde Electric Monk als natürlichsprachliches Fronend für AltaVista gehypt. Heute steht die Domain zum Verkauf.

2000 erwarb die gerade von Microsoft gekaufte Firma Fast Search & Transfer ihrerseits Albert, nur um die Technologie später an Overture zu verkaufen, bevor diese Firma wiederum von Yahoo geschluckt wurde.

2001 machte iPhrase Furore, doch die Technologie kommt nie bei der allgemeinen Websuche zum Einsatz; IBM kauft sie auf, etikettiert sie neu als OmniFind und bietet heute darauf basierende branchen- und unternehmensspezifische Suchlösungen an.

2003 tauchte BrainBoost auf, eine Firma, die bald von Answers.com übernommen wurde. Die Maschine ist weiter im Netz, doch kaum jemand nimmt sie zur Kenntnis.

2004 war ein Boomjahr der semantischen Suche: Stochasto (versucht sich neuerdings als News-Service für Mobiltelefone), Kozoru (Domain steht zum Verkauf), Accoona (hat sich mittlerweile auf "Business-to-Business-Suche" spezialisiert) und MeaningMaster (nicht mehr am Netz) - alle wollten sie "Google-Killer" sein. Und die letzte Welle umfasst nun evri, Hakia, Cognition Search, Lexxe, Quintura, Cluuz, Cuill, Blekko und eben Powerset.

Jenseits der Web-Suche

Allein durch Benutzung dieser Angebote ist es unmöglich, festzustellen, wer nun die beste Technologie vorzuweisen hat. Microsofts Wahl mag einfach auf Powerset gefallen sein, weil sich die Firma in den letzten zwei Jahren durch geschickte PR-Arbeit besonders häufig in den Schlagzeilen der Fachmedien platzieren konnte. Aber grundsätzlich macht das Engagement für die natürlichsprachliche Suche durchaus Sinn, wenn man über die Web-Suche per Computer hinaussieht und auf die kommende Verbreitung der Web-Suche per Mobiltelefon setzt. Geräte wie das iPhone haben keine herkömmliche Tastatur, jedoch ein relativ großzügiges Display. Eine Suchmaschine, die man einfach anruft, mit der man in ganzen Sätzen sprechen kann und die dann die gesuchte Website anzeigt, könnte durchaus eine sehr gewinnbringende Sache sein. Und für diesen sich gerade öffnenden Markt werden die Karten völlig neu gemischt - hier ist keineswegs sicher, dass Google sich ebenso durchsetzt wie bisher.

Nicht, dass es Anzeichen für Nervosität aus Mountain View zu melden gäbe. Googles Technischer Direktor Peter Norvig erklärte Anfang des Jahres gegenüber der amerikanischen Ausgabe der Zeitschrift Technology< Review, die Eingabe "What is the capital of France?" führe nun mal zu keinen besseren Ergebnissen als die Eingabe "capital of France". Allerdings gab er zu, dass man durchaus an kontextbasierten Disambiguationstechniken arbeite, und man gibt sich bei Google merklich Mühe, damit Fragesätze zu mindestens ebenso guten Ergebnissen führen wie bei der ausdrücklich semantischen Konkurrenz. Andererseits kann man natürlich auch per Mobiltelefon in Stichwort-Form suchen - wer weiß denn schon, was sie letzten Endes durchsetzt?

Woran Norvig definitiv nicht glaubt ist das Kronjuwel von Tim Berners-Lees "Sematic-Web"-Vision, das maschinelle Schließen. Die Idee, dass Maschinen mit Hilfe von RDF-Tripeln die Frage "Was ist die Ursache von Masern?" per logischer Schlussfolgerung beantworten "menschliches Denken simulieren" sollten, hält er für abwegig. Novig kennt sich da aus; er kommt von der Künstlichen Intelligenz und ist Coautor des maßgeblichen Lehrbuchs Artificial Intelligence - A Modern Approach. Während eines seiner Vorträge bei einer Startup-Konferenz im April wurde er gefragt: "Wann werden wir eine voll funktionale Künstliche Intelligenz haben?" Norvig wies auf die Entwicklungen in der Bilderkennung, der Sprachübersetzung und bei fahrerlosen Automobilen hin als Belege, dass die KI-Forschung doch bereits erfolgreich sei. "Wenn man allerdings Erfolg nur definiert als 'Können wir Menschen duplizieren?' - auch das habe ich schon gemacht. Ich habe zwei Kinder, und die sind ziemlich smart."

Wenn man bei Google die Stichworte "Ursache Masern" eingibt, führt der erste Treffer zu einem Dokument, dessen erster Satz die Frage beantwortet: RNA-Masernvirus.