Google goes Gelbe Seiten
Google hat eine Reihe von Patenten veröffentlicht, die aus Informationen aus dem Web automatisch ein umfassendes Branchenverzeichnis erstellen sollen.
Wer braucht noch die Gelben Seiten, wo es doch Google gibt? Die Wirte der „Gelben Seiten“ zum Beispiel. Die Bar hinter Hannovers Hauptbahnhof ist zwar im gleichnamigen Branchenverzeichnis zu finden, nicht aber mit [(http://local.google.com/ Googles lokaler Firmensuche] . So geschmeidig das Zusammenspiel von Karte und Firmenverzeichnis bei Google Maps auch funktioniert – bei den Inhalten ist der Dienst noch etwas schwach auf der Brust, wie das Beispiel zeigt.
Dieses Problem geht Google nun mit einer ganzen Reihe Hand in Hand greifender Patente an. Ziel dieser Patente ist es, die Unzahl von Adressen und Firmeninformation im World Wide Web systematisch als Branchenverzeichnis nutzbar zu machen.
Die Brancheninformationen, die Google Maps derzeit nutzt, stammen nach Angaben von Google-Sprecher Stefan Keuchel von Adressbuchverlagen sowie aus dem Web. Beide Quellen haben ihre Schwächen. Handgepflegte Inhalte von Verlagen sind teuer, unvollständig und schnell überholt. Der Internetsuche gebricht es hingegen an der notwendigen Intelligenz, Branchen und Adressen als solche zu erkennen und miteinander in Beziehung zu setzen. Genau an diesem Punkt setzen die neuen Google-Patente an.
Das Patent mit der Nummer WO 2006/074052 („Location Item Extraction“) etwa beschreibt eine Methode, geografische Daten aus Webseiten zu extrahieren. Dazu wird eine lernfähige Software mit zwei, je mehrere Millionen Dokumente umfassenden Datensätzen trainiert: erstens mit Geschäftsinformationen aus einem Branchenverzeichnis, zweitens mit Webseiten, die entsprechende Geschäftsadressen enthalten. Beim Vergleich dieser Seiten soll die Software ein statistisches Modell entwickeln, das ihr später erlaubt, Geschäftsinformationen wie Firmenname, Branche, Straße und Postleitzahl selbstständig zu klassifizieren. Das entscheidende Kriterium dafür ist die räumliche Nähe. So steht die Adresse meist hinter dem Firmennamen, Stadt und Postleitzahl treten in der Regel gemeinsam auf, Telefon- und Faxnummern werden gerne von Markern wie „Tel.“, „Phone“ oder „Fax“ begleitet.
Auf diese Art und Weise lassen sich auch geografische Hinweise auswerten, die nur im Fließtext, wie zum Beispiel in einer Restaurantkritik, erwähnt sind. Selbst lückenhafte Angaben lassen sich ergänzen. So ist der Begriff „Bay Area“, wenn er von keiner anderen Angabe spezifiziert wird, geografisch zunächst einmal nicht eindeutig zuzuordnen. Wenn die Software während ihres Trainings aber gelernt hat, dass „Bay Area“ meisten in Verbindung mit „San Francisco“ auftaucht und – wesentlich seltener – auch im Zusammenhang mit Green Bay, Wisconsin, kann – mit einer gewissen Irrtumswahrscheinlichkeit – der Term San Francisco zugeordnet werden. Tauchen mehrere für sich genommen mehrdeutige Ortsangaben auf, addieren sich die Wahrscheinlichkeiten, und eine Zuordnung kann als nahezu sicher gelten.
Eine weitere Methode, mehrdeutige Ortsangaben aufzulösen, beschreibt das Patent WO 2006/074055 („Location Extraction“). Um zu entscheiden, ob ein Städtename eindeutig ist oder ob es mehrere Städte gleichen Namens gibt, wird eine Websuche nach diesem Städtenamen durchgeführt. Taucht die fragliche Ortsbezeichnung im Web stets gemeinsam mit demselben Ländernamen auf (wie bei „Chicago / Illinois“), gilt die Stadt als eindeutig identifiziert und geht als Ortsangabe in eine lokale Suche ein. Ansonsten wird die Suchanfrage unverändert in die normale Websuche verzweigt.
Ist eine Ortsangabe erst einmal dingfest gemacht, lässt sie sich intelligent weiterverarbeiten. Wer etwa eine Pizzeria in Potsdam sucht, dem würde auf konventionellem Wege nie ein Italiener in Berlin angeboten werden – obwohl dieser möglicherweise nur wenige Kilometer vom eigenen Standort entfernt ist. Durch eine geografische Zuordnung der Funde ließe sich die Suche nach einer Pizzeria beispielsweise auf einen Umkreis von drei Kilometern über die Stadtgrenzen hinaus ausweiten. Das Patent WO 2006/74054 („Indexing Documents According to Geographical Relevance“) beschreibt, wie sich dazu das so genannte „Hierarchical Triangular Mesh Model“, ein geografisches Dreiecksraster, benutzt werden kann. Der Konkurrent Yahoo hat eine solche Umkreissuche allerdings bereits implementiert.
Wann Google diese Patenten zum Einsatz bringt, darüber gibt es noch keine offiziellen Angaben. „Wir reden nicht über ungelegte Eier“, sagt Google-Sprecher Keuchel. Sicher ist aber, dass der Markt, den Google damit adressiert, weit über die reine Internetsuche hinausgeht. Im Patent WO 2006/004800 („Generating and/or Serving Local Area Advertissements, such as Advertisements for Devices with Call Functionality“) etwa beschreibt Google die Ausgabe von lokalen Suchergebnissen nebst ortsbezogenen Anzeigen auf Endgeräte wie das Handy. Denn unterwegs per Mobiltelefon das nächste Thai-Restaurant zu finden, wird schon lange als Killerapplikation gehandelt. Das US-Marktforschungsunternehmen Yankee Group sagt für das Jahr 2007 ein westeuropäisches Marktvolumen von knapp dreieinhalb Milliarden Euro für so genannte Location Based Services voraus. (wst)