Googles Twitter-Algorithmus

Seit kurzem indexiert der Suchmaschinenkonzern auch topaktuelle Kurznachrichten. Projektleiter Amit Singhal verrät Details.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 6 Min.
Von
  • David Talbot

Seit kurzem indexiert der Suchmaschinenkonzern auch topaktuelle Kurznachrichten. Projektleiter Amit Singhal verrät Details.

Leicht ist es für Google nicht, das sogenannte Echtzeit-Web abzubilden: Was seit Dezember möglich ist, bedurfte einer Anpassung der Technik des Suchriesen. Gerade eingegebene Twitter-Botschaften (Tweets) oder Facebook-Statusmeldungen werden in die Ergebnisliste eingepflegt. Dazu hat der Internet-Konzern unter anderem seinen bekannten "Page Rank"-Algorithmus optimiert, der die Reihenfolge des Dargestellten anpasst. Seither wird das Angebot bestimmter Seiten viel schneller eingelesen als früher – statt der bisher benötigten 15 Minuten für einen Durchgang des gigantischen Google-Suchroboters sind nur noch Sekunden notwendig.

Andere Konkurrenten bieten ebenfalls Echtzeit-Resultate. Der Vorteil für Google und den direkten Wettbewerber Microsoft mit seiner Suchmaschine Bing besteht allerdings darin, dass sie Verträge mit Twitter und anderen Anbietern geschlossen haben, um direkten Datenzugriff zu erhalten. Aber nicht nur Tweets und Facebook werden abgedeckt. Google verspricht auch umfangreichste Echtzeit-Ergebnisse aus den Bereichen Nachrichten, Blogs und MySpace – plus einiger weiterer Spezialquellen.

Die Tweets spielen dabei derzeit auch bei der Darstellung die erste Geige. Amit Singhal, der als Google Fellow die Entwicklung der Echtzeit-Suche leitete, verriet gegenüber Technology Review, dass die grundlegende Strategie zum Auffinden der Relevanz der Kurznachrichten der von PageRank im "großen" Web entspricht. Dabei wird die Wichtigkeit von Seiten, die den gewünschten Suchbegriff enthalten, unter anderem aufgrund ihrer Link-Struktur bewertet: Seite A ist wichtig, wenn Seite X, Y und Z auf sie zeigen und X, Y und Z zudem selbst noch viel verlinkt werden. Je mehr Links eine Seite auf sich vereinen kann, desto relevanter ist sie in Googles Augen.

Bei Tweets funktioniert das ähnlich, allerdings mit einem anderen Messwert. Er nennt sich "Follower-Reputation": Im Twitter-Jargon "folgen" Nutzer den Nachrichten anderer und haben selbst wieder Follower, die ihnen "folgen". "Man erhält dabei Reputation und gibt wiederum Reputation. Jemand, der viele Follower hat, kann diesen Wert auch an jemanden weitergeben, der nicht so häufig gelesen wird – indem er selbst ihm folgt." Ein Tweet ist also dann wichtig, wenn er von einer Person stammt, deren Follower selbst wieder viele Follower haben. Die Technik sei aber trotzdem "ganz bestimmt" nicht nur ein Beliebtheitswettbewerb, wie Singhal betont. Und dennoch: "Wenn ein Nutzer in einem sozialen Medium einem anderen folgt, entspricht das einem Link im regulären Web. Es ist eine Form von Empfehlung."Diese Kette setzt sich fort: Eine Seite hoher Qualität, die auf eine andere Seite verlinkt, erhöht deren Qualität. "In sozialen Medien ist das nicht anders: Etablierte Nutzer, die einem neuen Nutzer folgen, steigern seine Reputation."

Doch der Social-Ranking-Trick ist nicht die einzige Methode, die der Suchmaschinengigant anwendet, um die relevantesten Tweets herauszufiltern. Google entwickelt auch neue Tricks, Ordnung ins Chaos zu bringen, wenn viel verwendete Suchbegriffe, etwa der Name des US-Präsidenten, eingetippt werden. Selbst Spam und qualitativ minderwertige Nachrichten werden innerhalb von Sekunden ausgesiebt.

Ein Problem dabei ist, dass die Nutzer ihre Tweets häufig mit Kennzeichnungen vollpacken – den sogenannten Hashtags. Diese Symbole beginnen stets mit einer Raute (#), auf die ein beschreibendes Wort folgt, beispielsweise aktuell "#NexusOne" für das neue Google-Handy oder "#Earthquake" für Erdbeben. Wird ein Hashtag gesetzt, lässt sich auf Twitter.com darüber dann gleich eine Suche nach genauso markierten Tweets starten.

So nützlich die Technik auch ist – gesetzte Hashtags können auch ein Zeichen für eine geringere Tweet-Qualität sein oder Spam-Inhalte anziehen, wie Singhal erklärt. Google habe deshalb ein Verhalten in seinem Algorithmus implementiert, das dieses Problem umgehe. Wie genau das funktioniert, wollte er nicht verraten. "Wir brauchten ein Modell zum Umgang mit Hashtags. Das ist eine technische Herausforderung, die wir modelliert haben."

Ein weiteres Problem liegt darin, die jeweils neuesten und inhaltlich passendsten Tweets auszuliefern. Wenn jemand "Obama" eingibt – sollten dann die Botschaften des Twitter-Accounts des Weißen Hauses vorne sein? Oder die von politischen Kommentatoren? Google scannt die Nachrichten deshalb, um "die Nuggets zu finden". Ein Indikator in obigem Beispiel könnte dabei sein, dass Tweets und Blogs bestimmte Begriffe neben den Namen des US-Präsidenten gerade besonders häufig nutzen. So kann es Google gelingen, die frischesten Neuigkeiten auch für sehr allgemeine Suchbegriffe darzustellen.

In Zukunft hoffen sowohl Twitter als auch Google auf eine erhöhte Relevanz der Suchergebnisse, in dem neue Metadaten hinzukommen – beispielsweise die aktuellen Geoinfos des Verfassers, ermittelt per GPS vom Eingabegerät. Dylan Casey, Google-Produktmanager für den Bereich Echtzeitsuche, räumt ein, dass sich die Technologie derzeit noch entwickele. "Ich rede mit den Jungs bei Twitter regelmäßig, um zu erfahren, wohin sich die Funktion bewegt. Wir bekommen Feedback, geben Feedback und unsere Ingenieure arbeiten zusammen. Das ist eine echte Symbiose."

Singhal sieht den Kommunikationsdienst allerdings nur als eine Datenquelle unter vielen an. "Twitter ist zwar eine sehr wichtige Komponente im Echtzeit-Web. Wir beobachten aber auch, dass es nur eine Komponente ist." Viel Wertvolles sieht er auch in Nachrichten, Blogs und in Echtzeit generierten Web-Angeboten. "Nachrichtenorganisationen arbeiten hart daran, ein bestimmtes Qualitätsniveau zu halten", sagt er. Twitter sei bei kurzen Inhalten nützlich. "Wir erleben aber, dass das Echtzeit-Web viel größer ist."

(bsc)