Vorsicht vor dem Webtrend

Seit dem Erfolg von Google Flu Trends gelten Suchdaten als zuverlässigere Grundlage für Prognosen. Eine Studie von Yahoo-Forschern zeigt jedoch, dass konventionelle Verfahren manchmal besser sind.

vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 5 Min.
Von
  • Katharine Gammon

Seit dem Erfolg von Google Flu Trends gelten Suchdaten als zuverlässigere Grundlage für Prognosen. Eine Studie von Yahoo-Forschern zeigt jedoch, dass konventionelle Verfahren manchmal besser sind.

Ob es um Immobilienverkäufe, Grippeinfektionen oder Kinofilme geht: Die Suchdaten von heute verraten den Trend von morgen – heißt es. Immer häufiger jedenfalls vertrauen Analysten und Trendforscher dieser Maxime. Ein neues Paper rückt nun das Bild von der Websuche als unschlagbarem Forschungswerkzeug zurecht.

Für ihre Studie untersuchten Informatiker bei Yahoo firmeninterne Suchanfragen zu Filmen, Musiktiteln und Videospielen aus den sechs Wochen, bevor diese veröffentlicht wurden. Wie häufig Nutzer die entsprechenden Begriffe in die Suchmaschine eingaben, entsprach dann in der Regel der Höhe des Umsatzes, den ein Film am ersten Wochenende einspielte, oder der Platzierung eines Liedes in den Charts.

Die Forscher ließen es aber nicht dabei bewenden, sondern verglichen diese Ergebnisse mit Prognosen, die mittels herkömmlicher Verfahren erstellt wurden. Für Filme zogen sie die Hollywood Stock Exchange heran, an der Börsentermingeschäfte – so genannte Futures – mit den erwarteten Umsätzen von Filmen gehandelt werden. Zusätzlich berücksichtigten sie die Zahl der Kinos, in denen ein Film anlief. Bei Computerspielen stützten sie sich auf die Bewertungen von Kritikern. Und für Musikstücke zogen sie neben Experten-Kritiken auch die bisherigen Platzierungen einer Band in den amerikanischen Billboard-Charts heran.

Ergebnis: Die Suchdaten-basierten Prognosen schnitten meist nur wenig besser ab als die klassisch erstellten. In einigen Fällen lagen sie sogar schlechter. Die besten Prognosen lieferten Suchdaten bei Computerspielen.

Dies könnte daran liegen, dass das konventionelle Datenmaterial für ganz neue Spiele – also keine Fortsetzungen oder „Sequels“ – sehr dünn sei, sagt Jake Hofman, einer der beteiligten Yahoo-Forscher: „Als Frühindikatoren können wir nur auf die Rezensionen von Kritikern zurückgreifen.“ Für Filme und Musik seien die herkömmlichen Datenquellen jedoch gut genug, so dass hier Suchdaten-basierte Prognosen keine Verbesserung brächten.

Die hatten spätestens seit dem Start von Google Flu Trends 2008 Furore gemacht. Anhand von Suchbegriffen wie „Grippe“ oder „Influenza“ konnte Google nicht nur treffsicher vorhersagen, in welcher Weltregion eine Grippewelle bevorsteht. Für die USA konnte die Datenanalyse die voraussichtliche Zahl der Infizierten sogar zehn Tage früher als die Centers for Disease Control and Prevention (CDC) liefern.

Allerdings konnten die CDC-Reports mit Infektionszahlen damals betriebsbedingt erst mit einer zweiwöchigen Verzögerung veröffentlicht werden. Derzeit führt die US-Gesundheitsbehörde ein neues System ein, das den Rückstand auf eine Woche verkürzen soll. Dann könnten die CDC-Schätzungen mit denen von Google Flu Trends gleichziehen.

Eine Analyse von Justin Ortiz von der University of Washington kam vor einigen Monaten zu dem Ergebnis, dass Google Flu Trends die Infektionszahlen systematisch überbewerte, wenn die Medien viel über eine Grippewelle berichten. Das sei zum Beispiel beim H1N1-Virus der „Schweinegrippe“ von 2009 der Fall gewesen.

Bereits 2008 hatte Philip Polgreen, Mediziner an der University of Iowa, in einem Paper Korrelationen zwischen Yahoo-Suchdaten und den offiziellen Grippe-Berichten untersucht. Er gibt vor allem zu Bedenken, dass die Motive von Nutzern bei Suchbegriffen nicht klar bestimmbar seien. Wenn jemand nach einer bestimmten Krankheit oder einem Symptom suche, müsse das nicht bedeuten, dass er darunter leide. Es könne auch sein, dass die Person zum Beispiel einen wissenschaftlichen Artikel darüber schreibe.

Dennoch rechnen Experten mit einer Zunahme von Prognosen auf der Basis von Suchdaten. „In den nächsten fünf bis zehn Jahren werden immer mehr Unternehmen diese Art von ‚Nanodaten’ – die auf Hunderten von Milliarden Beobachtungen beruhen – in ihre Prognosen einbeziehen“, erwartet Erik Brynjolfsson, Direktor des MIT Center for Digital Business. Websuchen seien die zuverlässigste Datenquelle, wenn es um Produktrecherchen gehe, die Nutzer vor einem Kauf anstellen. Er hat festgestellt, dass Suchdaten die Zunahme von Immobilienverkäufen sehr zuverlässig vorwegnehmen. Steigt der Housing Search Index für die USA um einen Prozentpunkt, bedeutet das, dass im Folgequartal 121.400 zusätzliche Immobilien den Besitzer wechseln.

Laut den Yahoo-Forschern sind Suchdaten-Prognosen besonders geeignet, um abrupte Veränderungen festzustellen. Mit herkömmlichen statistischen Verfahren sei es sehr schwer vorherzusagen, wann ein populäres Musikstück in den Charts abstürzt. In den Suchdaten kündige sich diese Veränderung hingegen deutlich an. Solche Wendepunkte könnten auch im Gesundheitswesen, in der Wirtschaft oder in der Verbraucheranalyse wichtig sein.

Das Paper:
Goel, Sharad et al., "Predicting consumer behavior with Web search" , PNAS, 27.9.2010 (nbo)