Lauschangriff auf Internetbenutzer

Microsoft entwickelt ein Programm, um aus dem Such- und Surfverhalten persönliche Daten des Internetbenutzers abzuleiten

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Jagd auf persönliche Daten machen die Staaten zur Terror- oder Kriminalitätsbekämpfung, aber schon lange stehen dem die Unternehmen nicht nach, die sich aus geschäftlichen Interessen heraus die wertvolle Ressource aneignen wollen und dafür die entsprechenden (Lock)Mittel entwickeln. Google machte gerade deutlich, dass man noch sehr viel mehr persönliche Daten schürfen muss, um schließlich den Menschen zur Seite zu stehen und ihnen sagen zu können, welchen Job sie wählen oder was sie einkaufen wollen (oder sollen).

Auch Yahoo! versucht an mehr persönliche Daten zu gelangen. Microsoft will da nicht nachstehen. Bei Microsoft Research Asia in Peking wird beispielsweise für das AdLab an einem Programm gearbeitet, wie New Scientist berichtet, das aufgrund der Suchbegriffe, die eine Person in der MSN-Suchmaschine eingibt, und der besuchten Webseiten wichtige persönliche Merkmale von dieser vorhersagen soll. Ziel ist, auch ohne direkte Abfrage der persönlichen Informationen oder trotz falscher Angaben Alter, Geschlecht, Wohnort, Religionszugehörigkeit, Beschäftigung oder Hochschulabschluss der Benutzer zu erkennen.

Jian Hu, der mit seinen Kollegen kürzlich das Projekt der demographischen Vorhersage während der World Wide Web 2007-Konferenz vorgestellt hat, geht von der Hypothese aus, dass Menschen mit bestimmten Eigenschaften nach bestimmten Produkten und Informationen suchen und bestimmte Webseiten besuchen. Demographische Informationen würden eine wichtige Rolle bei der Personalisierung von Informationen spielen, aber sie seien nicht ohne weiteres zu erhalten, heißt es in dem Papier, weil die Benutzer zögern, sie herauszugeben. In dem Projekt wird zunächst versucht, Alter und Geschlecht der Internetbenutzer zu erschließen. Dazu werden vorhandene Daten aus Logfiles über Visits von Websites und die besuchten Seiten, die mit einem bekannten Alter und Geschlecht der Surfenden verbunden sind, als Grundlage verwendet. In einem zweiten Schritt werden aufgrund von wahrscheinlichkeitstheoretischen Annahmen das unbekannte Alter und Geschlecht von Benutzern vorhergesagt. Die daraus gewonnenen Daten werden in einem dritten Schritt durch demographische Informationen verfeinert, die man aus der Annahme gewinnt, dass demographisch ähnliche Benutzer auch ähnliche Webseiten besuchen.

Hu weist auf Untersuchungen hin, nach denen 74% der Frauen nach Informationen über Gesundheit oder Medizin suchen, während dies bei den Männern nur 58% machen. 34% der Frauen würden im Web nach religiösen Informationen suchen, aber nur 25% der Männer. Auch bei Filmen sei das ähnlich, wo es Action für Männer, Liebe für Frauen und Zeichentrickfilme für Kinder gebe. Nach Auswertung von MSN-Daten, die die chinesischen Wissenschaftler im Rahmen ihre Projekts vorgenommen haben, würden Frauen eher Seiten besuchen, die mit Filmen, Babys, Kindern, Essen und Familie verbunden sind, während bei Männern Geld, Chat, Mädchen, Sex und Autos. Im Hinblick auf das Alter interessieren sich Teenager eher für Sport und Schule, dann für College, Einkaufen und Filme, junge Erwachsene suchen nach Unterhaltung, Gesundheit und Kinder, Erwachsene mittleren Alters sind an Informationen über Finanzen, Privatsphäre und ihren Job interessiert, die Älteren an Nachrichten, den Markt und Investitionen.

Das von den chinesischen Forschern entwickelte Programm würde mit einer Wahrscheinlichkeit von 79,9% das Geschlecht und mit 60,3% das Alter vorhersagen können. Schlechte Ergebnisse ergaben sich bei Internetbenutzern, die weniger als 30 Seiten durchklickten, während sich die Voraussage mit steigender Zahl durchgeklickter Seiten verbesserte.

Probiert man allerdings die Vorhersagekraft des Programms bei einmaliger Suche nach Begriffen und der Angabe von Webseiten auf der Website des AdLab von Microsoft aus, so sind die Ergebnisse oft wenig intuitiv. MSN.com würden danach eher Frauen (0,57) und die Altersgruppe zwischen 35-49 Jahren besuchen, bei Google.com ergibt sich fast dasselbe, bei Yahoo.com sind die Frauen mit 0,54 noch immer in der Mehrzahl, das Alter ist jedoch auf 25-34 Jahre gesunken. Immerhin dominieren bei Sport die Männer und die Altersgruppe 24-35 Jahre, bei Liebe sind es die Frauen und die Altersgruppe 18-24 Jahre. Microsoft schätzen eher Männer und die Altersgruppe 35-49, Google hingegen die Frauen und dieselbe Altersgruppe. Und Telepolis ist mit 0,64 überwiegend männlich ausgerichtet (bei telepolis 0,69), aber mit einem jugendlichen Publikum zwischen 18 und 24 Jahren, Spiegel Online ist auch männlich (0,61; bei spiegel.de ebenfalls 0,69), aber deutlich älter (35-49).