Wie Twitter sozioökonomische Daten liefert

Mittels Datamining lassen sich erstaunlich detailreiche Bevölkerungsdaten aus dem Kurznachrichtendienst beziehen – und das deutlich billiger, als mit traditionellen Methoden.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • TR Online

Mittels Datamining lassen sich erstaunlich detailreiche Bevölkerungsdaten aus dem Kurznachrichtendienst beziehen – und das deutlich billiger, als mit traditionellen Methoden.

Das Verhalten eines Menschen ist eng mit seinem jeweiligen sozialen und ökonomischen Status verbunden. Beispielsweise hängt die Art, wie sich eine Person durch eine Stadt bewegt, oft von ihrem Beruf, ihrem Einkommen und ihrem Lebensstil ab.

Entsprechend sollte es nicht überraschen, dass sich die wirtschaftliche Situation eines Menschen auch in dessen Verhalten in den sozialen Medien äußert. Genau das haben Alejandro Llorente von der Autonomen Universität Madrid und seine Kollegen nun untersucht. In ihrer jüngsten Studie zeigten sie auf, dass sich ein breites Muster aus Twitter-Aktivitäten in den Städten und Kreisen Spaniens mit der jeweiligen Arbeitslosenquote korrelieren lässt.

Grundlage der Untersuchung war eine Datenbank aus 19,6 Millionen Tweets, die mit Geodaten aus Spanien versehen waren – publiziert zwischen November 2012 und Juni 2013. Llorente und sein Team wollten diese Tweets zunächst mit den offiziellen Bereichen wirtschaftlicher Aktivität in Beziehung setzen, doch ließen sich diese nur schwer bestimmen. Das liegt daran, dass sie nur selten mit den Verwaltungseinheiten des Landes einhergehen, die historische und politische Grenzen repräsentieren, weniger wirtschaftliche.

Deshalb analysierten Llorente und sein Team die Rate, mit der Nachrichten zwischen Regionen ausgetauscht wurden – und zwar mit einem standardisierten Algorithmus zur Erkennung von Communitys. Daraus ergaben sich 340 unabhängige Bereiche wirtschaftlicher Aktivität, die sich mit anderen Werten der geografischen und ökonomischen Verteilung überschnitten. "Das Ergebnis zeigt, dass die Mobilität, die sich aus den mit Geodaten versehenen Tweets ergibt, zusammen mit den ermittelten Communitys eine gute Beschreibung ökonomischer Regionen ist", heißt es in der Studie.

Schließlich schauten sich die Forscher die Arbeitslosenquoten dieser Regionen an und setzten Datamining ein, um Korrelationen mit den Twitter-Aktivitäten zu bestimmen.

Die Ergebnisse zeigen, dass es klare Unterschiede zwischen Regionen mit hoher und niedriger Arbeitslosigkeit gibt. Beispielsweise ist die Anzahl der Tweets zwischen 9 Uhr am Morgen und der Tagesmitte an Werktagen dort deutlich höher, wo es viele Arbeitslose gibt. Diese Tweets enthalten zudem mit größerer Wahrscheinlichkeit Worte wie "Job" oder "Arbeitslosigkeit". Die Nachrichten enthalten außerdem häufiger Rechtschreibfehler, so Llorente und sein Team, was möglicherweise von einem niedrigeren Bildungsniveau herrühren könne. "Wir zeigen, dass Verhaltensweisen, die mit Arbeitslosigkeit zusammenhängen, aus den digitalen Spuren bei Twitter herausgelesen werden können."

Das ist wichtig, weil es zeigt, dass sich über den Kurznachrichtendienst offenbar deutlich einfacher sozioökonomische Analysen durchführen lassen, als dies bislang über traditionelle Wege wie Umfragen möglich war. Letztere sind so teuer, dass sie in manchen Ländern in Zeiten wirtschaftlicher Krisen schon aus Budgetgründen nicht mehr regelmäßig durchgeführt werden.

Die Nutzung von Twitter und Co. halten Llorente und seine Kollegen daher für eine interessante Alternative. Hinzu kommt, dass dies Staat und Politikern erlaube, Veränderungen in der Bevölkerung zu überwachen – und das sehr schnell. "Die Unmittelbarkeit sozialer Medien könnte der Regierung außerdem erlauben, die Auswirkungen von Politik, sozialer Veränderungen oder natürlicher und menschengemachter Katastrophen auf die wirtschaftlichen Bedingungen von Städten fast in Echtzeit zu betrachten", so Llorente. Die Forscher hoffen, dass sich ihre Methode auch auf andere Ländern übertragen lässt.

Nicht alle Sozialwissenschaftler glauben allerdings daran, dass die Daten von Twitter und Co. genau genug sind. Ein Forscherteam der Carnegie Mellon University schrieb kürzlich, viele aktuelle Studien sozialer Medien seien problematisch, weil das Verhalten der Nutzer durch die Plattform beeinflusst sei und sich Menschen nicht unbedingt ehrlich verhielten. ()