So schön können Daten sein

Inhaltsverzeichnis

Diese Darstellung vermittelt jedoch ein ungenaues Bild: Wahlkreise, in denen CDU/CSU knapp gewonnen hat, sehen genauso aus wie jene, in denen sie mit großem Abstand triumphiert hat. Forscher der Universität Konstanz schlagen deshalb ein sogenanntes Gradient Coloring vor. Ein Wahlkreis ist dann zweifarbig. Die Mitte ist zum Beispiel schwarz, wenn CDU/CSU die meisten Stimmen erhielt. Zu den Rändern hin geht das Schwarz in Rot oder Violett über, je nachdem, ob SPD oder Die Linke die zweitstärkste Partei geworden ist. Die neu kolorierte Deutschlandkarte vermittelt damit einen viel besseren Eindruck über die tatsächlichen Stimmverhältnisse: Nur der Süden ist tatsächlich überwiegend Schwarz, im übrigen Deutschland mischt es sich häufig mit Rot und Violett. Bei geografischen Daten liegt die Visualisierung als Landkarte auf der Hand.

Eine größere Herausforderung ist die grafische Umsetzung von Daten, die keinen solch unmittelbaren räumlichen Bezug haben. Ein Beispiel dafür ist die Identifizierung von Kreditkartenbetrügern. Jede Buchung besteht aus zehn und mehr Einzelfeldern wie Betrag, Kartennummer, Ort, Händler und Zeitpunkt. Jörn Kohlhammer und seine Kollegen erstellen von Tausenden bereits abgerechneten Buchungen aus mehreren Wochen eine einzige große, KVMap genannte Karte. Sie besteht aus kleinen Quadraten. Jedes Quadrat repräsentiert eine bestimmte Kombination von Buchungsdaten – zum Beispiel Zahlungen in Spanien dienstagnachts an einer Tankstelle mit einer Visa-Karte aus Deutschland. Die KVMap erlaubt, sechs, sieben und mehr Merkmale von Buchungen zugleich darzustellen.

Aus der Zahl der Betrugsmeldungen haben die Forscher für jede einzelne dieser Kombinationen berechnet, ob für sie ein erhöhtes, verringertes oder durchschnittliches Betrugsrisiko besteht. Entsprechend wird das Quadrat dann rot (Risiko erhöht), blau (Risiko geringer), weiß (Risiko normal) oder grau (keine Daten vorhanden) gefärbt. Würden die Betrüger ganz ohne System vorgehen, dann wären die roten Zellen vollkommen zufällig verteilt. Die KVMap sähe aus wie ein verrauschtes Fernsehbild, das keinerlei Rückschlüsse über verdächtige Buchungen erlaubt.

Zum Glück können Betrüger sich nie vollständig zufällig verhalten. Sie hinterlassen immer wieder Spuren, die sich in der Visualisierung als Muster abzeichnen – beispielsweise abwechselnd blaue und rote Reihen oder Spalten. Wenn die Forscher auf der KVMap solche offensichtlich nicht zufälligen Farbmuster entdecken, handelt es sich womöglich um eine Betrugsmasche. Da es verschiedene Gruppen von Betrügern gibt, können in verschiedenen Bereichen der KVMap unterschiedliche Muster auftauchen. Der Bearbeiter kann diese Muster dann mit einem Mausklick auswählen und die Buchungen genauer unter die Lupe nehmen. "Das ist so, als würde man eine Nadel im Heuhaufen zum Leuchten bringen", erklärt Kohlhammer die Methode.

Das gewonnene Wissen über Betrugsmaschen lässt sich dann auch bei neu einlaufenden Buchungen nutzen – etwa indem die Kreditkartenfirma bei einer dubiosen Buchung den Besitzer der Karte anruft. Das Ganze bleibt jedoch ein Katz-und-Maus-Spiel. Wenn die Betrüger zu oft scheitern, ändern sie ihre Strategie – und diese manifestiert sich dann einige Wochen später als neuartiges Muster in der KVMap.

Eine ähnliche Darstellung haben Forscher der Universität Konstanz für die Analyse von Twitter-Nachrichten verwendet. Daniel Keim und seine Kollegen wollten wissen, wie der Animationsfilm "Kung Fu Panda 2" in Tweets diskutiert wird. Überwiegen positive Äußerungen? Was wird negativ gesehen? Und hat sich die Richtung der Diskussion im Laufe der Zeit verändert?

Fast 60.000 Tweets aus den Zeitraum zwischen dem 26. und 30. Mai 2011 – den ersten fünf Tagen nach dem Filmstart in den USA – werteten die Forscher mit einer sogenannten Sentiment-Analyse aus. Dabei werden den Begriffen in einer Twitter-Nachricht bestimmte Emotionswerte zugeordnet, um im Anschluss daraus die Stimmung des Tweets berechnen zu können. Jeder einzelne Tweet wird von einem farbigen Pixel repräsentiert – Grün steht dabei für positive, Weiß für neutrale, Rot für negative Reaktionen.

Insgesamt bilden die Tweets einen überwiegend grünen Streifen, denn das Echo war fast durchgehend positiv. Interessant sind aber die Details: Negative Meinungen haben fast sämtlich damit zu tun, dass ein Pfau die Rolle eines bösen Herrschers spielt, was vielen Twitter-Nutzern wohl missfiel. Keims Team hat zudem die am 29. Mai gehäuft aufgetretenen ablehnenden Kommentare unter die Lupe genommen und festgestellt, dass sie offensichtlich alle auf ein Tweet des bekannten US-Talkshow-Moderators Conan O'Brien zurückgehen: "Ein böser Pfau in Kung Fu Panda 2", schrieb er, "diese Kinderfilme sind so unrealistisch".

Die verwendete Darstellungsform, die Forscher nennen sie "Zellbasierten Stimmungskalender", ist universell einsetzbar. Unternehmen können damit in Echtzeit verfolgen, wie ihre Produkte in den sozialen Netzwerken diskutiert werden. Häufen sich negative Äußerungen, kann man diese nach bestimmten Begriffen filtern und gruppieren. Und falls es einen gemeinsamen Ursprung aller negativen Kommentare gibt wie im Fall von "Kung Fu Panda 2", findet sich dieser wahrscheinlich auch.

Die automatische Textanalyse nutzen Unternehmen wie Hewlett-Packard (HP) inzwischen, um das Feedback ihrer Kunden verarbeiten zu können. Die Zahl der Kommentare ist nämlich so groß, dass es kaum möglich ist, alle einzeln zu lesen. Also werden die Texte zunächst hinsichtlich der in ihnen zum Ausdruck gebrachten Stimmung analysiert und vorsortiert. HP hat für die Kommentare seiner Kunden beispielsweise eine Visualisierung entwickelt, die auf einen Blick zeigt, wo die Kunden die Stärken und Schwächen verschiedener Druckermodelle sehen.

Eine normalerweise kaum überschaubare Tabelle mit 20 verschiedenen Kriterien versteht man dank der farbigen Darstellung auf einen Blick. Trotz solcher beeindruckenden Lösungen – der Forschungsbedarf ist noch groß. Für fast jede Anwendung muss bislang eine individuelle Lösung gestrickt werden. "Wir sind in einer Phase, in der es noch keine Standardprozedur für Visual Analytics gibt", sagt Fraunhofer-Experte Kohlhammer. Auf dem Markt gebe es zwar verschiedene Softwarepakete, diese eigneten sich jedoch meist nur für ganz bestimmte Daten, zum Beispiel Programme der US-Firma Tableau Software für Geschäftszahlen.

Eine vollautomatische Datenauswertung wird es mit Visual Analytics wohl trotz aller Forschung nie geben, denn die Methode kombiniert ja gerade die Stärken des Computers mit denen des Menschen. Auf der einen Seite liegt die geballte Rechenkraft – auf der anderen Seite das gute Auge für Muster und die Intuition dafür, wo sich spannende Details verbergen könnten. (bsc)