So schön können Daten sein

Schluss mit Tabellen und Tortendiagrammen: Neue Darstellungsformen machen Zahlenberge leichter zugänglich. Dank Visual Analytics lassen sich Daten sogar dann erkunden, wenn man noch nicht einmal weiß, wonach man eigentlich sucht.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Lesezeit: 13 Min.
Von
  • Holger Dambeck
Inhaltsverzeichnis

Schluss mit Tabellen und Tortendiagrammen: Neue Darstellungsformen machen Zahlenberge leichter zugänglich. Dank Visual Analytics lassen sich Daten sogar dann erkunden, wenn man noch nicht einmal weiß, wonach man eigentlich sucht.

Ein Daten-Tsunami rollt auf die Menschheit zu. 2011 wurden weltweit zusammengerechnet fast zwei Zettabyte (zwei Billionen Gigabyte) erzeugt. Das entspricht dem Speichervermögen von 200 Milliarden DVDs. Alle zwei Jahre verdoppelt sich das neu hinzukommende Informationsvolumen, wie die Marktforscher von IDC berechnet haben. Was Systemadministratoren Schweißperlen auf die Stirn treibt, hält der Londoner Infografiker David McCandless für eine große Chance. "Daten sind das neue Öl", sagt er und sieht sich als einer der Pioniere in der Erkundung der virtuellen Schätze. Denn nur wer die Informationsberge auch analysiert, kann sie tatsächlich nutzen. Das von McCandless dabei bevorzugte Werkzeug heißt Visualisierung.

Sein Buch "Information is Beautiful" ist prall gefüllt mit Infografiken, die Excel- und Powerpoint-Nutzer verblüffen. Statt Balken und Torten zeigt McCandless bunte Kreise verschiedener Größe, Begriffswolken oder Streifen, die ihre Farbe verändern. So erkennt man auf einen Blick, wie sich Modefarben von Jahr zu Jahr ändern oder welche Methoden der Alternativmedizin populär und zugleich von fragwürdigem Nutzen sind.

Was McCandless macht, ist Kunst mit Zahlen. Doch es geht ihm nicht allein um schöne Grafiken. Er will komplexe Informationen leicht verständlich aufbereiten. Seine Arbeiten stehen für einen neuen Trend in Wirtschaft, Forschung und Medien. Wer Daten geschickt visualisiert, kann bislang unbekannte Zusammenhänge schneller erkennen. Mithilfe der sogenannten Visual Analytics, das glauben viele Informatiker, können Menschen die Informationsflut des 21. Jahrhunderts besser beherrschen.

So schön können Daten sein (4 Bilder)

Visualisierung von Kreditkarten-Betrügereien: Wo sich Muster ergeben, sind offenbar Banden mit einem einheitlichen Vorgehen am Werk (Screenshot). (Bild: Andreas Dantz/flickr.com)

Welch enormes Potenzial in Infografiken steckt, hat ein Visualisierungswettbewerb gezeigt, den McCandless Anfang des Jahres startete. Der Londoner stellte eine Excel-Tabelle mit Wirtschaftsdaten aus der Filmbranche ins Netz und lobte 5000 Dollar Preisgeld für die besten Visualisierungen aus. 671 Filme der Jahre 2007 bis 2011 umfasste die Liste – darunter Blockbuster wie "Avatar", Animationen wie "Wall-E" und Michael Moores Dokumentation "Sicko".

Zu jedem Streifen gehörte ein ganzer Satz von Daten wie Filmgenre, Studio, Umsatz, Gewinn, Rendite, Einspielergebnis am ersten Wochenende und Kritikerbewertung. Es ist kein Problem, diese Daten in einer Excel-Tabelle nach einem bestimmten Kriterium zu sortieren, etwa nach der Rendite. Komplexere Zusammenhänge aber, zum Beispiel zwischen Genre, Budget und Kritikerbewertung, erkennt man beim Durchscrollen Hunderter Zeilen kaum – dafür jedoch mit den Visualisierungen. "Die Einsendungen waren viel einfallsreicher, origineller und verrückter, als wir erwartet haben", erklärte McCandless. Die grafischen Umsetzungen reichen von einer Tetris-ähnlichen Block-Optik über farbige Kreise unterschiedlicher Größe bis zu einer Darstellung, die an eine Bevölkerungspyramide erinnert.

Die spannendsten Erkenntnisse erlauben jedoch die eingereichten interaktiven Grafiken. Sie sind sämtlich online, und es lohnt sich, mit ihnen zu spielen. Beim "Hollywood Data Explorer" des Kanadiers James Fisher, einem klassischen Diagramm mit X- und Y-Achse, kann der Anwender beispielsweise frei wählen, welche Größen zueinander in Beziehung gesetzt werden sollen. Jeder Film ist ein Kreis – die Kreisfläche repräsentiert eine weitere, vom Anwender frei wählbare Größe wie Profit oder Budget. Die Kreise lassen sich zusätzlich farblich kodieren, sodass die Grafik bis zu vier Größen in nur zwei räumlichen Dimensionen darstellt. Mit ein paar Klicks kann man die Daten immer wieder neu arrangieren – und Verblüffendes dabei entdecken. Zum Beispiel, dass schlechte Kritiken weder den Umsatz noch die Profitabilität schmälern. Und dass die profitabelsten Filme vergleichsweise kleine Budgets haben.

Für den Fraunhofer-Forscher Jörn Kohlhammer ist das interaktive Spiel mit Filmkennzahlen ein Paradebeispiel für Visual Analytics: "Das Analysieren geht damit einfach schneller als mit der gängigen Methode, durch Excel-Sheets zu scrollen." Kohlhammer hat mit seinen Kollegen vom Institut für Graphische Datenverarbeitung (IGD) in Darmstadt verschiedene Typen von Visualisierungen entwickelt. Stets geht es dabei um große Datenmengen, die sich mit herkömmlichen Mitteln kaum darstellen lassen. Zudem sind die Daten in der Regel hoch- dimensional. Das heißt: Ein einzelner Datensatz besteht wie beim Beispiel der Hollywoodfilme aus zehn oder mehr Werten. Dafür bräuchte man ein mindestens zehndimensionales Diagramm, das wir Menschen jedoch weder erzeugen noch verarbeiten können.

Normalerweise analysiert man solche Datenberge mit sogenanntem Data Mining. Statistische Programme durchsuchen sie nach Mustern oder Auffälligkeiten. Das funktioniert in der Regel aber nur, wenn das Problem bereits so gut verstanden ist, dass sich ein passender Algorithmus zur Analyse programmieren lässt. "Ich weiß bei vielen Daten jedoch nicht, wonach ich suchen soll", erklärt Kohlhammer. Visual Analytics macht sich nun zunutze, dass wir Menschen im Erkennen von Mustern aller Art bestens trainiert sind. Wenn wir uns Formen und Farben anschauen, können wir viel mehr Informationen aufnehmen als beim Lesen von Text oder beim Überfliegen einer Tabelle. Und wenn die Grafiken dann auch noch interaktiv sind, können Betrachter den aufgespürten Besonderheiten direkt auf den Grund gehen.

Beim Blick auf die gesamten Daten entdecken Nutzer möglicherweise auffällige Muster oder Ballungen. Im nächsten Schritt können sie näher an diese Daten heranzoomen oder sie filtern. So lassen sich ganz gezielt einzelne auffällige Datensätze auffinden und im Detail analysieren.

Wie das in der Praxis funktioniert, zeigt eine Anwendung, die Fraunhofer-Forscher für eine Bank entwickelt haben. "Viele Kunden dieser Bank sind geschäftlich miteinander verbunden, direkt oder indirekt", erklärt Kohlhammer. Diese Beziehungen seien in der Risikoplanung jedoch nicht umfassend genug berücksichtigt. Beispielsweise kann ein Handwerksbetrieb in den Diensten verschiedener Firmen stehen, die sämtlich als Zulieferer für große Maschinenbauer arbeiten. Wenn die gesamte Maschinenbaubranche in Schieflage gerät, drohen auch dem Handwerker Probleme. Kohlhammers Team hat deshalb ein Netzwerk entworfen, das die Geschäftsbeziehungen der Bankkunden untereinander über Verbindungslinien abbildet.

Jeder Knoten im Netzwerk repräsentiert ein Unternehmen. Ihm wird je nach finanzieller Situation eine Farbe zugewiesen. Grün steht für erfolgreiche Kunden, Rot für solche mit finanziellen Problemen. "Man erkennt sehr schnell, ob sich ein Kunde in einem wirtschaftlich schwierigen Umfeld befindet", erklärt Kohlhammer. Berater können sich die Umgebung eines Kunden anschauen und dann individuell entscheiden: Hat vielleicht ein Klient finanzielle Schwierigkeiten, obwohl in seiner Umgebung die Firmen boomen? Das könnte auf individuelle Schwächen hindeuten – und zugleich auf Chancen für das künftige Geschäft. Ein wichtiges Werkzeug der Visual Analytics sind neue Darstellungsformen.

Sie heißen beispielsweise "Bubble Race", "Sun Burst" oder "Icicle Tree". Manchmal lassen sich etablierte Visualisierungen auch geschickt weiterentwickeln, wie etwa die Darstellung von Wahlergebnissen auf einer Landkarte. Nach einer Bundestagswahl wird üblicherweise jedem Wahlkreis die Farbe jener Partei zugewiesen, die dort die meisten Stimmen geholt hat. Die Deutschlandkarte von 2009 war überwiegend schwarz, weil die meisten Wahlkreise an die Union gegangen waren. Nur vereinzelt tauchten Rot (SPD) und Violett (Die Linke) auf.

Diese Darstellung vermittelt jedoch ein ungenaues Bild: Wahlkreise, in denen CDU/CSU knapp gewonnen hat, sehen genauso aus wie jene, in denen sie mit großem Abstand triumphiert hat. Forscher der Universität Konstanz schlagen deshalb ein sogenanntes Gradient Coloring vor. Ein Wahlkreis ist dann zweifarbig. Die Mitte ist zum Beispiel schwarz, wenn CDU/CSU die meisten Stimmen erhielt. Zu den Rändern hin geht das Schwarz in Rot oder Violett über, je nachdem, ob SPD oder Die Linke die zweitstärkste Partei geworden ist. Die neu kolorierte Deutschlandkarte vermittelt damit einen viel besseren Eindruck über die tatsächlichen Stimmverhältnisse: Nur der Süden ist tatsächlich überwiegend Schwarz, im übrigen Deutschland mischt es sich häufig mit Rot und Violett. Bei geografischen Daten liegt die Visualisierung als Landkarte auf der Hand.

Eine größere Herausforderung ist die grafische Umsetzung von Daten, die keinen solch unmittelbaren räumlichen Bezug haben. Ein Beispiel dafür ist die Identifizierung von Kreditkartenbetrügern. Jede Buchung besteht aus zehn und mehr Einzelfeldern wie Betrag, Kartennummer, Ort, Händler und Zeitpunkt. Jörn Kohlhammer und seine Kollegen erstellen von Tausenden bereits abgerechneten Buchungen aus mehreren Wochen eine einzige große, KVMap genannte Karte. Sie besteht aus kleinen Quadraten. Jedes Quadrat repräsentiert eine bestimmte Kombination von Buchungsdaten – zum Beispiel Zahlungen in Spanien dienstagnachts an einer Tankstelle mit einer Visa-Karte aus Deutschland. Die KVMap erlaubt, sechs, sieben und mehr Merkmale von Buchungen zugleich darzustellen.

Aus der Zahl der Betrugsmeldungen haben die Forscher für jede einzelne dieser Kombinationen berechnet, ob für sie ein erhöhtes, verringertes oder durchschnittliches Betrugsrisiko besteht. Entsprechend wird das Quadrat dann rot (Risiko erhöht), blau (Risiko geringer), weiß (Risiko normal) oder grau (keine Daten vorhanden) gefärbt. Würden die Betrüger ganz ohne System vorgehen, dann wären die roten Zellen vollkommen zufällig verteilt. Die KVMap sähe aus wie ein verrauschtes Fernsehbild, das keinerlei Rückschlüsse über verdächtige Buchungen erlaubt.

Zum Glück können Betrüger sich nie vollständig zufällig verhalten. Sie hinterlassen immer wieder Spuren, die sich in der Visualisierung als Muster abzeichnen – beispielsweise abwechselnd blaue und rote Reihen oder Spalten. Wenn die Forscher auf der KVMap solche offensichtlich nicht zufälligen Farbmuster entdecken, handelt es sich womöglich um eine Betrugsmasche. Da es verschiedene Gruppen von Betrügern gibt, können in verschiedenen Bereichen der KVMap unterschiedliche Muster auftauchen. Der Bearbeiter kann diese Muster dann mit einem Mausklick auswählen und die Buchungen genauer unter die Lupe nehmen. "Das ist so, als würde man eine Nadel im Heuhaufen zum Leuchten bringen", erklärt Kohlhammer die Methode.

Das gewonnene Wissen über Betrugsmaschen lässt sich dann auch bei neu einlaufenden Buchungen nutzen – etwa indem die Kreditkartenfirma bei einer dubiosen Buchung den Besitzer der Karte anruft. Das Ganze bleibt jedoch ein Katz-und-Maus-Spiel. Wenn die Betrüger zu oft scheitern, ändern sie ihre Strategie – und diese manifestiert sich dann einige Wochen später als neuartiges Muster in der KVMap.

Eine ähnliche Darstellung haben Forscher der Universität Konstanz für die Analyse von Twitter-Nachrichten verwendet. Daniel Keim und seine Kollegen wollten wissen, wie der Animationsfilm "Kung Fu Panda 2" in Tweets diskutiert wird. Überwiegen positive Äußerungen? Was wird negativ gesehen? Und hat sich die Richtung der Diskussion im Laufe der Zeit verändert?

Fast 60.000 Tweets aus den Zeitraum zwischen dem 26. und 30. Mai 2011 – den ersten fünf Tagen nach dem Filmstart in den USA – werteten die Forscher mit einer sogenannten Sentiment-Analyse aus. Dabei werden den Begriffen in einer Twitter-Nachricht bestimmte Emotionswerte zugeordnet, um im Anschluss daraus die Stimmung des Tweets berechnen zu können. Jeder einzelne Tweet wird von einem farbigen Pixel repräsentiert – Grün steht dabei für positive, Weiß für neutrale, Rot für negative Reaktionen.

Insgesamt bilden die Tweets einen überwiegend grünen Streifen, denn das Echo war fast durchgehend positiv. Interessant sind aber die Details: Negative Meinungen haben fast sämtlich damit zu tun, dass ein Pfau die Rolle eines bösen Herrschers spielt, was vielen Twitter-Nutzern wohl missfiel. Keims Team hat zudem die am 29. Mai gehäuft aufgetretenen ablehnenden Kommentare unter die Lupe genommen und festgestellt, dass sie offensichtlich alle auf ein Tweet des bekannten US-Talkshow-Moderators Conan O'Brien zurückgehen: "Ein böser Pfau in Kung Fu Panda 2", schrieb er, "diese Kinderfilme sind so unrealistisch".

Die verwendete Darstellungsform, die Forscher nennen sie "Zellbasierten Stimmungskalender", ist universell einsetzbar. Unternehmen können damit in Echtzeit verfolgen, wie ihre Produkte in den sozialen Netzwerken diskutiert werden. Häufen sich negative Äußerungen, kann man diese nach bestimmten Begriffen filtern und gruppieren. Und falls es einen gemeinsamen Ursprung aller negativen Kommentare gibt wie im Fall von "Kung Fu Panda 2", findet sich dieser wahrscheinlich auch.

Die automatische Textanalyse nutzen Unternehmen wie Hewlett-Packard (HP) inzwischen, um das Feedback ihrer Kunden verarbeiten zu können. Die Zahl der Kommentare ist nämlich so groß, dass es kaum möglich ist, alle einzeln zu lesen. Also werden die Texte zunächst hinsichtlich der in ihnen zum Ausdruck gebrachten Stimmung analysiert und vorsortiert. HP hat für die Kommentare seiner Kunden beispielsweise eine Visualisierung entwickelt, die auf einen Blick zeigt, wo die Kunden die Stärken und Schwächen verschiedener Druckermodelle sehen.

Eine normalerweise kaum überschaubare Tabelle mit 20 verschiedenen Kriterien versteht man dank der farbigen Darstellung auf einen Blick. Trotz solcher beeindruckenden Lösungen – der Forschungsbedarf ist noch groß. Für fast jede Anwendung muss bislang eine individuelle Lösung gestrickt werden. "Wir sind in einer Phase, in der es noch keine Standardprozedur für Visual Analytics gibt", sagt Fraunhofer-Experte Kohlhammer. Auf dem Markt gebe es zwar verschiedene Softwarepakete, diese eigneten sich jedoch meist nur für ganz bestimmte Daten, zum Beispiel Programme der US-Firma Tableau Software für Geschäftszahlen.

Eine vollautomatische Datenauswertung wird es mit Visual Analytics wohl trotz aller Forschung nie geben, denn die Methode kombiniert ja gerade die Stärken des Computers mit denen des Menschen. Auf der einen Seite liegt die geballte Rechenkraft – auf der anderen Seite das gute Auge für Muster und die Intuition dafür, wo sich spannende Details verbergen könnten. (bsc)