So schön können Daten sein

Schluss mit Tabellen und Tortendiagrammen: Neue Darstellungsformen machen Zahlenberge leichter zugänglich. Dank Visual Analytics lassen sich Daten sogar dann erkunden, wenn man noch nicht einmal weiß, wonach man eigentlich sucht.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Lesezeit: 13 Min.
Von
  • Holger Dambeck
Inhaltsverzeichnis

Schluss mit Tabellen und Tortendiagrammen: Neue Darstellungsformen machen Zahlenberge leichter zugänglich. Dank Visual Analytics lassen sich Daten sogar dann erkunden, wenn man noch nicht einmal weiß, wonach man eigentlich sucht.

Ein Daten-Tsunami rollt auf die Menschheit zu. 2011 wurden weltweit zusammengerechnet fast zwei Zettabyte (zwei Billionen Gigabyte) erzeugt. Das entspricht dem Speichervermögen von 200 Milliarden DVDs. Alle zwei Jahre verdoppelt sich das neu hinzukommende Informationsvolumen, wie die Marktforscher von IDC berechnet haben. Was Systemadministratoren Schweißperlen auf die Stirn treibt, hält der Londoner Infografiker David McCandless für eine große Chance. "Daten sind das neue Öl", sagt er und sieht sich als einer der Pioniere in der Erkundung der virtuellen Schätze. Denn nur wer die Informationsberge auch analysiert, kann sie tatsächlich nutzen. Das von McCandless dabei bevorzugte Werkzeug heißt Visualisierung.

Sein Buch "Information is Beautiful" ist prall gefüllt mit Infografiken, die Excel- und Powerpoint-Nutzer verblüffen. Statt Balken und Torten zeigt McCandless bunte Kreise verschiedener Größe, Begriffswolken oder Streifen, die ihre Farbe verändern. So erkennt man auf einen Blick, wie sich Modefarben von Jahr zu Jahr ändern oder welche Methoden der Alternativmedizin populär und zugleich von fragwürdigem Nutzen sind.

Was McCandless macht, ist Kunst mit Zahlen. Doch es geht ihm nicht allein um schöne Grafiken. Er will komplexe Informationen leicht verständlich aufbereiten. Seine Arbeiten stehen für einen neuen Trend in Wirtschaft, Forschung und Medien. Wer Daten geschickt visualisiert, kann bislang unbekannte Zusammenhänge schneller erkennen. Mithilfe der sogenannten Visual Analytics, das glauben viele Informatiker, können Menschen die Informationsflut des 21. Jahrhunderts besser beherrschen.

So schön können Daten sein (4 Bilder)

Visualisierung von Kreditkarten-Betrügereien: Wo sich Muster ergeben, sind offenbar Banden mit einem einheitlichen Vorgehen am Werk (Screenshot). (Bild: Andreas Dantz/flickr.com)

Welch enormes Potenzial in Infografiken steckt, hat ein Visualisierungswettbewerb gezeigt, den McCandless Anfang des Jahres startete. Der Londoner stellte eine Excel-Tabelle mit Wirtschaftsdaten aus der Filmbranche ins Netz und lobte 5000 Dollar Preisgeld für die besten Visualisierungen aus. 671 Filme der Jahre 2007 bis 2011 umfasste die Liste – darunter Blockbuster wie "Avatar", Animationen wie "Wall-E" und Michael Moores Dokumentation "Sicko".

Zu jedem Streifen gehörte ein ganzer Satz von Daten wie Filmgenre, Studio, Umsatz, Gewinn, Rendite, Einspielergebnis am ersten Wochenende und Kritikerbewertung. Es ist kein Problem, diese Daten in einer Excel-Tabelle nach einem bestimmten Kriterium zu sortieren, etwa nach der Rendite. Komplexere Zusammenhänge aber, zum Beispiel zwischen Genre, Budget und Kritikerbewertung, erkennt man beim Durchscrollen Hunderter Zeilen kaum – dafür jedoch mit den Visualisierungen. "Die Einsendungen waren viel einfallsreicher, origineller und verrückter, als wir erwartet haben", erklärte McCandless. Die grafischen Umsetzungen reichen von einer Tetris-ähnlichen Block-Optik über farbige Kreise unterschiedlicher Größe bis zu einer Darstellung, die an eine Bevölkerungspyramide erinnert.

Die spannendsten Erkenntnisse erlauben jedoch die eingereichten interaktiven Grafiken. Sie sind sämtlich online, und es lohnt sich, mit ihnen zu spielen. Beim "Hollywood Data Explorer" des Kanadiers James Fisher, einem klassischen Diagramm mit X- und Y-Achse, kann der Anwender beispielsweise frei wählen, welche Größen zueinander in Beziehung gesetzt werden sollen. Jeder Film ist ein Kreis – die Kreisfläche repräsentiert eine weitere, vom Anwender frei wählbare Größe wie Profit oder Budget. Die Kreise lassen sich zusätzlich farblich kodieren, sodass die Grafik bis zu vier Größen in nur zwei räumlichen Dimensionen darstellt. Mit ein paar Klicks kann man die Daten immer wieder neu arrangieren – und Verblüffendes dabei entdecken. Zum Beispiel, dass schlechte Kritiken weder den Umsatz noch die Profitabilität schmälern. Und dass die profitabelsten Filme vergleichsweise kleine Budgets haben.

Für den Fraunhofer-Forscher Jörn Kohlhammer ist das interaktive Spiel mit Filmkennzahlen ein Paradebeispiel für Visual Analytics: "Das Analysieren geht damit einfach schneller als mit der gängigen Methode, durch Excel-Sheets zu scrollen." Kohlhammer hat mit seinen Kollegen vom Institut für Graphische Datenverarbeitung (IGD) in Darmstadt verschiedene Typen von Visualisierungen entwickelt. Stets geht es dabei um große Datenmengen, die sich mit herkömmlichen Mitteln kaum darstellen lassen. Zudem sind die Daten in der Regel hoch- dimensional. Das heißt: Ein einzelner Datensatz besteht wie beim Beispiel der Hollywoodfilme aus zehn oder mehr Werten. Dafür bräuchte man ein mindestens zehndimensionales Diagramm, das wir Menschen jedoch weder erzeugen noch verarbeiten können.

Normalerweise analysiert man solche Datenberge mit sogenanntem Data Mining. Statistische Programme durchsuchen sie nach Mustern oder Auffälligkeiten. Das funktioniert in der Regel aber nur, wenn das Problem bereits so gut verstanden ist, dass sich ein passender Algorithmus zur Analyse programmieren lässt. "Ich weiß bei vielen Daten jedoch nicht, wonach ich suchen soll", erklärt Kohlhammer. Visual Analytics macht sich nun zunutze, dass wir Menschen im Erkennen von Mustern aller Art bestens trainiert sind. Wenn wir uns Formen und Farben anschauen, können wir viel mehr Informationen aufnehmen als beim Lesen von Text oder beim Überfliegen einer Tabelle. Und wenn die Grafiken dann auch noch interaktiv sind, können Betrachter den aufgespürten Besonderheiten direkt auf den Grund gehen.

Beim Blick auf die gesamten Daten entdecken Nutzer möglicherweise auffällige Muster oder Ballungen. Im nächsten Schritt können sie näher an diese Daten heranzoomen oder sie filtern. So lassen sich ganz gezielt einzelne auffällige Datensätze auffinden und im Detail analysieren.

Wie das in der Praxis funktioniert, zeigt eine Anwendung, die Fraunhofer-Forscher für eine Bank entwickelt haben. "Viele Kunden dieser Bank sind geschäftlich miteinander verbunden, direkt oder indirekt", erklärt Kohlhammer. Diese Beziehungen seien in der Risikoplanung jedoch nicht umfassend genug berücksichtigt. Beispielsweise kann ein Handwerksbetrieb in den Diensten verschiedener Firmen stehen, die sämtlich als Zulieferer für große Maschinenbauer arbeiten. Wenn die gesamte Maschinenbaubranche in Schieflage gerät, drohen auch dem Handwerker Probleme. Kohlhammers Team hat deshalb ein Netzwerk entworfen, das die Geschäftsbeziehungen der Bankkunden untereinander über Verbindungslinien abbildet.

Jeder Knoten im Netzwerk repräsentiert ein Unternehmen. Ihm wird je nach finanzieller Situation eine Farbe zugewiesen. Grün steht für erfolgreiche Kunden, Rot für solche mit finanziellen Problemen. "Man erkennt sehr schnell, ob sich ein Kunde in einem wirtschaftlich schwierigen Umfeld befindet", erklärt Kohlhammer. Berater können sich die Umgebung eines Kunden anschauen und dann individuell entscheiden: Hat vielleicht ein Klient finanzielle Schwierigkeiten, obwohl in seiner Umgebung die Firmen boomen? Das könnte auf individuelle Schwächen hindeuten – und zugleich auf Chancen für das künftige Geschäft. Ein wichtiges Werkzeug der Visual Analytics sind neue Darstellungsformen.

Sie heißen beispielsweise "Bubble Race", "Sun Burst" oder "Icicle Tree". Manchmal lassen sich etablierte Visualisierungen auch geschickt weiterentwickeln, wie etwa die Darstellung von Wahlergebnissen auf einer Landkarte. Nach einer Bundestagswahl wird üblicherweise jedem Wahlkreis die Farbe jener Partei zugewiesen, die dort die meisten Stimmen geholt hat. Die Deutschlandkarte von 2009 war überwiegend schwarz, weil die meisten Wahlkreise an die Union gegangen waren. Nur vereinzelt tauchten Rot (SPD) und Violett (Die Linke) auf.