Durchblick im Datendschungel

Eine neuartige Visualisierungssoftware erleichtert es, auch enorme Informationsmengen ohne Supercomputer zu betrachten und mit ihnen zu arbeiten.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.
Von
  • Kate Greene

In einigen Bereichen der Forschung leidet die Wissenschaft unter einem besonderen Problem: Der Anhäufung zu vieler Daten. Experimente und Computersimulationen, die enorm komplexe Phänomene wie die Dynamik des Klimawandels oder die Faltung großer Proteinmoleküle verständlich machen sollen, ergeben Milliarden einzelner Informationshäppchen. Es wird stetig schwieriger, aus diesen Daten Sinnvolles zu lesen.

Forscher an der University of California in Davis und am Lawrence Livermore National Laboratory haben deshalb nun eine Software entwickelt, die die Analyse und Visualisierung großer Datenmengen ermöglichen soll, ohne dass man einen Supercomputer bemühen müsste. Die US-Wissenschaftler zerlegen die Daten dazu mit Hilfe spezieller Algorithmen in leichter handhabbare Stückchen, die sich dann "on the fly" wieder zusammensetzen lassen. Zahlenmaterial lässt sich auf diese Art in drei Dimensionen manipulieren, wozu nur die Leistung und Speicherkapazität eines aktuellen High-End-Laptops notwendig ist.

Der Algorithmus des Teams biete erstmals einen praktikablen Weg, strukturelle Informationen über komplexe Materialien, Proteine und Flüssigkeiten direkt am Arbeitsplatz zu erhalten, meint Attila Gyulassy, der das Projekt an der UC Davis leitet. Die Technik erlaube es Benutzern, Daten interaktiv zu visualisieren, Darstellungen zu drehen, verschiedene Umwandlungsfunktionen anzuwenden und unterschiedliche Aspekte des Materials hervorzuheben.

Die Software setzt dazu auf ein mathematisches Werkzeug, das sich Morse-Smale-Komplex nennt. Es wird seit rund vier Jahren verwendet, um Elemente großer Datensätze zu extrahieren und zu visualisieren, indem sie in Segmente sortiert werden, die mathematisch ähnliche Eigenschaften besitzen. Das Problem: Obwohl der Morse-Smale-Komplex bereits seit Jahrzehnten bekannt ist, benötigt er normalerweise so große Speichermengen, dass sich die notwendigen Berechnungen auf einem normalen Computer nicht mehr durchführen lassen.

Gyulassy und seine Kollegen fanden nun eine Lösung für dieses Speicherproblem: Sie schrieben einen Algorithmus, der die Datensätze auseinander nimmt, bevor sie in den Komplex gefüttert werden. Die Blöcke lassen sich dann wieder zusammensetzen. Das bedeutet, dass nur eine geringe Datenmenge bei jedem Schritt benötigt wird, so dass man auch nur relativ wenig Speicher braucht. Im Endergebnis läuft die Software so bereits auf einem Desktop-Rechner mit nur zwei Gigabyte RAM.

Speicher sei einer der großen einschränkenden Faktoren, wenn es darum gehe, komplexe Analysen großer Datenmengen vorzunehmen, sagt Peter Schröder, Professor für Computerwissenschaften am California Institute of Technology in Pasadena. "Es passt einfach nicht hinein. Die Forscher haben nun gezeigt, wie es trotzdem gehen könnte." Zwar sei der UC Davis-Ansatz nicht das einzige Visualisierungsprojekt doch erscheine es ihm besonders mächtig und gut nutzbar für eine Anzahl wissenschaftlicher Anwendungen.

Algorithmen wie der verkleinerte Morse-Smale verändern laut Schröder die Wissenschaft: "Dinge, die man früher für zu abstrakt oder zu verrückt gehalten hat, um eine Datenanalyse zu betreiben, werden heute nicht nur zu theoretischen Berechnungen, sondern zu ganz praktischen."Gyulassy und sein Team wollen bis Ende März nun eine Open-Source-Bibliothek veröffentlichen, damit auch andere Forscher ihren Ansatz nutzen können. Auch eine Anpassung für eigene Projekte werde dann möglich. (bsc)