Perlentaucher im Datenozean
Das EU-Projekt Crisp soll helfen, den Daten-Tsunami zu bewältigen, der am weltgrößten Teilchenbeschleuniger LHC entsteht.
- Christian J. Meier
Das EU-Projekt Crisp soll helfen, den Daten-Tsunami zu bewältigen, der am weltgrößten Teilchenbeschleuniger LHC entsteht.
Mit Big Data kämpft nicht nur die Industrie, sondern vor allem auch die Wissenschaft. Am weltgrößten Teilchenbeschleuniger Large Hadron Collider (LHC) werden 99 Prozent der Messdaten verworfen, weil die Speicher sie nicht fassen können. Obwohl die Daten zuvor automatisch nach ihrem Forschungsnutzen bewertet werden, landen dabei wohl auch wissenschaftliche Erkenntnisse im digitalen Nichts. Für ein Großprojekt, das drei Milliarden Euro gekostet hat, ist das pure Verschwendung. Das Problem wird sich mit neuen Großprojekten verschärfen: Der Röntgenlaser European XFEL bei Hamburg wird ab 2017 Daten en masse produzieren. Pro Jahr dürften 50 Millionen Gigabyte auflaufen. Auf DVDs gebrannt, wäre der Stapel zwölf Kilometer hoch.
Ein mehrjähriges EU-Projekt namens Crisp (Cluster of Research Infrastructures for Synergies in Physics) soll helfen, den Daten-Tsunami zu bewältigen. Crisp teilt die Messwerte schnell in nützlich und unnütz ein. Die nützlichen Daten werden so gespeichert, dass sie leicht wieder auffindbar sind. Mehrere europäische Großforschungsanlagen sind an Crisp beteiligt, darunter neben dem Schweizer Cern auch der deutsche Teilchenbeschleuniger Desy in Hamburg, der den European XFEL betreiben wird. In dem neu entstehenden Datenmanagement sieht Laurence Field, Crisp-Forscher am Cern, auch einen wirtschaftlichen Nutzen: "Daten sind das wertvollste Kapital vieler Firmen. Die von uns entwickelten Verbesserungen in ihrem Management und ihrer Archivierung könnten breite Auswirkungen in der Industrie haben."
Doch so groß der Nutzen ist, so hoch sind die Hürden bei der konkreten Umsetzung. Das Crisp-Prinzip muss an jede Anlage angepasst werden. Am LHC ist diese Aufgabe noch vergleichsweise leicht zu lösen, weil dort vier langfristig angelegte Großexperimente laufen. Doch je vielfältiger die Experimente in den Laboren sind, umso schwerer fällt die automatische Datenanalyse. Beim neuen Röntgenlaser XFEL etwa werden sich viele Teams abwechseln, jedes mit anderen Zielen. "Die Kriterien, welche Messwerte nützlich und welche unnütz sind, werden sich von Experiment zu Experiment ändern", erklärt Krzysztof Wrona, zuständig für die Datenlese beim XFEL und ebenfalls an Crisp beteiligt.
Die Crisp-Entwickler haben daher eine Schnittstelle geschaffen, über die der Forscher selbst einen Algorithmus für die Datenfilterung eingibt, der die individuellen Prioritätskriterien enthält. Das Kriterium kann bei einem XFEL-Experiment etwa sein: Hat der Strahl das Molekül überhaupt getrof- fen? Falls ja, wird das Bild gespeichert – und nur dann. Diese Entscheidung muss die Software in wenigen millionstel Sekunden treffen. Ist der Algorithmus optimiert, hofft Wrona, etwa 80 bis 90 Prozent der Daten herausfiltern zu können, ohne dass wertvolle Ergebnisse verloren gehen. Sorge bereitet ihm aber noch die Hardware. "Am Markt werden Festplatten größer, oder sie werden schneller. Wir aber bräuchten beides." (bsc)