Teilchenbeschleuniger: Das CERN zeigt sein Storagesystem

Experimente am CERN liefern eine Unmenge Daten. Zwei Admins zeigen zur FOSDEM24, wie die Storage-Systeme damit fertig werden.

In Pocket speichern vorlesen Druckansicht 26 Kommentare lesen
FOSDEM und CERN-Logos

(Bild: FOSDEM / Collage von heise online)

Lesezeit: 4 Min.
Von
  • David Wolski

Wer in diese Meldung nur hineinliest, hat in etwa einer Sekunde die Überschrift und in weiteren fünf Sekunden den Vorspanntext überflogen. Läuft ein größer angelegtes Experiment am Conseil Européen pour la Recherche Nucléaire (CERN), so entspricht die Menge auszuwertender Daten in dieser Zeit bis zu 600 Gigabyte. Zumindest dann, wenn der Large Hadron Collider (LHC) in Genf als Teilchenbeschleuniger eingebunden ist.

Blick auf die Tape-Bibliotheken: Magnetbänder mit automatisierten Wechslern kommen aus Kostengründen nicht nur als Archiv, sondern auch für die aktiv genutzte Datenbestände am CERN zum Einsatz.

(Bild: FOSDEM / CERN)

Zuletzt lief mit präsentablen Ergebnissen die auf neun Experimente aufgeteilte Reihe FASER unter Einbeziehung des LHC und neuer Teilchendetektoren für Neutrinos und dunkle Photonen von 2022 bis 2023. Verlorene, weil nicht aufgezeichnete Daten entsprächen verlorener Zeit bei teuren, lange vorbereiteten Experimenten. Das gäbe bei oft hunderten beteiligten Wissenschaftlern erheblichen Ärger für die IT des CERN, die auf der FOSDEM24 mit zwei Admins vertreten war, die den aktuellen Stand der Speicherlösung in einem dicht gepackten Talk vorstellten.

Aktuell speichert das CERN im Rechenzentrum auf dem eigenen Gelände rund 750 Petabyte Daten. Die Entwicklung begann 2010, als für die Magnetband-Bibliotheken der Superlative eine Abstraktionsschicht notwendig wurde, um einigermaßen flott mit Petabyte jonglieren zu können. Der Meilenstein von 100 Petabyte – das sind laut der Admins schon keine Rohdaten aus Detektoren mehr, sondern bereits gefilterte Experimentaufzeichnungen – erreichte das CERN vor gut zehn Jahren.

Mit dem vorhandenen Budget gelingt der Umgang mit diesen Datenmengen nur über ein Speichermedium, das schon als Anachronismus erscheint: Magnetband-Datenträger. In fünf automatisierten Bibliotheken, dem CERN Tape Archive (CTA), sind dabei 60.000 Magnetbänder im Einsatz. Dies ist nicht nur ein Langzeitspeicher als Archiv. Auf den Bändern liegen auch aktiv genutzte Daten. Weil diese Speichermedien dann allein für den Zugriff zu langsam wären, gerade bei Wechseln durch die vorhandene Robotik, gibt es als Zwischenspeicher und für Meta-Daten noch 180 Festplatten zur Unterstützung. Die Meta-Daten liegen dabei in PostgreSQL-Datenbanken. Für die Verwaltung der Bänder und der Daten gibt es einen eigenen Satz an Kommandozeilenzeilen-Tools, der die Administration vereinfacht. Für die Entwicklung gibt es das CTA als virtualisierte Umgebung auf der Basis von Kubernetes.

Im Inneren der Magnetband-Bibliothek.

(Bild: FOSDEM / CERN)

Die selbst entwickelte Storage-Lösung am CERN nutzt durchgehend Open-Source-Komponenten und die eigene Software steht unter der GNU GPL 3.0. Dazu gehört nicht nur die Administrations-Software im Backend, sondern auch das Frontend. Dem hat das CERN den Namen EOS gegeben, als rekursives Akronym für "EOS Open Storage". Dessen Aufgabe ist die Bereitstellung der Daten und Protokolle aus dem Backend per Shell. Der Zugriff muss für Wissenschaftler praxisorientiert, schnell zu erlernen und leicht auf Linux-, Windows- und macOS-Clients umzusetzen sein. Physiker sind nicht immer auch IT-Experten. Außerdem gilt es, Hunderte gleichzeitig verbundene Client-Geräte zu bedienen – nicht nur vor Ort, sondern auch über eine Internetverbindung.

Das erfordert ein breites Spektrum an Protokollen: EOS als Abstraktionsschicht unterstützt WebDAV, FUSE, SMB/CIFS sowie die eigene Open-Source-Entwicklung xrootd. Aber auch eine Authentifizierung und ein rollenbasiertes Zugriffsmanagement sind vonnöten, die mit Kerberos 5, X.509, Hardware-Tokens, temporär über Shared-Secrets und lokal per SSH umgesetzt werden. Über einen Shell-Account präsentiert sich das EOS-Dateisystem interaktiv: Eine Kommandozeile erlaubt Kommandos wie ls, mkdir und andere, die den GNU Coreutils von UNIX-Systemen nachempfunden sind. Zusammen mit den Daten aus dem Backend und den weiteren Bestandsdaten in Home-Directories verwaltet EOS über 930 Petabyte Daten.

Für die Zusammenarbeit mit anderen Forschungseinrichtungen und individuellen Forschern gibt es für Komfort an den Arbeitsplätzen die Cloud-Lösung CERNBox. Diese basiert auf Owncloud für das Ablegen und Teilen von Dokumenten für insgesamt 37.000 Benutzer, von denen etwa 10.000 aktiv im Monat das System nutzen. Owncloud regiert dabei über 3,6 Milliarden Dateien von Anwendern, die rund 20 Petabyte ausmachen.

Eine Fülle weiterer Details gibt eine Präsentation zum Talk der CERN-Admins preis, die auf den eigenen Servern des CERNs vorliegt.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(dmk)