Warum „Storage“ das Fundament jeder erfolgreichen Analytics-Strategie ist

  • Beitrag vom 13.09.2019

Auf absehbare Zeit werden Hybrid- und Multi-Cloud-Lösungen das Mittel der Wahl sein. Performance ist alles. Gerade beim Thema Storage. Auf was kommt es an?

Aktuell werden vielerorts mehr Daten generiert, als verarbeitet werden können. Umso wichtiger ist es, eine Strategie zu entwickeln, mit der ein größtmöglicher Nutzen auf Basis der Datenressourcen erzielet wird. Um dieses Ziel zu erreichen, müssen zunehmend Use Cases der Echtzeitanalyse eingesetzt werden. Das wiederum setzt Software und Hardware voraus, die diese Anwendungsanforderungen unterstützen.

Egal, ob es um Daten für Hadoop Software, spaltenbasierte Open-Source-Lösungen wie Cassandra, Oracle Datenbanken oder Ihre SAP HANA Plattform geht: Die Technologie, mit der diese Daten gespeichert und verwaltet werden, sollten für das Anwendungsszenario passen; sollten zum „Gebrauch“ der Daten passen

Auswahl der Richtigen Storage-Konzepte

Dank der konstanten Weiterentwicklung im Bereich der Speichertechnologien können heute größere Datenmengen verarbeitet werden, während die Kosten dafür sinken. Das hat die notwendigen Voraussetzungen für die heutigen datenintensiven Workloads geschaffen. Schnelle Speichertechnologien wie DRAM sind allerdings immer noch teurer als niedrigere Storage-Tiers wie NAND, SSD und Festplatten. Darüber hinaus steigen die Kosten meist exponentiell, wenn diese Art von Speicher erweitert werden muss. Mit 265 GB pro Slot ist die maximale Kapazität dann erreicht. Mit anderen Worten: Bei Echtzeit-Analytics-Anwendungen, die große Datenmengen möglichst nah an der CPU erfordern, kann die Speicherkapazität schnell zum „Flaschenhals“ werden. Gleichzeitig führt das Abrufen der Daten von niedrigeren Storage-Tiers zu hohen Latenzzeiten und damit zu einem schlechten Kosten-Performance-Verhältnis.

Einen Ausweg bieten Lösungen im Bereich Arbeits- und Massenspeicher – wie etwa Intel Optane SSDs für Rechenzentren. Sie basieren auf einer nichtflüchtigen Speichertechnologie mit DRAM-ähnlicher Leistung und der Persistenz von SSD-Speicher. Das Zusammenspiel von Arbeits- und Massenspeicher wird dadurch verbessert, ebenso wie das Kosten-Performance-Verhältnis für umfangreiche In-Memory-Workloads wie Advanced Analytics und KI. Außerdem bietet es Entwicklern neuer KI- und Analytics-Anwendungen mehr Optionen und bessere Unterstützung durch die Hardware-Plattform.

Den nächsten Schritt in dieser Entwicklung hat Intel gerade mit persistentem Intel Optane DC Speicher und skalierbaren Intel Xeon Prozessoren der neusten Generation gemacht. Im Zusammenspiel bieten beide eine einmalige Kombination aus Leistung und Persistenz zu einem erschwinglichen Preis. Indem größere Datenmengen näher zum Prozessor verschoben und dort vorgehalten werden, wird die Ausführung von Workloads und Diensten optimiert. In der Folge verringern sich die Latenzzeiten, und die Gesamtleistung verbessert sich.

Entwicklung der Storage-Strategie

Wie bereits erwähnt: Die Auswahl der Storage-Technologie hängt von den individuellen Anforderungen des Unternehmens ab. Somit sollte sich jeder Ansatz nach den konkreten Bedarfen richten. Ein Beispiel: Wenn keine sehr zeit- oder speicherintensiven Analytics erfordern, ist  vermutlich besser, wenn weiterhin auf traditionelle Konzepte gesetzt wird.  Die folgenden Faustregeln helfen dabei, eine Strategie zu entwickeln, die alle wichtigen Aspekte abdeckt.

  1. Vermeiden Sie kurzfristige taktische Maßnahmen und aus überschwänglicher Begeisterung entstandene Projekte. Setzen Sie stattdessen auf eine umfassende und langfristige Datenstrategie. Stellen Sie sicher, dass alle Beteiligten die Unternehmensziele und Erfolgskriterien vor Augen haben und wissen, welche Daten sie als Grundlage für Entscheidungen und Analysen heranziehen sollen.
  2. Prüfen Sie sehr genau, welche IT-Variablen, Anforderungen und Kriterien bei der Erfassung, Speicherung und Verwendung Ihrer Daten eine Rolle spielen. Hier einige Denkanstöße dazu:
    • Legacy-Anwendungen – Welche geschäftskritische Software nutzen Ihre Mitarbeiter? Wie können Sie diese in Ihre In-Memory-Analytics-Strategie einbinden, ohne dass Performance, Verfügbarkeit und Sicherheit darunter leiden?
    • Workload-Platzierung – Die meisten Unternehmen arbeiten heute mit einem hybriden Multi-Cloud-Modell, bei dem unterschiedliche Workloads und Anwendungen auf das Rechenzentrum vor Ort, eine lokale oder gehostete Private Cloud und eine Public Cloud verteilt werden. Legen Sie klare und reproduzierbare Kriterien fest, anhand derer Sie entscheiden, welche Workloads in welcher Umgebung ausgeführt werden. Stellen Sie sicher, dass dabei auch die Workloads für In-Memory-Analytics berücksichtigt werden.
    • Agilität und Markteinführungszeit – Die Use Cases für In-Memory-Analytics konzentrieren sich auf Echtzeit-Erkenntnisse und -Maßnahmen. Sie können dazu beitragen, das Unternehmen agiler zu machen und Markteinführungszeiten zu verkürzen. Bei weniger zeitkritischen Prozessen sind Sie dagegen mit der Batch-Verarbeitung bzw. anderen traditionellen und kostengünstigeren Ansätzen besser beraten.
    • Speicherkapazitäten – Um Echtzeit-Erkenntnisse und -Maßnahmen liefern zu können, verbrauchen In-Memory-Workloads – ebenso wie alle anderen Advanced-Analytics-Workloads – ungeheure Speichermengen. Sowohl der Arbeits- als auch der Massenspeicher müssen diesen Anforderungen gerecht werden. Technologien wie persistenter Intel® Optane™ DC Speicher liefern Ihnen kostengünstig die Kapazität, Leistung und Persistenz, die zur Verarbeitung Ihrer Hot Data notwendig sind.
    • Kadenz – Prüfen Sie bei jedem neuen Datenelement, wie Sie damit verfahren wollen. Ausschlaggebend ist, welchen Zweck die Daten erfüllen sollen. Manche Datenelemente fallen zum Beispiel häufig und/oder regelmäßig an, dafür nur in geringen Mengen. Andere wiederum werden in großen Mengen erfasst, können aber in Batches verarbeitet werden. Die Anforderungen an Hardware und Software sind jeweils unterschiedlich und sollten in Ihrer Strategie berücksichtigt werden.
  3. Stellen Sie sicher, dass Ihre Mitarbeiter über die notwendigen Kompetenzen verfügen, um die geplanten Maßnahmen erfolgreich umzusetzen und zu monetarisieren. Sie können entweder Mitarbeiter in diesem Bereich weiterbilden oder neue Mitarbeiter mit dem entsprechenden Kompetenzprofil einstellen.
  4. Einige grundlegende Richtlinien für die Architektur Ihrer In-Memory-Datenbank:
    • Schaffen Sie eine verteilte Umgebung, in der einzelne Komponenten wie CPU, Arbeits- und Massenspeicher bei Bedarf erweitert werden können.
    • Stellen Sie eine relationale und multimodale Umgebung her, die SQL-Datenbanken und semistrukturierte Daten wir JSON* unterstützt.
    • Sorgen Sie für Mixed-Media-Unterstützung, damit nicht mehr aktuelle Daten in andere Storage-Tiers verschoben werden können. Das verringert die Kosten für die Datenverwaltung, ohne dass Latenz oder Analytics-Performance beeinträchtigt werden.