Mit Apache Spark: Großrechnerdaten ohne ETL-Prozess auswerten
IBM hat eine z/OS-Plattform für Apache Spark vorgestellt. Unternehmen und Behörden sollen darüber Mainframe-Daten lokal analysieren können. Langwierige Uploads entfallen damit.
- Jürgen Diercks
Das Open-Source-Analyse-Framework Spark kann via IBMs neuer z/OS-Plattform für Apache Spark nativ auf dem Großrechnerbetriebssystem z/OS laufen. Laut Anbieter ist das notwendige Fachpersonal damit in der Lage, Daten dort zu untersuchen, wo sie entstehen. Das heißt, der ETL-Prozess entfällt komplett. Das Akronym steht für Extract, Transform, Load und charakterisiert den bisher notwendigen Weg der Rohdaten in ein Analysewerkzeug. z-Systems-Großrechner verarbeiten vermutlich immer noch die meisten Transaktionsdaten, vor allem in Banken, Versicherungen und anderen großen Unternehmen, etwa aus dem Einzelhandel oder dem Transportwesen.
Die Plattform umfasst verschiedene Open-Source-Ressourcen von Spark (Core, SQL, Streaming, Machine Learning Library, Graphx) und kombiniert sie mit der Mainframe-Datenabstraktionslösung von Spark. Als Vorteile stellt IBM beispielsweise heraus, dass Entwickler und Analysten ihr vorhandenes Know-how mit Programmiersprachen wie Scala, Python, R und SQL einsetzen können. Und Dienste zur Datenabstraktion sollen über Apache Spark-APIs einen reibungsfreien Zugriff auf Unternehmensdaten in traditionellen Formaten wie IMS, VSAM, DB2 z/OS, PDSE oder SMF bieten. Spark arbeitet mit In-Memory-Technik, um große Datenmengen schnell zu bewältigen.
Maßgeschneiderte Anwendungen folgen
Mit den drei Partnern DataFactZ, Rocket Software und Zementis will man spezielle Applikationen zum Thema entwickeln. Zementis Angebot beispielsweise soll es den Nutzern erlauben, Vorhersagemodelle anzuwenden und auszuführen, etwa um Betrugsversuche bei verdächtigen Transaktionen im Live-Betrieb aufzudecken. IBM hat nach eigenen Angaben über 3500 eigene Forscher und Entwickler entsprechenden Projekten zugeteilt. (jd)