Programmieren mit Julia, Teil 3: Big Data Science und GPUs
Julia enthält Bibliotheken und Frameworks für paralleles und verteiltes Rechnen. Prozesse für komplexe Berechnungen sind ohne großen Overhead durchführbar.

- Stephan Sahm
Big Data beschreibt extrem große, vielfältige und schnell wachsende Datenmengen, die ein verteiltes Verarbeiten und eine Analyse über mehrere Maschinen erfordern. Dabei sind zum einen Daten zu speichern, wobei verteilte Dateisysteme wie S3 die häufigste und günstigste Option sind. Datenbanken lassen sich oft nur beschränkt für große Datenmengen skalieren. Zum anderen müssen Softwareentwicklerinnen und -entwickler Algorithmen so schreiben, dass sie auf mehreren Maschinen laufen und die großen Datenmengen in vernünftiger Zeit verarbeiten können.
Nachdem die ersten beiden Teile des Tutorials Julia – Einführung in die Programmiersprache und Data Science und ML – ihr Ökosystem und ihren Einsatz in Data Science und ML gezeigt haben, widmet sich der dritte und letzte Teil dem Verarbeiten großer Datenmengen in verteilten Systemen.
- Julia ist von Grund auf als hochperformante Sprache fĂĽr verteiltes wissenschaftliches Rechnen konzipiert.
- Die Bibliothek OnlineStats verarbeitet beliebig groĂźe Datenmengen.
- Distributed Tables (DTables) verteilen beliebige Julia-Datenstrukturen und -Funktionen ĂĽber den Arbeitsspeicher mehrerer Maschinen.
Ein etabliertes Werkzeug für Big Data ist Apache Spark, ein Open-Source-Paket für die Verarbeitung großer Datenmengen. Spark ist für Echtzeitverarbeitung und Big-Data-Anwendungen geeignet. Julia kann hier eine Alternative sein. Während in Spark nur die eingebauten Standardoperationen optimale Performanz erzielen, lässt sich in Julia beliebiger Code effizient verteilen. Zudem sind die in Julia enthaltenen Pakete für Data Scientists einfach auf Big Data skalierbar.
Das war die Leseprobe unseres heise-Plus-Artikels "Programmieren mit Julia, Teil 3: Big Data Science und GPUs". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.