Programmieren mit Julia, Teil 3: Big Data Science und GPUs

Julia enthält Bibliotheken und Frameworks für paralleles und verteiltes Rechnen. Prozesse für komplexe Berechnungen sind ohne großen Overhead durchführbar.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 7 Min.
Von
  • Stephan Sahm
Inhaltsverzeichnis

Big Data beschreibt extrem große, vielfältige und schnell wachsende Datenmengen, die ein verteiltes Verarbeiten und eine Analyse über mehrere Maschinen erfordern. Dabei sind zum einen Daten zu speichern, wobei verteilte Dateisysteme wie S3 die häufigste und günstigste Option sind. Datenbanken lassen sich oft nur beschränkt für große Datenmengen skalieren. Zum anderen müssen Softwareentwicklerinnen und -entwickler Algorithmen so schreiben, dass sie auf mehreren Maschinen laufen und die großen Datenmengen in vernünftiger Zeit verarbeiten können.

Nachdem die ersten beiden Teile des Tutorials Julia – Einführung in die Programmiersprache und Data Science und ML – ihr Ökosystem und ihren Einsatz in Data Science und ML gezeigt haben, widmet sich der dritte und letzte Teil dem Verarbeiten großer Datenmengen in verteilten Systemen.

iX-tract
  • Julia ist von Grund auf als hochperformante Sprache für verteiltes wissenschaftliches Rechnen konzipiert.
  • Die Bibliothek OnlineStats verarbeitet beliebig große Datenmengen.
  • Distributed Tables (DTables) verteilen beliebige Julia-Datenstrukturen und -Funktionen über den Arbeitsspeicher mehrerer Maschinen.
Mehr zum Thema Softwareentwicklung
Stephan Sahm

Stephan Sahm ist Gründer von Jolin.io, das Unternehmen mit modernen Data-Science-Tools unterstützt. Er organisiert die Julia User Group München und ist als Cloud-Architekt und Data Scientist tätig.

Ein etabliertes Werkzeug für Big Data ist Apache Spark, ein Open-Source-Paket für die Verarbeitung großer Datenmengen. Spark ist für Echtzeitverarbeitung und Big-Data-Anwendungen geeignet. Julia kann hier eine Alternative sein. Während in Spark nur die eingebauten Standardoperationen optimale Performanz erzielen, lässt sich in Julia beliebiger Code effizient verteilen. Zudem sind die in Julia enthaltenen Pakete für Data Scientists einfach auf Big Data skalierbar.

Das war die Leseprobe unseres heise-Plus-Artikels "Programmieren mit Julia, Teil 3: Big Data Science und GPUs". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.