Programmieren mit Julia, Teil 3: Big Data Science und GPUs

Julia enthält Bibliotheken und Frameworks für paralleles und verteiltes Rechnen. Prozesse für komplexe Berechnungen sind ohne großen Overhead durchführbar.

Artikel verschenken

10.07.2024, 16:00 Uhr

Lesezeit: 7 Min.

iX Magazin

Von

Stephan Sahm

Programmieren mit Julia, Teil 3: Big Data Science und GPUs
Big Data mit dem Paket DTables
Clouds und High-Performance-Cluster
Parallelisieren mit MPI.jl und Dagger.jl
Fazit

Artikel in iX 8/2024 lesen

Big Data beschreibt extrem große, vielfältige und schnell wachsende Datenmengen, die ein verteiltes Verarbeiten und eine Analyse über mehrere Maschinen erfordern. Dabei sind zum einen Daten zu speichern, wobei verteilte Dateisysteme wie S3 die häufigste und günstigste Option sind. Datenbanken lassen sich oft nur beschränkt für große Datenmengen skalieren. Zum anderen müssen Softwareentwicklerinnen und -entwickler Algorithmen so schreiben, dass sie auf mehreren Maschinen laufen und die großen Datenmengen in vernünftiger Zeit verarbeiten können.

Nachdem die ersten beiden Teile des Tutorials Julia – Einführung in die Programmiersprache und Data Science und ML – ihr Ökosystem und ihren Einsatz in Data Science und ML gezeigt haben, widmet sich der dritte und letzte Teil dem Verarbeiten großer Datenmengen in verteilten Systemen.

Julia ist von Grund auf als hochperformante Sprache für verteiltes wissenschaftliches Rechnen konzipiert.
Die Bibliothek OnlineStats verarbeitet beliebig große Datenmengen.
Distributed Tables (DTables) verteilen beliebige Julia-Datenstrukturen und -Funktionen über den Arbeitsspeicher mehrerer Maschinen.

Stephan Sahm ist Gründer von Jolin.io, das Unternehmen mit modernen Data-Science-Tools unterstützt. Er organisiert die Julia User Group München und ist als Cloud-Architekt und Data Scientist tätig.

Ein etabliertes Werkzeug für Big Data ist Apache Spark, ein Open-Source-Paket für die Verarbeitung großer Datenmengen. Spark ist für Echtzeitverarbeitung und Big-Data-Anwendungen geeignet. Julia kann hier eine Alternative sein. Während in Spark nur die eingebauten Standardoperationen optimale Performanz erzielen, lässt sich in Julia beliebiger Code effizient verteilen. Zudem sind die in Julia enthaltenen Pakete für Data Scientists einfach auf Big Data skalierbar.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Minibrennstoffzelle für tragbare Geräte

Forscher in Japan haben eine handliche Brennstoffzelle entwickelt. Innen verbrennt Wasserstoff bei 600 Grad Celsius, außen erreicht das Gehäuse kaum 20 Grad.

KI-Slop: Welche Formen er annimmt und wie er Aufmerksamkeit auf sich zieht

KI-Slop verdrängt Qualitätsbeiträge. Wir inspizieren die verschiedenen Müllsorten und erklären, woran man sie erkennt.

Radonsensor im Selbstbau: Messgerät aus Konservendose

Um die Konzentration von Radon zu messen, bedarf es eines feineren Messverfahrens. Die vorgestellte Ionenkammer lässt sich mit Maker-Mitteln verwirklichen.

, Copyxspace, stock.adobe.com / heise medien

USB-C: Warum Sie eigentlich immer das falsche Kabel anschließen

Das richtige Kabel für USB-C-Verbindungen zu finden, ist ein Glücksspiel: Das eine lädt zu langsam, beim anderen kriechen die Daten im Schneckentempo. Was tun?

Fast wie gedruckt: Drei E-Ink-Bilderrahmen im Vergleich

Dank neuer Technik sind E-Ink-Bildschirme bunter als je zuvor. Wir haben Pocketbook Inkposter Affresco, Reflection Frame und Switchbot AI Art Frame getestet.