Wissenschaftliches Rechnen: Julia für die Datenanalyse

Die Multiparadigmensprache Julia verfügt über eine klare Codestruktur und die Ausführungsgeschwindigkeit des Codes ist hoch.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Julia für die Datenanalyse
Lesezeit: 8 Min.
Von
  • Günter Faes
Inhaltsverzeichnis

Die Sprache Julia, ursprünglich für numerisches und wissenschaftliches Rechnen entworfen, kommt immer mehr auch beim High-Performance Computing zum Einsatz. Sie liegt derzeit in Version 1.4 vor (Stand: Mai 2020) und ist seit 2012 Open Source. Merkmale der Multiparadigmensprache sind neben einem dynamischen Typsystem Multimethoden und Koroutinen. Auf kommerzieller Seite ergänzt die Firma Julia Computing, der unter anderem die vier Hauptentwickler der Sprache angehören, begleitende Softwareprodukte.

Datenanalysten nutzen gerne die Statistikumgebung R und die Datenanalysefähigkeit von Python als tägliches Werkzeug. R hat eine lange Entwicklungs- und Optimierungshistorie und bietet über das Paketsystem mehr als 15500 Pakete und 40 Task Views (nach Aufgaben gebündelte Pakete) an, die Verantwortliche pflegen und auf einem aktuellen und qualitativ hochwertigen Stand halten. Zudem liegt mit RStudio eine integrierte Entwicklungsumgebung und grafische Benutzeroberfläche vor. Python ist mit der Python Software Foundation und der Open-Source-Distribution Anaconda ähnlich komfortabel aufgestellt. Dieser Artikel zeigt, warum Julia trotzdem ein alternatives Werkzeug für Datenanalysen sein kann.

Ein Datenanalyseprojekt besteht aus Prozessschritten, die sich in ihrem Aufwand unterscheiden, wie die folgende Abbildung zeigt. Der Prozessschritt "Daten vorbereiten" benötigt nach dieser Abschätzung ca. 50 bis 60 Prozent des Aufwands und wird nicht selten in Projekten unterschätzt. Hierbei geht es um das Selektieren von Daten aus diversen Datenbanken, die Verarbeitung von Datenströmen und um simples Auslesen von CSV-Dateien.