Machine-Learning-Anwendungen entwickeln mit RStudio und sparklyr

Im Zusammenspiel mit Apache Spark und Amazons Elastic Map Reduce (EMR) lässt sich eine skalierbare Datenverarbeitungs-Pipeline mit R und RStudio aufbauen.

Artikel verschenken

23.05.2019, 08:00 Uhr

Lesezeit: 15 Min.

iX Magazin

Von

Ramon Wartala

Machine-Learning-Anwendungen entwickeln mit RStudio und sparklyr
- R – ein alter Bekannter
Daten einlesen
Mit FoxyProxy durch den Tunnel

Artikel in iX 6/2019 lesen

Als offenes Datenverarbeitungsframework hat sich in den letzten Jahren Apache Spark in den Bereichen Data Engineering und Data Science etabliert. Eine üppige Auswahl an parallelen Machine-Learning-Algorithmen erlaubt es, damit sowohl lokal mit wenig Daten als auch in großen Clustern ML-Anwendungen zu entwickeln.

R – ein alter Bekannter

Die Programmiersprache R existiert bereits seit den 1990er-Jahren. Version 1.0 erschien im Jahr 2000. R stammt in direkter Linie von der Statistiksprache S ab, deren Wurzeln noch weiter zurückreichen. Die statistischen und analytischen Modelle der Programmiersprache sind besonders bei Anwendern interaktiver Datenanalysen, Statistik und Zeitreihenprognosen beliebt. Schon für die ersten Versionen von Hadoop gab es mit RHadoop und RHive Schnittstellen, um auch von der R-Umgebung aus auf verteilte Dateisysteme und die Computing-Power von Clustersystemen zuzugreifen.

Seit Version 1.4 liefert auch das In-Memory-Framework Spark mit SparkR eine Schnittstelle für R mit. Damit können Fans der Programmiersprache gleich zwischen zwei Tools wählen, wenn sie große Datenmengen mit der Kombination aus Spark und R verarbeiten wollen. Neben SparkR gibt es sparklyr, das von Javier Luraschi und anderen aus dem RStudio-Projekt entwickelt wird. Welches das bessere Framework ist, soll an dieser Stelle nicht beleuchtet werden. Einen guten Überblick über die Vor- und Nachteile beider Frameworks finden Sie hier.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Skoda Enyaq 85 im Test: Reife-Leistung

Der Enyaq hat in den vergangenen Jahren einen Reifungsprozess durchlebt. Im Test fuhr er angenehm, und doch würde ich den Enyaq 85 nicht jedem empfehlen.

Microsoft Office: Drei gute Alternativen ausprobiert

Wer nach datenschutzfreundlichem und günstigerem oder kostenlosem Ersatz für die MS-Office-Programmen sucht, findet mindestens drei gute Alternativen.

Commodore 64 Ultimate: Das Multitalent mit Hardware-Emulation im Test

Mit dem Commodore 64 Ultimate kehrt ein Klassiker zurück. Wir prüfen, ob die originalgetreue Hardware-Emulation des C64 mit modernen Extras überzeugen kann.

Wie Sie Heizkosten mit dem hydraulischen Abgleich sparen

Ein hydraulisch abgeglichenes Verteilsystem ist eine Voraussetzung für einen effizienten Heizbetrieb. So kommen Sie selbst ans Ziel, manuell oder automatisch.