Machine Learning: Sparklyr 1.6 erhält Zugriff auf Power Iteration Clustering
Über ein neues R-Interface können Spark-Anwender den Graph-Clustering-Algorithmus in ihren Datenanalyseprojekten direkt nutzen.
![](https://heise.cloudimg.io/width/610/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/3/0/8/2/9/9/4/shutterstock_680929729-57ebfd19a2a48de6.jpeg)
(Bild: Phonlamai Photo/Shutterstock.com)
Das Sparklyr-Entwicklungsteam hat Version 1.6 des auf Apache Spark zugeschnittenen R-Sprachpakets zum Skalieren von Data-Science- und Machine-Learning-Workflows vorgelegt. Neben einer Reihe von Fehlerbereinigungen und Verbesserungen hat das Update neue Funktionen zu bieten – darunter ein R-Interface zum Power Iteration Clustering sowie Unterstützung für den generalisierten Greenwald-Khanna-Algorithmus.
Mehr Algorithmen zur Datenanalyse
Die Potenzmethode (Power Iteration Clustering) lässt sich als skalierbarer Graph-Clustering-Algorithmus auf eine normalisierte paarweise Ähnlichkeitsmatrix aller Datenpunkte anwenden, um eine niedrigdimensionale Einbettung eines Datensatzes zu finden und den k-means-Algorithmus auf der eingebetteten Darstellung auszuführen. Darüber hinaus lässt sich in Sparklyr 1.6 der generalisierte Greenwald-Khanna-Algorithmus einsetzen, wenn bei der Approximation der Quantile einer großen Anzahl von Datenpunkten die Gewichte der Stichprobendaten berücksichtigt werden sollen.
Beim Einsatz von Dplyr, einem tidyverse-Kernpaket, das Funktionen zum Manipulieren von Dataframes bereitstellt, unterstützt das Sparklyr-Update nun auch die APIs des Datenbank-Backends dbplyr vollständig – sowohl die der Edition 1 wie auch Edition 2. Zudem lassen sich die Funktionen `if_all()`
und `if_any()`
auf Spark Dataframes anwenden. Um beim Sammeln großer Dataframes etwaige Speicherengpässe auf den Spark Driver Nodes zu vermeiden, können Sparklyr-Anwender jetzt mit `spark_write_rds()`
sämtliche Partitionen eines Dataframe parallel in RDS-Dateien (Version 2) exportieren und im standardmäßigen Dateisystem der Spark-Instanz speichern (lokal oder in HDFS im Cluster).
Mehr Details sowie ein kompletter Überblick aller Neuerungen in Sparklyr 1.6 finden sich im Blogbeitrag der LF AI & Data Foundation und in den Release Notes auf GitHub. Das von der Open-Source-Community unterstützte Projekt bewährt sich derzeit im Inkubator der Linux Foundation.
(map)