Machine Learning: Apache Flink ML 2.0 öffnet sich für Python

Die Library Apache Flink ML für Machine Learning mit dem Framework bekommt ein Python-SDK. Erstmals erhält sie ein eigenes GitHub-Repository.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: Arh-sib / Shutterstock.com)

Lesezeit: 2 Min.

Das Team hinter Apache Flink hat Apache Flink ML in Version 2.0 veröffentlicht. Dabei handelt es sich um eine flankierende Library zu Machine-Learning-Zwecken für das Framework zur Verarbeitung von Datenströmen. Apache Flink ML bietet sowohl APIs als auch eine Infrastruktur, um Stream-Batch-Unified-ML-Algorithmen zu erstellen. Diese sollen leicht einzusetzen sein und nahezu eine Echtzeit-Latenz bieten. Das aktuelle Release soll bedeutend dazu beitragen, Apache Flink auf neue Use Cases aus dem Machine-Learning-Bereich zu erweitern, insbesondere Echtzeit-ML-Szenarien.

In der zweiten Hauptversion führte das Apache-Flink-Team nicht nur ein größeres Refactoring der Library durch, sondern implementierte auch neue Features: Beispielsweise erlaubt Apache Flink ML nun das Verwenden von Stufen (stages) in einem ML-Workflow mit mehreren Inputs und Outputs und somit das Erstellen eines Directed Acyclic Graph (DAG) mit vordefinierten Stufen.

Native Online-Machine-Learning-Szenarien sollen nun dadurch möglich sein, dass die getModelData()-API Modelldaten als Unbounded Stream verfügbar macht. Diese Modelldaten lassen sich in Echtzeit zu Webservern transferieren und zur Online-Inferenz nutzen.

Zudem steht – unter Berücksichtigung, dass zu Machine-Learning-Zwecken häufig Python zum Einsatz kommt – ein neues Python SDK zur Verfügung. Es lässt sich mit pip installieren (pip install apache-flink-ml) und bietet APIs zum Erstellen von ML-Algorithmen, die ihren Java-Gegenstücken ähneln. Eine künftige Interoperabilität des Python SDK mit der Java-Bibliothek von Apache Flink ML ist bereits in Planung.

Mit der neuen Hauptversion zieht die Library erstmals in ein eigenes GitHub-Repository flink-ml unter dem Flink-Projekt um. Dieser Schritt soll aufgrund leichtgewichtigerer Contribution-Workflows und separater Releasezyklen die Weiterentwicklung der Open-Source-Bibliothek beschleunigen.

Da Apache Flink ML 2.0 die Dependency auf die aktuelle Version Apache Flink 1.14 erhöht, gehen damit die dort eingeführten Breaking Changes einher.

Alle weiteren Details zu Version 2.0 sind der offiziellen Ankündigung sowie den Release Notes zu entnehmen.

(mai)