Netflix stellt das Data-Science-Framework Metaflow als Open Source zur Verfügung

Mit Metaflow stellt der Streaming-Gigant Netflix ein Framework für Data Scientists vor, das intern bereits seit geraumer Zeit eingesetzt wird.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen
Netflix

(Bild: XanderSt/Shutterstock.com)

Lesezeit: 2 Min.
Von
  • Björn Bohn

Der Streaming-Anbieter Netflix hat das eigens entwickelte Framework Metaflow quelloffen zur Verfügung gestellt. Dabei handelt es sich um ein Werkzeug für den Anwendungsbereich Data Science, das Netflix bereits seit zwei Jahren intern nutzt, um Projekte wie Natural Language Processing (NLP) oder Forschungen im Operations-Umfeld umzusetzen.

Im Kern ist Metaflow eine einfache Python-Bibliothek, mit der Anwender ihren Workflow als gerichteten azyklischen Graph (directec acyclic graph, DAG) mit Python-Code anlegen können. Damit bewegt sich Metaflow wohl im selben Umfeld wie die Produkte Apache Airflow oder Luigi, bietet aber laut Netflix einige weitere Kniffe.

Metaflow geht auf die Arbeit des Machine-Learning-Infrastruktur-Teams von Netflix zurück. Es hat sich während der Entwicklung zum Ziel gesetzt, bei Metaflow vor allem die Produktivität der Data Scientists in den Vordergrund zu rücken. Demnach speichern Entwickler die Daten und Modelle als normale Python Instanzvariablen, sodass sie auch auf verteilten Plattformen funktionieren. Metaflow verfügt außerdem über einen eingebauten Artifact Store, was das wohl ansonsten mühsame Verwalten von Artefakten vereinfachen soll.

Da Netflix für seine Cloud-Anwendungen auf Amazon Web Services (AWS) setzt, ist eine Integration von Metaflow in AWS inklusive. Anwender können ihren Code und ihre Daten automatisch in Amazon S3 als Snapshot zur Verfügung stellen. Das soll eine Versionierung und das Tracking von Experimenten ermöglichen, ohne das Entwickler selbst Hand anlegen müssen.

Netflix verspricht ebenfalls einen hochperformanten S3-Client, der Daten mit bis zu 10 GByte/Sekunde laden kann. Für eine allgemeine Datenverarbeitung verfügt das Framework über eine Anbindung an den Service AWS Batch. Außerdem soll eine Anbindung an die gängigen Machine-Learning-Frameworks problemlos möglich sein.

EInen detaillierten Überblick über die Funktionsweise von Metaflow bietet ein Blogbeitrag des Netflix-Teams. (bbo)