LinkedIn öffnet Projekt zur Datenkonvertierung für TensorFlow

Avro2TF bietet einen Spark-basierten Mechanismus zur Konvertierung von Daten in ein Format, das das Machine-Learning-Framework TensorFlow nutzen kann.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen
LinkedIn öffnet Projekt zur Datenkonvertierung fürTensorFlow

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 1 Min.
Von
  • Alexander Neumann

LinkedIn hat mit Avro2TF ein neues Open-Source-Projekt lanciert, das einen auf Apache Spark basierten Mechanismus zur effizienten Konvertierung von Daten in ein Format bietet, das man mit dem Machine-Learning-Framework TensorFlow nutzen kann.

Das Tool beseitigt offensichtlich den Aufwand für die Datenkonvertierung, der für viele Big-Data-Entwickler anfällt. Avro2TF schließt diese Lücke, indem es skalierbare Spark-basierte Transformations- und Erweiterungsmechanismen bereitstellt, um die Daten in TensorFlow-Datensätze umzuwandeln, die von TensorFlow genutzt werden können.

Um mit TensorFlow zu arbeiten, kann das Werkzeug Datensätze konvertieren, die im Format des Datenserialisierungs-Frameworks Apache Avro gespeichert sind, welches bei LinkedIn häufig zum Einsatz kommt, etwa bei der Personalisierungs-Engine Photon-ML. Jeder Datensatz in einem Avro-Datensatz ist im ein dünnbesetzer Vektor, den allerdings TensorFlow nicht direkt verwenden kann. Avro2TF unterstützt hierfür alle mit Spark lesbaren Datenformate, beispielsweise ORC (Optimized Row Columnar), das die Ingenieure bei LinkedIn ebenfalls häufig nutzen.

Innerhalb von LinkedIn ist Avro2TF ein Bestandteil des TensorFlowIn-Systems, das Anwendern hilft, Daten in den TensorFlow-Modellierungsprozess einzugeben. TensorFlowIn ist eine Deep-Learning-Trainingsbibliothek, die mit TonY, TensorFlow und Spark kompatibel ist.

Mehr Informationen zu Avro2TF finden sich in der Ankündigung. Das Projekt ist nun auf GitHub verfügbar, und das zu Microsoft gehörende soziale Netz hat ein Tutorial zur Anwendung von Avro2TF veröffentlicht. (ane)