Apache Hadoop 3.2.0 vereinfacht Deep-Learning-Projekte

Das Big-Data-Framework bietet in der neuen Version vor allem Verbesserungen für langlebige und Deep-Learning-Anwendungen.

23.01.2019, 18:06 Uhr

Lesezeit: 2 Min.

Developer

Von

Matthias Parbel

Nach rund neunmonatiger Arbeit legt die Apache Software Foundation mit Hadoop 3.2.0 ein neues Major Release des Frameworks für verteilte Anwendungen vor. In die neue Version sind insgesamt über 1000 Änderungen gegenüber Hadoop 3.1.0 eingeflossen, darunter zahlreiche Bugfixes, Verbesserungen sowie einige neue Funktionen. Die wesentlichen Neuerungen setzen Vice President Vinod Kumar Vavilapalli zufolge auf den in Hadoop 3.0 eingeführten Erweiterungen des Cloud Connectors auf und sollen zur weiteren Diversifizierung der Plattform beitragen – insbesondere im Hinblick auf die Datenanalyse sowie langlebige und Deep-Learning-Anwendungen.

Deep-Learning-Modelle entwickeln, trainieren und deployen

Hadoop Submarine verspricht, Data Engineers und Data Scientists die Arbeit mit Deep-Learning-Modellen zu erleichtern. Ab dem neuen Hadoop-Release lassen sich solche Modelle in TensorFlow auf einem einzigen Hadoop YARN Cluster entwickeln, trainieren und anschließend deployen. Dazu können Entwickler aus den TensorFlow-Jobs direkt auf Daten und Modelle im HDFS oder anderen Speicherquellen zugreifen. Die TensorFlow-Programme lassen sich ohne Modifikationen auf YARN ausführen. Für verteilte Jobs stehen einfache Konfigurationsoptionen zur Verfügung. Auch GPUs oder vergleichbare Ressourcen lassen sich bedarfsgerecht spezifizieren.

Ein Update des YARN Service soll künftig die Möglichkeit bieten, Up- beziehungsweise Downgrades langlebiger Anwendungen unterbrechungsfrei durchzuführen. Dazu lassen sich die betreffenden langlebigen Container nahtlos über die YARN Native Service API aktualisieren. Die neue Funktion gilt allerdings noch als experimentell und ist daher in Hadoop 3.2.0 nicht standardmäßig aktiviert. Nähere Informationen dazu bietet die Dokumentation.

Unter den weiteren neuen Ergänzungen im aktuellen Major Release finden sich unter anderen ein Konnektor für ABFS (Azure Blob File System), der Azure Datalake Gen2 Storage unterstützt. Ein verbesserter S3A-Konnektor soll für höhere Widerstandsfähigkeit gegenüber gedrosseltem IO von AWS S3 und DynamoDB sorgen. Darüber hinaus verspricht ein neuer C++-HDFS-Client bessere Unterstützung für Downstream-Projekte wie Apache ORC, indem er asynchronen IO zum HDFS ermöglicht.

Apache Hadoop 3.2.0 steht ab sofort zum Download zur Verfügung. Einen Überblick der Neuerungen fasst der Blog-Beitrag zur Veröffentlichung zusammen. Detailliertere Informationen hält die Dokumentation parat. (map)