Große Datenmengen und ETL-Prozesse in Apache Hadoop integrieren

Syncsort steuert eine Funktion zum Big-Data-Framework bei, durch die sich komplexe ETL-Prozesse und MapReduce-Jobs ohne Programmierung erstellen lassen.

25.02.2013, 15:53 Uhr

Lesezeit: 1 Min.

Developer

Von

Alexander Neumann

Syncsort, Anbieter von Datenintegrations-Software, hat eine neue Funktion zur Verbesserung der Integration großer Datenmengen und von ETL-Prozessen (Extraktion, Transformation, Laden) in Apache Hadoop vorgestellt. Sie wird offenbar in Apache Hadoop 2.0.3-alpha eingebunden und bereits von einigen Hadoop-Unternehmen genutzt.

Die entscheidende Verbesserung – so Syncsort im Unternehmens-Blog – ist die Option, externe Sortierverfahren im MapReduce-Framework zu implementieren. Hierdurch können Unternehmen die Entwicklung beschleunigen sowie komplexe ETL-Prozesse und MapReduce-Jobs ohne Programmierung erstellen. Der Patch soll zudem Anwendungsfälle vereinfachen, die derzeit in MapReduce äußerst anspruchsvoll sind.

Darüber hinaus wird Syncsort die Funktion dazu nutzen, in diesem Frühjahr eine Plug-in-Version seines Angebots für die Hochleistungssortierung DMExpress bereitzustellen. Diese Version befindet sich derzeit bei Kunden im Betatest. (ane)