Große Datenmengen und ETL-Prozesse in Apache Hadoop integrieren
Syncsort steuert eine Funktion zum Big-Data-Framework bei, durch die sich komplexe ETL-Prozesse und MapReduce-Jobs ohne Programmierung erstellen lassen.
- Alexander Neumann
Syncsort, Anbieter von Datenintegrations-Software, hat eine neue Funktion zur Verbesserung der Integration großer Datenmengen und von ETL-Prozessen (Extraktion, Transformation, Laden) in Apache Hadoop vorgestellt. Sie wird offenbar in Apache Hadoop 2.0.3-alpha eingebunden und bereits von einigen Hadoop-Unternehmen genutzt.
Die entscheidende Verbesserung – so Syncsort im Unternehmens-Blog – ist die Option, externe Sortierverfahren im MapReduce-Framework zu implementieren. Hierdurch können Unternehmen die Entwicklung beschleunigen sowie komplexe ETL-Prozesse und MapReduce-Jobs ohne Programmierung erstellen. Der Patch soll zudem Anwendungsfälle vereinfachen, die derzeit in MapReduce äußerst anspruchsvoll sind.
Darüber hinaus wird Syncsort die Funktion dazu nutzen, in diesem Frühjahr eine Plug-in-Version seines Angebots für die Hochleistungssortierung DMExpress bereitzustellen. Diese Version befindet sich derzeit bei Kunden im Betatest. (ane)