Ibis und Impala für skalierende Data-Science-Projekte auf Basis von Python

Cloudera, bekannt als Hersteller der verbreitetsten Hadoop-Distribution, will mit dem neuen Ibis-Projekt eine API für Data Scientists bereitstellen, die ihre Python-Anwendungen auf Hadoop ausführen wollen.

In Pocket speichern vorlesen Druckansicht
Ibis und Impala für skalierende Data-Science-Projekte auf Basis von Python
Lesezeit: 1 Min.
Von
  • Alexander Neumann

Diese Woche hat der Hadoop-Distributor Cloudera das Datenanalyse-Framework Ibis vorgestellt. Ziel der unter der Apache Licence stehenden Open-Source-Technik ist, eine API bereitzustellen, mit der Python-Entwickler ihre Anwendungen auf Hadoop ausführen können. Es gibt zwar schon Python-Bibliotheken für den Einsatz mit dem Big-Data-Framework wie Hadoopy oder Pydoop, doch richten sich diese eher an Hadoop-Anwender und weniger an Data Scientists, bei denen in vielen Anwendungsszenarien die Programmiersprache Python gesetzt ist.

In diese Lücke soll Ibis mit einer sich an Data Scientists richtenden Oberfläche stoßen. Ibis umfasst darüber hinaus eine offenbar weitgehende Unterstützung der SQL-Abfrage-Engine Impala mit Funktionen à la ETL (Extraktion, Transformation, Laden), Data Wrangling und Datenanalyse. Außerdem sollen sich gängige Python-Bibliotheken mit dem Projekt nutzen lassen. Derzeit hat das Ibis-Projekt noch Preview-Status. (ane)