Datamining: RapidMiner liegt vorn
Über 3000 Anwender wurden gefragt, welche Datamining- und Big-Data-Tools sie in den letzten zwölf Monaten in konkreten Projekten eingesetzt haben. Die Daten zeigen, dass die meisten Nutzer mehrere Werkzeuge verwenden.
Das quelloffene BI-Werkzeug RapidMiner ist in der jährlichen Umfrage der Datamining-Website KDnuggets im zweiten Jahr in Folge auf Platz eins gelandet. Im vergangenen Jahr hatte RapidMiner das Statistikpaket R in der Beliebtheit abgelöst; R belegt weiterhin Platz 2 der Rangliste der meist genutzten Dataming- und Big-Data-Werkzeuge. Es folgen Excel, SQL, Python, Weka, KNIME, Hadoop, SAS base und Microsoft SQL Server.
Bei der Erhebung, die Gregory Piatetsky von KDnuggets seit dem Jahr 2000 durchführt, wurden in diesem Jahr 3285 Stimmen abgegeben. Wie repräsentativ die Zahlen sind, lässt sich kaum bestimmen: Piatetsky schreibt, dass RapidMiner offenbar die eigene Nutzer-Community am erfolgreichsten zur Abstimmung motivieren konnte. Ein nicht genannter Hersteller habe außerdem versucht, die Abstimmung zu manipulieren.
Aus den Zahlen lässt sich allerdings ablesen, in welchem Maße Freie Software zum Einsatz kommt. Weltweit haben etwa die Hälfte Nutzer angegeben, gleichermaßen Freie Software als auch kommerzielle Tools einzusetzen. Ausschließlich auf Freie Software verlassen sich in Europa 38 Prozent, in Nordamerika dagegen nur 17 Prozent.
Überhaupt scheint der Einsatz mehrerer Werkzeuge unter Datamining-Spezialisten üblich zu sein: Selbst beim Spitzenreiter RapidMiner gab lediglich ein gutes Drittel der Anwender an, allein dieses Programm zu nutzen. R ist dagegen ein Werkzeug von vielen: Nur 2,1 Prozent der R-Nutzer setzen ausschließlich auf R. Die Umfrage zeigt auch, das Big-Data-Tools wie Hadoop und Spark auf dem Vormarsch sind, vor allem in Asien: Dort machen sie nun rund ein Drittel aller genannten Lösungen aus. (phs)