Mario Inchiosa und Bill Jacobs zum Potenzial von R

Die Programmiersprache R genießt unter Statistikern und Datenanalysten zunehmende Verbreitung. Studien sprechen von derzeit rund zwei Millionen Anwendern – und es gibt noch viel mehr Potenzial. Die führenden Köpfen von Revolution Analytics im Gespräch.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Lesezeit: 10 Min.
Von
  • Alexander Neumann
Inhaltsverzeichnis

Die Programmiersprache R genießt unter Statistikern und Datenanalysten zunehmende Verbreitung. Studien sprechen von derzeit rund zwei Millionen Anwendern – und es gibt noch viel mehr Potenzial. Unser Korrespondent Harald Weiss sprach deswegen mit führenden Köpfen des kürzlich von Microsoft übernommenen Unternehmens Revolution Analytics.

heise Developer: Herr Inchiosa, Herr Jacobs, Ihr Unternehmen ist auf Angebote rund um R ausgerichtet. Wie kann man mit einer Open-Source-Programmiersprache Geld verdienen?

Mehr Infos

Porträts

Mario Inchiosa (rechts im Bild) ist Chief Scientist bei Revolution Analytics. Hier konzentrierte er sich auf die Bereitstellung parallelisierter, skalierbar erweiterter Analysen mit der Sprache R.

Bill Jacobs (links) ist VP Product Marketing und Field CTO von Revolution Analytics, wo er Kunden dabei hilft, die Einfachheit von R-Analysen mit der Kapazität von Apache Hadoop und Data-Warehouse-Anwendungen zu kombinieren.

Mario Inchiosa: Wir unterstützen einerseits die Open-Source-Community, haben darauf aufbauend aber auch kommerzielle Angebote. Häufig werden wir mit Red Hat und deren Linux-Geschäft verglichen. Das ist kein perfekter Vergleich – aber es ist ein guter Ausgangspunkt, um unser Geschäftsmodell zu verstehen.

heise Developer: Worin besteht denn die Unterstützung der R-Gemeinde?

Inchiosa: Seit 2007 entwickeln wir fortlaufend neue kostenlos zu nutzende Komponenten und Werkzeuge. Diese Komponenten werden zunehmend wichtiger für diverse kommerzielle Anwendungsentwicklungen, denn obwohl R eine wissenschaftliche Programmiersprache ist, entstehen auf diese Art viele Snap-ins, mit denen ganz normale Anwendungsprogramme auf einfache Art und Weise komplexe Analytics nutzen können. Darüber hinaus sind wir in allen Arbeitsgruppen vertreten, die am Ausbau und an der Weiterentwicklung von R beteiligt sind.

heise Developer: Und was ist das Geschäftsmodell?

Inchiosa: Unser Geschäftsmodell bietet eine Kombination von kommerziellen Softwareergänzungen zu R, technischem Support und Beratungsleistungen. Es gibt beispielsweise viele große Firmen, die keine Software nutzen, wenn es dafür keinen professionellen Support gibt. Und es gibt zahlreiche Unternehmen, die gerade beginnen, R zu nutzen, und ihr Know-how ausbauen wollen, um ihre Projekte zu beschleunigen.

heise Developer: Was sind denn das für Softwareprodukte, die Sie anbieten?

Inchiosa: Wir implementieren individuelle Erweiterungen zu R, die Big-Data-Analytics ermöglichen. Wir unterstützen das Einrichten und den Betrieb von Hadoop-Clustern als Grundlage für R-Analytics und erstellen Modelle – vor allem im Bereich der Predictive Analytics. Ein besonderes Augenmerk gilt der produktiven Nutzung von R, die weit über ein einfaches Editieren hinausgeht. Hierzu haben wir Komponenten, mit denen sich R mit anderen Umgebungen integrieren lässt – beispielsweise im Rahmen einer SOA/Webservices-Architektur. Hierzu sind spezielle Metadaten-Frameworks und Workflows zu definieren, die recht komplex sein können. Schließlich bieten wir hierzu nicht nur Produkte, sondern auch umfangreiche Schulungen und Einweisungen an.

heise Developer: Und wer sind Ihre Kunden?

Bill Jacobs: Ursprünglich wurde R vor allem in Universitäten eingesetzt, aber die Akzeptanz von R für den Einsatz im Rahmen von Big-Data-Analytics steigt. Beispielsweise bei Activision, Seagate und der Marketing-Agentur eXelate. Wir haben Hunderte von R-Anwendern, die die Distribution von Revolution Analytics nutzen, um Big-Data-Analysen und/oder technischen Support zu erhalten. Innerhalb dieser Organisationen sind die Nutzer typischerweise die Data-Science-Teams und die IT-Abteilungen, die die IT-Infrastruktur entwickeln und managen, auf der die Data Scientists arbeiten.

heise Developer: Das alles hört sich in der Tat wie das Geschäftsmodell der großen Linux-Anbieter an, doch Linux ist ein allgemein verbreitetes Betriebssystem – R ist aber nur ein kleiner Nischenmarkt. Reicht das?

Inchiosa: R ist tatsächlich etwas Besonderes und nicht sonderlich weit verbreitet. Es hat nur einen festen Platz bei Big Data und Analytics. Andererseits erlebt es derzeit eine immense Verbreitung. Die Einsicht, dass die vielen angesammelten Daten nutzlos sind, wenn sie nicht mit wissenschaftlichen Methoden zielgerichtet ausgewertet werden, setzt sich zunehmend durch – und damit auch das Anwendungsfeld von R.

heise Developer: Innerhalb der Unternehmen ist die Verbreitung nicht sonderlich hoch. Das kann sicherlich auch daran liegen, dass es einen generellen Trend gibt, wonach die Geschäftsbereiche immer selbstständiger operieren wollen und weniger IT-Experten zwischen sich und den Daten haben möchten – was ja häufig genug zu Kommunikationsproblemen geführt hat. Steht R dieser Entwicklung nicht im Wege?

Jacobs: R ist keine universell einsetzbare Programmiersprache, es wurde vielmehr für Statistiker, Mathematiker und Data Scientists entwickelt. Deshalb richten wir uns an die Daten-Wissenschaftler, die mit R große Analyseaufgaben lösen wollen. Viele nutzen dafür Server- oder massiv-parallele Umgebungen. Diese Experten arbeiten aber nicht in einem Vakuum. Big-Data-Analytics wird zu einem
multidisziplinären Mannschaftssport, bei dem Data Scientists sich auf die Data Science konzentrieren können, während sich die IT-Spezialisten zunehmend um die Daten- und die Anwendungsintegration kümmern. Predictive-Analytics-Aufgaben werden von Data-Science-Teams übernommen, weil die meisten IT-, Marketing- oder Vertriebsteams die neuen komplexen Aufgaben nicht alleine lösen können.

Inchiosa: Man darf Big-Data-Analytics nicht mit den herkömmlichen BI-Tools verwechseln. Business Intelligence kann man praktisch mit einem Taschenrechner nachrechnen – es dauert nur sehr lange. Bei den heutigen Anforderungen an die Big-Data-Analytics geht es um völlig neue Fragestellungen mit neuen hochkomplexen mathematischen Modellen, die komplett neue Erkenntnisse liefern.

heise Developer: Wie gehen Sie vor, um R bei IT und den Fachbereichen attraktiver zu machen?

Jacobs: Der Knackpunkt ist die sinnvolle Einsetzbarkeit. R muss sich vor allem gut mit anderen Komponenten vertragen, die in verschiedenen Programmiersprachen geschrieben sind. Das alles muss dann beispielsweise problemlos in einem großen Hadoop-Cluster funktionieren. Ein weiterer Aspekt ist es, Methoden zu entwickeln, mit denen sich R-Komponenten in große Anwendungsentwicklungsprojekte integrieren lassen, die von den IT-Teams geführt werden. Wir müssen sie davon überzeugen, dass R genauso einfach zu nutzen ist wie Java. In den Augen der IT-Fachleute stehen wir heute mit R praktisch dort, wo man in den Anfangsjahren von Java war. Damals wurden vor allem C und C++ eingesetzt, und Java musste viele Hürden nehmen, bis es als Standard-IT-Sprache akzeptiert wurde.