Mario Inchiosa und Bill Jacobs zum Potenzial von R

10.03.2015 15:20 Uhr Alexander Neumann

Die Programmiersprache R genießt unter Statistikern und Datenanalysten zunehmende Verbreitung. Studien sprechen von derzeit rund zwei Millionen Anwendern – und es gibt noch viel mehr Potenzial. Die führenden Köpfen von Revolution Analytics im Gespräch.

Mario Inchiosa und Bill Jacobs zum Potenzial von R

Die Programmiersprache R genießt unter Statistikern und Datenanalysten zunehmende Verbreitung. Studien sprechen von derzeit rund zwei Millionen Anwendern – und es gibt noch viel mehr Potenzial. Unser Korrespondent Harald Weiss sprach deswegen mit führenden Köpfen des kürzlich von Microsoft übernommenen Unternehmens Revolution Analytics.

heise Developer: Herr Inchiosa, Herr Jacobs, Ihr Unternehmen ist auf Angebote rund um R ausgerichtet. Wie kann man mit einer Open-Source-Programmiersprache Geld verdienen?

Porträts

Mario Inchiosa (rechts im Bild) ist Chief Scientist bei Revolution Analytics. Hier konzentrierte er sich auf die Bereitstellung parallelisierter, skalierbar erweiterter Analysen mit der Sprache R.

Bill Jacobs (links) ist VP Product Marketing und Field CTO von Revolution Analytics, wo er Kunden dabei hilft, die Einfachheit von R-Analysen mit der Kapazität von Apache Hadoop und Data-Warehouse-Anwendungen zu kombinieren.

Mario Inchiosa: Wir unterstützen einerseits die Open-Source-Community, haben darauf aufbauend aber auch kommerzielle Angebote. Häufig werden wir mit Red Hat und deren Linux-Geschäft verglichen. Das ist kein perfekter Vergleich – aber es ist ein guter Ausgangspunkt, um unser Geschäftsmodell zu verstehen.

heise Developer: Worin besteht denn die Unterstützung der R-Gemeinde?

Inchiosa: Seit 2007 entwickeln wir fortlaufend neue kostenlos zu nutzende Komponenten und Werkzeuge. Diese Komponenten werden zunehmend wichtiger für diverse kommerzielle Anwendungsentwicklungen, denn obwohl R eine wissenschaftliche Programmiersprache ist, entstehen auf diese Art viele Snap-ins, mit denen ganz normale Anwendungsprogramme auf einfache Art und Weise komplexe Analytics nutzen können. Darüber hinaus sind wir in allen Arbeitsgruppen vertreten, die am Ausbau und an der Weiterentwicklung von R beteiligt sind.

heise Developer: Und was ist das Geschäftsmodell?

Inchiosa: Unser Geschäftsmodell bietet eine Kombination von kommerziellen Softwareergänzungen zu R, technischem Support und Beratungsleistungen. Es gibt beispielsweise viele große Firmen, die keine Software nutzen, wenn es dafür keinen professionellen Support gibt. Und es gibt zahlreiche Unternehmen, die gerade beginnen, R zu nutzen, und ihr Know-how ausbauen wollen, um ihre Projekte zu beschleunigen.

heise Developer: Was sind denn das für Softwareprodukte, die Sie anbieten?

Inchiosa: Wir implementieren individuelle Erweiterungen zu R, die Big-Data-Analytics ermöglichen. Wir unterstützen das Einrichten und den Betrieb von Hadoop-Clustern als Grundlage für R-Analytics und erstellen Modelle – vor allem im Bereich der Predictive Analytics. Ein besonderes Augenmerk gilt der produktiven Nutzung von R, die weit über ein einfaches Editieren hinausgeht. Hierzu haben wir Komponenten, mit denen sich R mit anderen Umgebungen integrieren lässt – beispielsweise im Rahmen einer SOA/Webservices-Architektur. Hierzu sind spezielle Metadaten-Frameworks und Workflows zu definieren, die recht komplex sein können. Schließlich bieten wir hierzu nicht nur Produkte, sondern auch umfangreiche Schulungen und Einweisungen an.

heise Developer: Und wer sind Ihre Kunden?

Bill Jacobs: Ursprünglich wurde R vor allem in Universitäten eingesetzt, aber die Akzeptanz von R für den Einsatz im Rahmen von Big-Data-Analytics steigt. Beispielsweise bei Activision, Seagate und der Marketing-Agentur eXelate. Wir haben Hunderte von R-Anwendern, die die Distribution von Revolution Analytics nutzen, um Big-Data-Analysen und/oder technischen Support zu erhalten. Innerhalb dieser Organisationen sind die Nutzer typischerweise die Data-Science-Teams und die IT-Abteilungen, die die IT-Infrastruktur entwickeln und managen, auf der die Data Scientists arbeiten.

R ist auf dem Vormarsch

heise Developer: Das alles hört sich in der Tat wie das Geschäftsmodell der großen Linux-Anbieter an, doch Linux ist ein allgemein verbreitetes Betriebssystem – R ist aber nur ein kleiner Nischenmarkt. Reicht das?

Inchiosa: R ist tatsächlich etwas Besonderes und nicht sonderlich weit verbreitet. Es hat nur einen festen Platz bei Big Data und Analytics. Andererseits erlebt es derzeit eine immense Verbreitung. Die Einsicht, dass die vielen angesammelten Daten nutzlos sind, wenn sie nicht mit wissenschaftlichen Methoden zielgerichtet ausgewertet werden, setzt sich zunehmend durch – und damit auch das Anwendungsfeld von R.

heise Developer: Innerhalb der Unternehmen ist die Verbreitung nicht sonderlich hoch. Das kann sicherlich auch daran liegen, dass es einen generellen Trend gibt, wonach die Geschäftsbereiche immer selbstständiger operieren wollen und weniger IT-Experten zwischen sich und den Daten haben möchten – was ja häufig genug zu Kommunikationsproblemen geführt hat. Steht R dieser Entwicklung nicht im Wege?

Jacobs: R ist keine universell einsetzbare Programmiersprache, es wurde vielmehr für Statistiker, Mathematiker und Data Scientists entwickelt. Deshalb richten wir uns an die Daten-Wissenschaftler, die mit R große Analyseaufgaben lösen wollen. Viele nutzen dafür Server- oder massiv-parallele Umgebungen. Diese Experten arbeiten aber nicht in einem Vakuum. Big-Data-Analytics wird zu einem
multidisziplinären Mannschaftssport, bei dem Data Scientists sich auf die Data Science konzentrieren können, während sich die IT-Spezialisten zunehmend um die Daten- und die Anwendungsintegration kümmern. Predictive-Analytics-Aufgaben werden von Data-Science-Teams übernommen, weil die meisten IT-, Marketing- oder Vertriebsteams die neuen komplexen Aufgaben nicht alleine lösen können.

Inchiosa: Man darf Big-Data-Analytics nicht mit den herkömmlichen BI-Tools verwechseln. Business Intelligence kann man praktisch mit einem Taschenrechner nachrechnen – es dauert nur sehr lange. Bei den heutigen Anforderungen an die Big-Data-Analytics geht es um völlig neue Fragestellungen mit neuen hochkomplexen mathematischen Modellen, die komplett neue Erkenntnisse liefern.

heise Developer: Wie gehen Sie vor, um R bei IT und den Fachbereichen attraktiver zu machen?

Jacobs: Der Knackpunkt ist die sinnvolle Einsetzbarkeit. R muss sich vor allem gut mit anderen Komponenten vertragen, die in verschiedenen Programmiersprachen geschrieben sind. Das alles muss dann beispielsweise problemlos in einem großen Hadoop-Cluster funktionieren. Ein weiterer Aspekt ist es, Methoden zu entwickeln, mit denen sich R-Komponenten in große Anwendungsentwicklungsprojekte integrieren lassen, die von den IT-Teams geführt werden. Wir müssen sie davon überzeugen, dass R genauso einfach zu nutzen ist wie Java. In den Augen der IT-Fachleute stehen wir heute mit R praktisch dort, wo man in den Anfangsjahren von Java war. Damals wurden vor allem C und C++ eingesetzt, und Java musste viele Hürden nehmen, bis es als Standard-IT-Sprache akzeptiert wurde.

Support

Rückendeckung durch Microsoft & Co.

heise Developer: Java hatte mit Sun einen großen Promoter, der viel Geld und Aufwand in die Entwicklung und Förderung von Java gesteckt hat. Benötigt R eine vergleichbar massive Unterstützung durch einen Megaplayer?

Jacobs: Nein, wir benötigen nichts Vergleichbares, wie es einst bei Sun und Java der Fall war. R ist schon jetzt bei Data Scientists und Statistikern weit verbreitet, und die Zuwachsraten sind enorm. Die Open-Source-Sprache R profitiert seit Jahren von der Mitarbeit von Unternehmen wie Google, Facebook, Microsoft und natürlich Revolution Analytics. Wie bei jedem Open-Source-Projekt entscheidet die Community demokratisch, was eingesetzt, verbreitet und verbessert wird, und das wird dann durch die Entwickler in den Unternehmen verstärkt. Gerade die Tatsache, dass so viele Unternehmen R aktiv einsetzen und weiterentwickeln, macht die Sprache zu einer natürlichen Wahl als Eckpfeiler für die Data-Science-Projekte der Unternehmen.

heise Developer: Mit Microsoft als neuen Eigentümer von Revolution Analytics könnte es aber eine vergleichbare Entwicklung wie bei Java beziehungsweise Sun/Oracle geben – oder welche Absichten verfolgt Microsoft jetzt mit R und speziell Ihrem Unternehmen?

Inchiosa: Nach Abschluss der Übernahme wird Microsoft den Verkauf, Support und die Weiterentwicklung von Revolution R übernehmen. Das gilt sowohl für die kostenfreien als auch für die
kostenpflichtigen Angebote. Die Kunden profitieren dann von den fortgeschrittenen Analytics innerhalb Microsofts Datenplattformen, und zwar sowohl On-Premise als auch in der Cloud.

heise Developer: Wie geht es mit R und den Big-Data-Analytics weiter, welche Entwicklungen
zeichnen sich am Horizont ab?

Jacobs: Die gegenwärtige Herausforderung besteht darin, die bekannten und vorhandenen Modelle soweit zu vereinfachen oder zu beschleunigen, dass sie sich für den Einsatz in Realtime-Analytics eignen. Dieses wird vor allem bei der Betrugserkennung, der Ausfallvorhersage und im Gesundheitswesen wichtiger.

Inchiosa: Technisch gibt es hierzu mit Apache Spark vielversprechende Ansätze für die nächste Generation. Dieses Open-Source-Cluster-Framework kann MapReduce-Anwendungen um einen Faktor von bis zu 100 beschleunigen. Allerdings ist sein Einsatz nicht einfach und erfordert vor allem viel Implementierungs-Know-how. Spark weist einen neuen wichtigen Anwendungsbereich bei den Analytics: das Online-Maschine-Learning. Hierbei verbessern sich Modelle und Verfahren automatisch, sobald neue Daten dieses ermöglichen. Auch das ist ein großer Schritt in Richtung Realtime-Analytics, denn die jeweiligen Lernschritte lassen sich schnell in kleinen Inkrementen erledigen.

heise Developer: Und was ist mit R in der Cloud?

Inchiosa: Cloud ist eindeutig die Richtung, in die sich alles bewegt – und folglich auch R. Unser "Revolution R Enterprise 7" ist beispielsweise auf Amazons AWS-Marktplatz verfügbar. Das ist eine hochperformante R-Engine mit Multithreading und skalierbaren parallelen Predictive Analytics, mit der sich Datensätze von bis zu 16 Terabytes auf einer einzigen AWS-Maschine analysieren lassen.

heise Developer: Abschließend interessiert uns noch Ihre Wunschliste an Ihre Partner. Was fordern sie von den Hardware-, Betriebssystem- und Middleware-Herstellern?

Jacobs: Wir sehen zwei Gebiete, in denen andere System- und Softwareanbieter Beiträge leisten können. Erstens gibt es einen starken Bedarf, die Erfassung, Transformation und Integration von neuen Daten zu straffen und zu vereinfachen, sodass sie sich analysieren lassen. Hier gibt es eine große Chance, die Arbeitsbelastung zu reduzieren, die das für die Data-Science-Teams darstellt. Wenn das vereinfacht wird, können sich die Data-Science-Teams darauf konzentrieren, bessere Predictive-Modelle zu bauen und nicht nur bessere Datenintegration. Es gibt auch Anwender, die sich mit der Komplexität von Hadoop schwertun. Wir erwarten, dass Partner, die die Implementierung und das Management von Hadoop vereinfachen, erfolgreich dazu beitragen können, die Hadoop-Implementierungen bei großen Unternehmen zu beschleunigen.

Inchiosa: Wir benötigen auch nicht alle Daten gleichzeitig "in memory", wie es einige Anbieter propagieren. Ein Standardserver, ein Hadoop-Cluster oder eine Teradata-Datenbank ist beispielsweise eine solche Plattform, die sich sowohl für die Entwicklung als auch für das Deployment bestens eignet.

heise Developer: Vielen Dank für das Gespräch.

Die Fragen stellte Harald Weiss. Er ist seit über zehn Jahren freier Fachjournalist in New York. (ane [1])

URL dieses Artikels:
https://www.heise.de/-2572305

Links in diesem Artikel:
[1] mailto:ane@heise.de