Mario Inchiosa und Bill Jacobs zum Potenzial von R

Seite 2: Support

Inhaltsverzeichnis

heise Developer: Java hatte mit Sun einen großen Promoter, der viel Geld und Aufwand in die Entwicklung und Förderung von Java gesteckt hat. Benötigt R eine vergleichbar massive Unterstützung durch einen Megaplayer?

Jacobs: Nein, wir benötigen nichts Vergleichbares, wie es einst bei Sun und Java der Fall war. R ist schon jetzt bei Data Scientists und Statistikern weit verbreitet, und die Zuwachsraten sind enorm. Die Open-Source-Sprache R profitiert seit Jahren von der Mitarbeit von Unternehmen wie Google, Facebook, Microsoft und natürlich Revolution Analytics. Wie bei jedem Open-Source-Projekt entscheidet die Community demokratisch, was eingesetzt, verbreitet und verbessert wird, und das wird dann durch die Entwickler in den Unternehmen verstärkt. Gerade die Tatsache, dass so viele Unternehmen R aktiv einsetzen und weiterentwickeln, macht die Sprache zu einer natürlichen Wahl als Eckpfeiler für die Data-Science-Projekte der Unternehmen.

heise Developer: Mit Microsoft als neuen Eigentümer von Revolution Analytics könnte es aber eine vergleichbare Entwicklung wie bei Java beziehungsweise Sun/Oracle geben – oder welche Absichten verfolgt Microsoft jetzt mit R und speziell Ihrem Unternehmen?

Inchiosa: Nach Abschluss der Übernahme wird Microsoft den Verkauf, Support und die Weiterentwicklung von Revolution R übernehmen. Das gilt sowohl für die kostenfreien als auch für die
kostenpflichtigen Angebote. Die Kunden profitieren dann von den fortgeschrittenen Analytics innerhalb Microsofts Datenplattformen, und zwar sowohl On-Premise als auch in der Cloud.

heise Developer: Wie geht es mit R und den Big-Data-Analytics weiter, welche Entwicklungen
zeichnen sich am Horizont ab?

Jacobs: Die gegenwärtige Herausforderung besteht darin, die bekannten und vorhandenen Modelle soweit zu vereinfachen oder zu beschleunigen, dass sie sich für den Einsatz in Realtime-Analytics eignen. Dieses wird vor allem bei der Betrugserkennung, der Ausfallvorhersage und im Gesundheitswesen wichtiger.

Inchiosa: Technisch gibt es hierzu mit Apache Spark vielversprechende Ansätze für die nächste Generation. Dieses Open-Source-Cluster-Framework kann MapReduce-Anwendungen um einen Faktor von bis zu 100 beschleunigen. Allerdings ist sein Einsatz nicht einfach und erfordert vor allem viel Implementierungs-Know-how. Spark weist einen neuen wichtigen Anwendungsbereich bei den Analytics: das Online-Maschine-Learning. Hierbei verbessern sich Modelle und Verfahren automatisch, sobald neue Daten dieses ermöglichen. Auch das ist ein großer Schritt in Richtung Realtime-Analytics, denn die jeweiligen Lernschritte lassen sich schnell in kleinen Inkrementen erledigen.

heise Developer: Und was ist mit R in der Cloud?

Inchiosa: Cloud ist eindeutig die Richtung, in die sich alles bewegt – und folglich auch R. Unser "Revolution R Enterprise 7" ist beispielsweise auf Amazons AWS-Marktplatz verfügbar. Das ist eine hochperformante R-Engine mit Multithreading und skalierbaren parallelen Predictive Analytics, mit der sich Datensätze von bis zu 16 Terabytes auf einer einzigen AWS-Maschine analysieren lassen.

heise Developer: Abschließend interessiert uns noch Ihre Wunschliste an Ihre Partner. Was fordern sie von den Hardware-, Betriebssystem- und Middleware-Herstellern?

Jacobs: Wir sehen zwei Gebiete, in denen andere System- und Softwareanbieter Beiträge leisten können. Erstens gibt es einen starken Bedarf, die Erfassung, Transformation und Integration von neuen Daten zu straffen und zu vereinfachen, sodass sie sich analysieren lassen. Hier gibt es eine große Chance, die Arbeitsbelastung zu reduzieren, die das für die Data-Science-Teams darstellt. Wenn das vereinfacht wird, können sich die Data-Science-Teams darauf konzentrieren, bessere Predictive-Modelle zu bauen und nicht nur bessere Datenintegration. Es gibt auch Anwender, die sich mit der Komplexität von Hadoop schwertun. Wir erwarten, dass Partner, die die Implementierung und das Management von Hadoop vereinfachen, erfolgreich dazu beitragen können, die Hadoop-Implementierungen bei großen Unternehmen zu beschleunigen.

Inchiosa: Wir benötigen auch nicht alle Daten gleichzeitig "in memory", wie es einige Anbieter propagieren. Ein Standardserver, ein Hadoop-Cluster oder eine Teradata-Datenbank ist beispielsweise eine solche Plattform, die sich sowohl für die Entwicklung als auch für das Deployment bestens eignet.

heise Developer: Vielen Dank für das Gespräch.

Die Fragen stellte Harald Weiss. Er ist seit über zehn Jahren freier Fachjournalist in New York. (ane)