25 Jahre: Wie R zur wichtigsten Programmiersprache für Statistiker wurde

Im August 1993 beschlossen zwei Wissenschaftler, ihre Alternative zu S vorzustellen. Heute führt für Datenwissenschaftler kein Weg an R mehr vorbei.

In Pocket speichern vorlesen Druckansicht 69 Kommentare lesen
25 Jahre: Wie R zur wichtigsten Programmiersprache für Statistiker wurde
Lesezeit: 6 Min.
Von
  • Alexander Neumann
Inhaltsverzeichnis

Dieser Tage jährt sich zum 25. Mal der Moment, dass die Programmiersprache R der Weltöffentlichkeit vorgestellt wurde. Ihren Anfang hat sie jedoch bereits 1992, als die Wissenschaftler Ross Ihaka und Robert Gentleman an der Universität von Auckland beschlossen, eine Alternative zur Sprache S zu schaffen. Es folgten als weitere wichtige Meilensteine der früheren Entwicklung die erste Veröffentlichung als Open-Source-Software im Jahr 1995, 1997 die Gründung der R-Core-Gruppe und die Einführung von CRAN (Comprehensive R Archive Network) sowie die Veröffentlichung von Version 1.0.0 im Februar 2000.

Heute ist R wahrscheinlich die Programmiersprache Nummer eins, um statistische Aufgaben mit einer Sprache anzugehen. Deswegen lässt sich schon geraume Zeit ein Boom rund um R konstatieren. In Zeiten von Machine Learning und einer erfolgversprechenden Renaissance von Künstlicher Intelligenz steht die Sprache neben anderen wie Python oder Scala. Datenwissenschaftler und andere Berufsgruppen kommen tendenziell nicht an R vorbei.

R ist eine Open-Source-Entwicklungsumgebung für statistische Analysen, vergleichbar mit anderen statistischen Softwarepaketen wie MATLAB, SAS Enterprise Miner oder SPSS Statistics. Sie basiert auf einer eigenen Skriptsprache, die für mathematische Berechnungen optimiert ist. R erlaubt es, Datensätze aus viele Datenquellen zu laden, diese zu transformieren und anschließend zu untersuchen. So gewonnene Einsichten sind wertvoll und lassen sich häufig zu Vorhersagemodelle weiterentwickeln. R bietet darüber hinaus eine Menge an domänenspezifischen Erweiterungen für besondere statistische Verfahren oder Visualisierungen.

Große Unternehmen wie SAP, Oracle, Facebook, Google und vor allem in jüngster Zeit Microsoft betrachten die Sprache als strategisch wichtig und haben die Unterstützung für sie in ihren Angeboten massiv ausgebaut. In Gegensatz zu den genannten Programmiersprachen müssen bei R die Programmierfähigkeiten nicht im Vordergrund stehen – ein Vorteil, wenn es darum geht, auch Nicht-Informatikern mit den Möglichkeiten der Sprache zu helfen.

Zu Anfang hatten Ihaka und Gentleman jedoch andere Sprachen gesichtet. Scheme war ihnen vertraut, und beide fanden die Sprache in vielerlei Hinsicht nützlich. Sie war jedoch unhandlich zu tippen, und es fehlte an gewünschten Funktionen. Beide Wissenschaftler waren mit S firm, und diese Sprache lieferte letztlich die gewünschte Art von Syntax, die sie wollten. Da sowohl Scheme als auch S kommerziell vertriebene Sprachen waren, beschlossen die beiden, eine neue Sprache zu entwickeln. So entstand R mit Bezug einerseits zu S – viele in S geschriebene Programme sind mit R kompatibel – und andererseits mit der Referenzierung auf den Anfangsbuchstaben ihrer Vornamen.

Ihaka und Gentleman hielten das Projekt bis August 1993 geheim. Erst als ein anderer Wissenschaftler in der S-News-Mailingliste eine Macintosh-Version von S brauchte, war es für die beiden Sprachschöpfer an der Zeit, von ihrer Entwicklung zu berichten. Was ihnen bis zu diesem Zeitpunkt noch nicht ganz fertig schien, gab es bald darauf als brauchbare Version auf StatLib, einem Onlinesystem für die Verteilung statistischer Software und Daten.