Einführung in das Data Mining mit R und Rattle

Seite 2: R und Rattle

R für alle Fälle

R als Skriptsprache ist für die interaktive Datenanalyse konzipiert. Das bedeutet, der Code wird nicht kompiliert, sondern in der R-Konsole interpretiert. Vom Kommandozeilen-Tool sollte sich niemand abschrecken lassen, bei Bedarf gibt es bereits genug grafische Benutzeroberflächen, die einen Einstieg in die R-Welt ermöglichen.

Eine davon ist RStudio. Das Werkzeug umfasst einen Editor, die R Console, eine Liste der Umgebungssvariablen, eine Dokumentation und vieles andere mehr (s. Abb. 3).

RStudio bietet angehenden R-Nutzern viele arbeitserleichternde Elemente (Abb. 3).

Ist für eine Aufgabe nur grundlegende Statistik nötig, ist hingegen das Tool R Commander geeignet. Nachdem die Daten importiert sind, lässt sich mit wenigen Klicks ein Histogramm der Datenverteilung erstellen. Der andere Vorteil des R Commander liegt darin, dass das Tool alle Aktionen als R-Befehle in der Konsole wiedergibt, was einen Blick unter die Motorhaube der Sprache gestattet und das Merken der Befehle vereinfacht (s. Abb. 4).

Einführung in das Data Mining mit R und Rattle

Datenimport und Erstellen des Histogramms der Datenverteilung in R Commander (Abb. 4)

R Commander positioniert sich als Alternative zur R Console; Rattle (auch als R Data Miner bekannt) will letztere hingegen nicht ersetzen. Rattle ist ein Package, das speziell für die Data-Mining-Analyse geschrieben ist.

Möchte man das Werkzeug nutzen, beginnt man wie beim R Commander mit dem Import der Daten. Als Datenquelle verlangt das Tool per Default eine CSV-Datei, es kann aber auch mit Excel-Tabellen, ODBC-Quellen, R Datasets und anderen Formaten umgehen. Jede Aktion in Rattle ist explizit mit der Schaltfläche "Execute" zu bestätigen. Sind die Daten in das Werkzeug geladen, können seine Nutzer die Variablen identifizieren und mit dem Modellaufbau beginnen (s. Abb. 5).

Über die grafische Oberfläche von R Data Miner ist es leichter, die Torverhältnisse in der Deutschen Eishockey-Liga zu analysieren (Abb. 5).

Viele Modelle setzen die Normalverteilung der Daten voraus, deshalb ist die Analyse der Häufigkeitsverteilung zwingend notwendig. Es gibt in der Statistik verschiedene Techniken und Verfahren zur Beschreibung der Verteilung der Daten, die im Rahmen dieses Artikels nicht näher erläutert werden können. Man nimmt für das Beispiel an, dass die Anzahl der Tore im Spiel der Poisson-Verteilung [1] unterliegt. Diese Hypothese ist der Grundstein für das generalisierte lineare Modell, das sich in Rattle mit vergleichsweise wenig Aufwand aufbauen lässt (s. Abb. 6).