EinfĂĽhrung in das Data Mining mit R und Rattle
Seite 2: R und Rattle
R für alle Fälle
R als Skriptsprache ist für die interaktive Datenanalyse konzipiert. Das bedeutet, der Code wird nicht kompiliert, sondern in der R-Konsole interpretiert. Vom Kommandozeilen-Tool sollte sich niemand abschrecken lassen, bei Bedarf gibt es bereits genug grafische Benutzeroberflächen, die einen Einstieg in die R-Welt ermöglichen.
Eine davon ist RStudio. Das Werkzeug umfasst einen Editor, die R Console, eine Liste der Umgebungssvariablen, eine Dokumentation und vieles andere mehr (s. Abb. 3).
Ist für eine Aufgabe nur grundlegende Statistik nötig, ist hingegen das Tool R Commander geeignet. Nachdem die Daten importiert sind, lässt sich mit wenigen Klicks ein Histogramm der Datenverteilung erstellen. Der andere Vorteil des R Commander liegt darin, dass das Tool alle Aktionen als R-Befehle in der Konsole wiedergibt, was einen Blick unter die Motorhaube der Sprache gestattet und das Merken der Befehle vereinfacht (s. Abb. 4).
R Commander positioniert sich als Alternative zur R Console; Rattle (auch als R Data Miner bekannt) will letztere hingegen nicht ersetzen. Rattle ist ein Package, das speziell fĂĽr die Data-Mining-Analyse geschrieben ist.
Möchte man das Werkzeug nutzen, beginnt man wie beim R Commander mit dem Import der Daten. Als Datenquelle verlangt das Tool per Default eine CSV-Datei, es kann aber auch mit Excel-Tabellen, ODBC-Quellen, R Datasets und anderen Formaten umgehen. Jede Aktion in Rattle ist explizit mit der Schaltfläche "Execute" zu bestätigen. Sind die Daten in das Werkzeug geladen, können seine Nutzer die Variablen identifizieren und mit dem Modellaufbau beginnen (s. Abb. 5).
Viele Modelle setzen die Normalverteilung der Daten voraus, deshalb ist die Analyse der Häufigkeitsverteilung zwingend notwendig. Es gibt in der Statistik verschiedene Techniken und Verfahren zur Beschreibung der Verteilung der Daten, die im Rahmen dieses Artikels nicht näher erläutert werden können. Man nimmt für das Beispiel an, dass die Anzahl der Tore im Spiel der Poisson-Verteilung [1] unterliegt. Diese Hypothese ist der Grundstein für das generalisierte lineare Modell, das sich in Rattle mit vergleichsweise wenig Aufwand aufbauen lässt (s. Abb. 6).