Statistiksprache R: Inhaltsanalyse von Texten

Mit der Statistiksprache R lassen sich Texte automatisch analysieren. Am Beispiel der Corona-Regierungserklärung von Angela Merkel zeigen wir, wie das geht.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Sentimentanalyse von Texten mit R
Lesezeit: 11 Min.
Von
  • Manuel Böhm
Inhaltsverzeichnis

Das Auswerten unstrukturierter Daten, vor allem von Texten, erfreut sich auch bei den Anwendern der Statistikprogrammiersprache R wachsender Beliebtheit. Forschungs- und Anwendungsgebiete gibt es viele, etwa die Sentimentanalyse, die Empfindungen und Stimmungen messen soll. Ihr Ziel ist, die Polarität eines Textes einzuschätzen: Ist er eher positiv oder negativ gemeint? Ursprünglich wurde diese Technik von E-Commerce-Plattformen wie Amazon eingesetzt, um herauszufinden, ob ein Produkt empfehlenswert ist oder nicht. Der Fokus hat sich nun weit vom Marketing entfernt: Börsenanalysten untersuchen die Laune von Investoren, Politikwissenschaftler klassifizieren Parlamentsdebatten und Sozialwissenschaftler die Diskurse in sozialen Medien.

Speziell bei großen Textmengen bietet sich das Analysieren mit R an. Es gibt dazu zahlreiche Pakete für verschiedene Anwendungszwecke. Das Folgende zeigt Beispiele anhand dieser Bibliotheken:

library(dplyr) #für Data Prep
library(tidyr) #für Data Prep
library(tidytext) #für die Textanalyse
library(ggplot2) # zur Visualisierung
Mehr zum Thema Funktionale Programmierung

Beispielsweise wird der Befehl %>% aus dem Paket dplyr häufig eingesetzt, um in sogenannten Pipes mehrere Anweisungen nacheinander auszuführen. Die hier genutzten sind aus dem vollständigen Skript kopiert, das auf GitHub zur Verfügung steht. Untersuchungsgegenstand ist die Regierungserklärung von Angela Merkel vom 23. April 2020 zur Corona-Epidemie. Es sei darauf verwiesen, dass die folgenden Ausführungen allein dem Zweck dienen, die Textanalyse zu veranschaulichen; eine Aussage zur Qualität der Rede wird explizit nicht getroffen.