Machine Learning: Texte vektorisieren und Stimmungen analysieren

Sentimentanalysen dienen dazu, Texte hinsichtlich der Motivationslage von Autoren zu entschlüsseln. Mit dem Ergebnis passen Unternehmen ihr Geschäftsmodell an.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 17 Min.
Von
  • Dr. Alexander Friedenberger
  • Merlin Schäfer
Inhaltsverzeichnis

Das Internet beherbergt zahllose Foren, in denen sich einzelne User heftige Schlagabtausche zu vermeintlich neutralen Themen liefern. Als Privatperson ignoriert man den Großteil dieser Kommentare, meist zu Recht. Aus der Businessperspektive hingegen können die negativen und natürlich auch die positiven Äußerungen nützlich sein, sofern sie sich auf ein Produkt oder eine Dienstleistung beziehen.

So könnte ein Softwarehersteller Social-Media-Kanäle nach größeren Updates analysieren, um herauszufinden, ob die Nutzer ein Update vorwiegend positiv oder eher negativ bewerten. Mit einer Sentimentanalyse lassen sich wertvolle Einblicke gewinnen. Die zu analysierenden Äußerungen liegen in unstrukturierter Textform vor. Entwicklerinnen können sie nicht einfach für Machine Learning nutzen, denn hierfür sind Berechnung und demnach numerische Daten nötig. Bevor man die ML-Algorithmen auf die Daten loslassen kann, sind einige vorbereitende Schritte notwendig. Ein zentraler Teil ist die Vektorisierung.

Mehr zum Thema Machine Learning

Vektorisierung beschreibt das Umwandeln der Texte in Vektoren, die den Text in numerischem Format repräsentieren. Dieser Artikel beschreibt beispielhaft, wie sich Daten, bestehend aus Reddit-Kommentaren zu Microsoft, vorbereiten und vektorisieren lassen. Danach kann man ihr Sentiment, also die Stimmung, analysieren. Hier geht es vor allem darum, die einzelnen Schritte und insbesondere das Vektorisieren näher zu betrachten. Den vollständigen Code zum Vorbereiten dieser Daten und zur Durchführung der Analysen finden Sie in zwei Jupyter-Notebooks (Download via GitHub)