Machine Learning: Texte vektorisieren und Stimmungen analysieren

Sentimentanalysen dienen dazu, Texte hinsichtlich der Motivationslage von Autoren zu entschlüsseln. Mit dem Ergebnis passen Unternehmen ihr Geschäftsmodell an.

Artikel verschenken

28.07.2021, 08:00 Uhr

Lesezeit: 17 Min.

iX Magazin

Von

Dr. Alexander Friedenberger
Merlin Schäfer

Machine Learning: Texte vektorisieren und Stimmungen analysieren
- Tools auswählen
Daten vorbereiten
Vektorisierung als Basis für Vorhersagen
Sentiments und Hyperparameter
Weiterführende Analysen und Schlüsse ziehen

Artikel in iX 8/2021 lesen

Das Internet beherbergt zahllose Foren, in denen sich einzelne User heftige Schlagabtausche zu vermeintlich neutralen Themen liefern. Als Privatperson ignoriert man den Großteil dieser Kommentare, meist zu Recht. Aus der Businessperspektive hingegen können die negativen und natürlich auch die positiven Äußerungen nützlich sein, sofern sie sich auf ein Produkt oder eine Dienstleistung beziehen.

So könnte ein Softwarehersteller Social-Media-Kanäle nach größeren Updates analysieren, um herauszufinden, ob die Nutzer ein Update vorwiegend positiv oder eher negativ bewerten. Mit einer Sentimentanalyse lassen sich wertvolle Einblicke gewinnen. Die zu analysierenden Äußerungen liegen in unstrukturierter Textform vor. Entwicklerinnen können sie nicht einfach für Machine Learning nutzen, denn hierfür sind Berechnung und demnach numerische Daten nötig. Bevor man die ML-Algorithmen auf die Daten loslassen kann, sind einige vorbereitende Schritte notwendig. Ein zentraler Teil ist die Vektorisierung.

Vektorisierung beschreibt das Umwandeln der Texte in Vektoren, die den Text in numerischem Format repräsentieren. Dieser Artikel beschreibt beispielhaft, wie sich Daten, bestehend aus Reddit-Kommentaren zu Microsoft, vorbereiten und vektorisieren lassen. Danach kann man ihr Sentiment, also die Stimmung, analysieren. Hier geht es vor allem darum, die einzelnen Schritte und insbesondere das Vektorisieren näher zu betrachten. Den vollständigen Code zum Vorbereiten dieser Daten und zur Durchführung der Analysen finden Sie in zwei Jupyter-Notebooks (Download via GitHub)

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Notstrom an die Gastherme: Wie es sicher geht und welche Fallstricke es gibt

Generator für die Therme? Oft scheitert es an Stromqualität, Netztrennung und Normen. Welche Technik nötig ist – und warum DIY riskant ist.

Tschüss, Big Tech: Gmail-Postfach exportieren und E-Mails löschen

Sie haben Ihren E-Mail-Anbieter gewechselt? Dann müssen Sie jetzt noch Ihren Datenschatz aus dem alten Postfach heben. Wir erklären, wie das geht.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.

Chrome ausreizen: Datenschutz verbessern, an Vorlieben anpassen

Chrome ist umstritten, aber weiterhin populär. Unser Ratgeber zeigt, wie Sie den Browser datenschutzfreundlicher konfigurieren und sich vor Tracking schützen.

Mercedes CLA 250+ im Test: Verbraucht wenig, kommt weit, lädt schnell

Der CLA ist ein ausgezeichnetes Elektroauto, wie er unter grimmigen Testbedingungen unter Beweis stellt. Es stören fast nur noch Kleinigkeiten.

Tschüss Big Tech: Vierzehn sichere E-Mail-Alternativen aus Europa im Vergleich

Gmail, iCloud, Outlook – die größten E-Mail-Anbieter sitzen in den USA. Mit diesen europäischen Alternativen erklären Sie Ihre digitale Unabhängigkeit.