Studie: Algorithmus soll Social Bots erfolgreich auf die Spur kommen

Forscher haben eine Technik entwickelt, die ihnen zufolge Meinungsroboter auf Twitter besser automatisiert ausmachen kann als bisherige Methoden.

(Bild: agsandrew/Shutterstock.com)

22.04.2020, 07:42 Uhr

Lesezeit: 5 Min.

Von

Stefan Krempl

Social Bots gelten vielfach als ferngesteuerte Agenten dunkler Mächte, die damit Online-Debatten manipulieren und gegebenenfalls etwa Wahlen gewinnen wollen. Die Datenwissenschaftler Iacopo Pozzana und Emilio Ferrara haben nach eigenen Angaben nun ein System entwickelt, mit dem sich die Meinungsroboter auf Twitter automatisiert durch einen Algorithmus zuverlässiger ausfindig machen lassen als bisher. Maschinelles Lernen soll den Forschern zufolge dabei helfen, signifikante Unterschiede im Verhalten von Menschen und Bots zu erkennen.

Ziel der am Mittwoch im Journal Frontiers in Physics erschienenen Studie ist es, die Verhaltensdynamiken von Meinungsrobotern während einer "Aktivitätssitzung" zu messen und mögliche Unterschiede zu Signaturen menschlicher Betätigungen in dem sozialen Netzwerk herauszufinden. Social Bots definieren die Forscher dabei recht breit als Konten auf sozialen Medien, die nicht von Menschen, sondern von Künstlicher Intelligenz (KI) kontrolliert werden.

Für die Untersuchung haben sich die Autoren mehrere Twitter-Datensets vorgenommen, die sie aufgrund der Nutzungsbedingungen des Betreibers aber nicht öffentlich zugänglich machen durften. Ein Datensatz umfasst Beiträge zur Wahl in Frankreich 2017, für den sie anhand von 23 nicht näher beschriebenen Stichworten und Hashtags 16 Millionen Tweets von über zwei Millionen Accounts auswählten.

Mensch oder Bot?

In einer ersten Analysestufe verwendeten die Wissenschaftler das Instrument Botometer, an dessen Entwicklung sie beteiligt waren, um die selektierten Postings in solche zu unterteilen, die vermutlich von Menschen stammen und andere, die auf das Konto von Bots gehen könnten. Bei diesem Verfahren wird jedem Account ein sogenannter Bot-Score zwischen 0 und 1 für Mensch oder Roboter zugeordnet. Botometer benutzt dafür einige verschiedene Merkmale ("Features"), um Twitter-Konten als wahrscheinlich automatisiert zu klassifizieren. Viel hängt dabei aber von der Qualität der Trainingsdaten ab. Manchen Beobachtern erscheint schon dieses grundlegende Verfahren als Humbug.

Zusätzlich zogen die Forscher einen Datensatz mit Tweets von drei Gruppen von Bots aus drei viralen Spam-Kampagnen sowie einer Einheit "echter" Nutzer heran. Die Klassifikation beruht hier auf menschliche Einschätzungen aus einer anderen Studie. Bei beiden Datensätzen nahmen sie dann "Aktivitätssitzungen" der verschiedenen Gruppen unter die Lupe, wobei sie vor allem auf die Anzahl von Retweets, von Antworten auf Beiträge sowie von Erwähnungen anderer Nutzer und die Länge der Tweets achteten.

Nach Angaben der Wissenschaftler ließ sich dabei feststellen, dass sich das Verhalten von menschlichen Nutzern in einer Sitzung mit der Zeit leicht verändert. Die als Bots klassifizierten Kandidaten agierten dagegen mehr oder weniger mechanisch und hielten sich mit Antworten, Retweets sowie Erwähnungen zurück. Die Unterschiede waren in den meisten Fällen aber letztlich nicht statistisch signifikant.

Trotz dieses Eingeständnisses bildeten die Wissenschaftler mehrere Merkmale heraus, durch die sich Bots und Menschen angeblich voneinander unterscheiden lassen. Mit diesen fütterten sie den Algorithmus an, der das Botometer-Verfahren und andere automatisierte Differenzierungsmechanismen verbessern beziehungsweise übertreffen können soll. Die Erkenntnisse hatte das Duo im Kern schon 2018 in einer vorläufigen Form auf dem Preprint-Server Arxiv veröffentlicht.

Kritik an der Studie

Obwohl die Studie mit der Publikation in einem Fachorgan nun quasi geadelt wird, sehen sie Akademiker aus der deutschsprachigen Wissenschaftsgemeinde skeptisch. Die Untersuchung weise "mehrere Mängel" auf, kritisieren etwa die Internet- und Medienforscher Adrian Rauchfleisch und Jonas Kaiser. Jenseits der grundsätzlichen Probleme mit dem Botometer, die sich bei nicht-englischen Sprachen noch vergrößerten, hätten die Autoren "Sessions" derart willkürlich definiert, dass nur maximal 0,73 Prozent der Twitter-Konten bei dem französischen Datensatz für die Analyse übrig geblieben seien.

Von einer typischen Nutzung des Diensts könne so keine Rede mehr sein, monieren Rauchfleisch und Kaiser. Zudem würden Bots ständig angepasst, um nicht gesperrt zu werden. Eine vergleichsweise alte Datenbasis führe daher zu wenig hilfreichen Resultaten.

Die einbezogenen Daten beschränkten sich hauptsächlich auf solche, die Twitter über eine einschlägige Programmierschnittstelle anbiete, gibt die Münchner Kommunikationswissenschaftlerin Lena Frischlich zu bedenken. Sie stünden damit nicht für das ganze Twitter-Universum oder die sozialen Medien insgesamt. Ob die ausgemachten Bots tatsächlich allein algorithmisch gesteuert seien, bleibe unklar. Zudem gelte: "Pseudo-User", hinter denen teils Menschen stehen, oder Profile, die von lebenden Personen rein zu Manipulationszwecken gesteuert werden, könnten so wahrscheinlich nicht erkannt werden. Ansätze, die generell auf hoch-aktive Konten abstellten, "die ähnliche Inhalte in großer Zahl im Netz verbreiten und damit den Diskurs verzerren", seien vielversprechender. (olb)