Wie gut funktionieren automatische Hass-Detektoren?

Unternehmen und Behörden entwickeln Software, die Hass-Postings in sozialen Netzen automatisch erkennen soll. Ist die Technik wirklich reif für den Einsatz?

In Pocket speichern vorlesen Druckansicht 67 Kommentare lesen

(Bild: sebastianosecondi / Shutterstock.com)

Lesezeit: 4 Min.

Der Kampf gegen Hassrede im Internet nimmt Fahrt auf: Ab dem 1. Februar 2022 müssen Anbieter sozialer Netzwerke mutmaßlich strafbare Inhalte wie Hassbeiträge, Terrorismuspropaganda oder Bedrohungen unaufgefordert zusammen mit sensiblen Daten der Verdächtigen ans BKA melden. Um der Flut verdächtiger Inhalte Herr zu werden, setzten großen Unternehmen wie Google auf flächendeckende Scans. Das Unternehmen Meta hat nach eigenen Angaben sogar eigens einen few shot learner entwickelt – eine Software, die an Hand sehr weniger Beispiele trainiert werden kann.

Unabhängig davon entwickeln auch deutsche Behörden und Anstalten eigene Lösungen zur automatischen Erkennung von Hasspostings im Netz – die Ergebnisse dieser Arbeit sind jedoch alles andere als transparent. So arbeitet die gelegentlich als "Hackerbehörde" titulierte "Zentralstelle für Informationstechnik im Sicherheitsbereich" (Zitis) an einem Verbundprojekt namens KISTRA, KI zur Früherkennung von Straftaten. Ein Konsortium, an dem Zitis gemeinsam mit Universitäten forscht, wird vom BMBF mit 2,98 Millionen Euro gefördert. Eine Veröffentlichung oder gar der Quellcode der Software liegen jedoch nicht vor.

Die Landesmedienanstalt NRW verfügt über ein Software-Tool[Link auf https://www.medienanstalt-nrw.de/imagebroschuere/viel-mehr-als-nur-loeschen.html], mit dem sie "Verstöße schneller entdecken und zum Beispiel Meldungen an die Behörden zu vereinfachen". Das Tool soll in Kürze auch in Baden-Württemberg eingesetzt werden. Über die Funktionsweise der Software, die "ein Berliner Unternehmen" entwickelt haben soll, erfährt man auf der Website der Anstalt leider recht wenig. Es scheint sich nach einem Bericht der SZ im August 2021 um eine Art spezialisierter Crawler zu handeln, der "Stichwort- und Link-basiert" nach Inhalten sucht, und auf Webseiten mit "verdächtigen Inhalten" automatisch die Links "nach dem Schneeball-Prinzip" überprüft. Zudem erkennt das Tool "die Region, aus der ein Inhalt kommt, liefert Nutzerzahlen und kann Bilder und Texte analysieren."

Thomas Mandl, der an der Universität Hildesheim das Thema KI und Hate Speech interdisziplinär erforscht, hält Verfahren des maschinellen Lernens zur automatischen Erkennung von Hasspostings tatsächlich für reif für den praktischen Einsatz. "Denn es gibt keine Alternative und die Fortschritte in der Sprachverarbeitung in den letzten zehn Jahren waren enorm", schreibt Mandl auf Anfrage. Natürlich müsse man unterscheiden zwischen strafbaren Äußerungen und solchen, die lediglich die Hausregeln der Plattformen verletzen. Ob ein Posting wirklich strafbar sei, ließe sich jedoch "nur sehr grob erkennen". Die Tools würden sich aber "für eine Vorauswahl" eignen.

Technologisch betrachtet entwickle sich das Feld "sehr dynamisch" schreibt Mandl. Weil lexikalisch arbeitende Systeme, die problematische Begriffe enthalten, zum einen laufend aktualisiert werden müssen und zum anderen leicht durch kleine Änderungen unterlaufen werden, konzentriert sich die Entwicklung auf maschinelles Lernen. "2019 waren noch LSTM die besten Methoden, 2020 BERT und 2021 Varianten von BERT wie v.a. RoBERTa. Definitiv sind derzeit die Transformer-Architekturen die besten Verfahren, um solche Klassifikationsaufgaben zu bearbeiten. Allerdings: Sie sind teils nur wenige Prozent besser als lexikalisch arbeitende Systeme. Und die notwendige Rechenleistung erhöht sich dramatisch."

Wichtig sei jedoch nicht nur die technische Entwicklung, sondern auch die Regulierung und das Monitoring der Verfahren. So sei beispielsweise die Transparenz der Verfahren für deren Akzeptanz extrem wichtig. "Ich finde, es ist Teil der informationellen Autonomie der Bürgerinnen und Bürger, dass sie informiert werden, dass (und in Grenzen auch warum) ein Tweet z.B. nicht veröffentlicht wird", schreibt Mandl. "Wenn deswegen strafbare Inhalte online gestellt würden, könnten ja auch andere Gruppen auf diese Schwächen hinweisen und die Algorithmen könnten verbessert werden. Hassrede entwickelt sich ohnehin dynamisch, sowohl in den Ausdrucksformen als auch bei den Themen. Die KI muss also laufend angepasst werden."

Mehr zum KI-Einsatz bei Hassrede

(wst)