Kinder besser schützen: KI für Textforensik soll Cybergrooming erkennen

Algorithmen sollen Erwachsene aufspüren, die sich in Online-Kanälen jünger machen, um Kinder zu missbrauchen. Doch: Die Alterseinschätzung ist nicht leicht.

22

(Bild: insta_photos/Shutterstock.com)

03.03.2022, 07:40 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Ulrich Hottelet

Minderjährige sind begeisterte Nutzer digitaler Dienste und Kommunikationstools. In der Pandemie wurden diese Kanäle umso wichtiger. Damit stieg auch die Gefahr des sexuellen Missbrauchs von Kindern in der Onlinewelt. So hat Cybergrooming, das sexuelle Umgarnen und Manipulieren von Kindern im Internet seit dem Coronavirus-Ausbruch enorme Ausmaße angenommen, berichtet der unabhängige Beauftragte der Bundesregierung für Fragen des sexuellen Kindesmissbrauchs, Johannes-Wilhelm Rörig.

Eine Machbarkeitsstudie des Fraunhofer-Instituts für Sichere Informationstechnologie (SIT) zeigt nun, welche Technologien dabei helfen können, Heranwachsende vor Übergriffen im Netz und Fehlern beim Umgang mit digitalen Medien zu schützen. Mit Künstlicher Intelligenz und Multimediaforensik können Delikte erkannt oder sogar unterbunden werden. Die Studie wurde bereits 2018 im Auftrag des Hessischen Innenministeriums fertiggestellt, aber erst jetzt veröffentlicht.

Auch vor Cybergrooming können diese Technologien schützen. Der Begriff bezeichnet die Kontaktaufnahme von Erwachsenen zu Minderjährigen in Chatrooms, Foren und Online-Spielen mit dem Ziel, die Heranwachsenden sexuell zu missbrauchen. Dazu geben die Täter ein falsches, jüngeres Alter an. Textforensische Profiling-Technologien können aber das Alter von Chat-Teilnehmern einschätzen.

Maschinelles Lernen zum Schutz von Kindern im Netz

Denn der Computer erkennt mit maschinellem Lernen, wie Menschen in einem gewissen Alter schreiben, zum Beispiel weil sie unterschiedlich komplexe Sätze bilden. Er baut dazu eine Referenz aus Texten auf. Diese Referenztexte sollten inhaltlich denen, die dann untersucht werden, möglichst nahekommen. "Idealerweise sind es also Nachrichten von Kommunikationsportalen. Primär kommen sie aus den USA, weil das in Europa wegen des Datenschutzes schwieriger ist", sagt Professor Martin Steinebach, Leiter Media Security and IT Forensics im Fraunhofer SIT.

Für die Studie, die er miterarbeitet hat, verwendete man anonymisierte Texte der umstrittenen US-Plattform Perverted-Justice, die Pädokriminelle aufspürt, namentlich öffentlich macht und den Strafverfolgungsbehörden meldet. "Das war die einzige Plattform mit geeignetem Trainingsmaterial", sagt Steinebach. Die Übertragbarkeit der Texte ins Deutsche war auch dank der Übersetzungstools hoch.

Die Verarbeitung natürlichsprachlicher Informationen per Computer nutzte mehrere Algorithmen. Zum Beispiel ist das Vorkommen von Buchstabenfolgen altersabhängig. Eine Formulierung wie "im Gegensatz zu" wird eher von Erwachsenen verwendet. Die aus fünf Zeichen bestehende entsprechende Buchstabenfolge lautet "im Ge_" (einschließlich Leerzeichen). Von solchen sogenannten n-Grammen von Erwachsenen und Jugendlichen werden sehr viele gesammelt. Andere Maßzahlen sind beispielsweise Silbenzahl, Satzlänge und Grammatikfehler. Daraus entsteht eine statistische Übersicht, gleichsam ein Fingerabdruck des Schreibens.

Falls das angegebene Alter nicht zum Schreibstil passt, kann die Moderation des Forums benachrichtigt werden. Auch wenn bereits bekannte auffällig gewordene und geblockte Personen mit einem neuen Profil in Foren unterwegs sind, können textforensische Methoden das wahrscheinlich erkennen.

Lesen Sie auch

Forensische Textanalysen: Ex-Geheimagent jagt jetzt Firmen-Erpresser

Jugendschutz-freundliche Messenger mit wenig Akzeptanz

Die Altersbestimmung funktioniert jedoch nicht sehr genau. Das in der Studie angewandte Verfahren verschätzt sich im Schnitt um plus/minus fünf Jahre. Das ist im Vergleich zu anderen Methoden in der aktuellen Forschung ein durchschnittlicher Wert. Und das Fraunhofer SIT hat mit seiner Studie keine fertige Software-Lösung entwickelt.

Der kommerzielle Messenger Privalino, der mit KI vor Cybergrooming geschützt hat, musste 2019 mangels Kunden eingestellt werden. "Es ist einfach unrealistisch, dass Jugendliche zu Jugendschutz-freundlichen Tools und Messengern wechseln. Das müsste durch die Voreinstellung auf dem Smartphone funktionieren oder auf der Plattform vom Betreiber integriert werden", sagt Steinebach. Dieses Problem ist auch von Datenschutz-freundlichen Messengern wie Threema bekannt, die mit dem Platzhirsch WhatsApp kaum konkurrieren können.

Natürlich stellt sich die Frage, ob Nutzer ihren Schreibstil, zum Beispiel den Wortschatz und die Satzlänge, nicht so verstellen können, dass sie als Erwachsene nicht erkannt werden. Steinebach ist da skeptisch: "Um das herauszufinden, müsste man Tests durchführen." In der Fachszene geht man davon aus, dass man es langfristig nicht schafft, sich zu verstellen. Dazu kommt: "Täter kommunizieren meist mit mehreren. Sie versuchen herauszubekommen, bei wem sie am schnellsten zum Ziel kommen." Besondere Mühe beim Verstellen geben sich daher viele nicht.

Trainingsdaten aus Cybergrooming-Fällen erforderlich

Auch unabhängig vom Täter beziehungsweise einzelnen Autoren kann man versuchen, durch maschinelles Lernen die typische Vorgehensweise beim Cybergrooming zu erkennen, also etwa an welchem Punkt der Unterhaltung der Täter nach dem Alter der Opfer fragt oder nach Fotos von ihnen. Allerdings ist es hier besonders schwierig, geeignete Trainingsdaten zu erhalten. Denn der (Daten-)Schutz von Opfern und Tätern ist eine hohe Hürde. Aufzeichnungen von überführten Cybergrooming-Handlungen wären aber notwendig, um das System zu trainieren.

Lesen Sie auch

Sensiblere KI? Neue Version von GPT-3 soll weniger toxisch sein

Das Cybergrooming ist nicht das einzige Einsatzgebiet für die KI-basierte Textforensik. Die mögliche Anwendungspalette ist breit. "Bei Drohschreiben ist sie in Gerichtsprozessen hilfreich, andererseits ist ihr Einsatz zur Deanonymisierung in Beschwerdebriefkästen in Firmen denkbar", sagt Steinebach und weist damit auf die Zweischneidigkeit der Technologie hin. Zwar ist die automatische Erkennung von Fake News und Hassrede etwa auf sozialen Plattformen vorstellbar, andererseits lassen sich aber auch Rückschlüsse auf legitime politische Gesinnungen ziehen und gezielt auf bestimmte Alters- oder Sozialgruppen digitale Werbung ausspielen. Somit besteht auch die Gefahr der Überwachung der Kommunikation durch diese Technologie abseits der Aufklärung von Straftaten.