Facebook: Neuronales Netzwerk Rosetta kann Texte in Bildern automatisch erkennen

Facebook will künftig auch Texte auf Bildern erfassen und auswerten, um anstößige Inhalte oder Spambotschaften zu erkennen.

19

(Bild: Facebook)

12.09.2018, 17:09 Uhr

Lesezeit: 2 Min.

Von

Michael Söldner

Nutzer auf Facebook oder Instagram kommunizieren miteinander nicht nur mit Texten oder Bildern. Häufig werden beide Inhalte als Meme miteinander vermischt. Dies stellt automatische Systeme zur Erkennung von anstößigen oder böswilligen Inhalten aktuell noch vor Probleme. Ein neues neuronales Netzwerk namens Rosetta soll künftig in Echtzeit alle auf Facebook hochgeladenen Memes analysieren, ihren Kontext erkennen und die Bedeutung der Inhalte auswerten.

Die Anforderungen hierfür seien jedoch deutlich höher als bei herkömmlichen Systemen zur Texterkennung (OCR, optical character recognition), da Texte durch den Hintergrund schlechter erkannt werden. Das auf maschinelles Lernen basierende System Rosetta kann laut Facebook Texte von beliebigen Fotos erfassen und auch den Kontext dahinter erkennen.

Endlose Lernbeispiele

Dazu seien zwei Schritte nötig: Zuerst werden Bilder in Rechtecke unterteilt, in denen die KI nach einzelnen Buchstaben fahndet. Danach wandelt ein neuronales Netzwerk die Buchstaben in maschinell lesbare Texte um und erfasst deren Bedeutung. Mit daran angeschlossenen Filtern will Facebook schließlich erkennen, ob die auf dem Foto befindlichen Texte böswillig oder anstößig sind.

Die für das Training der KI nötigen Daten stammen direkt von Facebook, dazu kommen synthetisch generierte Memes. Dennoch lauern viele Probleme: Mit der Zunahme der unterstützten Sprachen steige auch die Zeit für die Auswertung. Zudem würden die Urheber von böswilligen Bildern und Spaminhalten ihre Techniken immer wieder anpassen. Das System müsse daher immer weiter lernen, um auch die Tricks der Macher zu erkennen.

Videos als Herausforderung

Rosetta werde schon von mehreren Entwicklerteams bei Facebook und Instagram genutzt. Noch stellen die Betreiber aber die unzähligen Videos noch vor Probleme. Auch darin finden sich immer häufiger Texte, die sich mit einer Erfassung von Einzelbildern kaum in einer vertretbaren Zeit auswerten lassen. Dieses Problem wolle man mit 3D Convolutional Networks umgehen, die Bildausschnitte in Zusammenhang setzen und auch die zeitliche Abfolge berücksichtigen.

Gleichzeitig hat Facebook die Unterstützung der automatischen Übersetzung für 24 weitere Sprachen aktiviert. Neben Serbisch versucht das soziale Netzwerk auch Sprachen wie Urdu, Punjabi oder Somali in die eigene Landessprache zu übersetzen. Noch steckt die Unterstützung aber in den Kinderschuhen, die Ergebnisse würden zu Beginn noch viele Fehler enthalten. (axk)