Neue Tools sollen Qualität von Online-Texten analysieren

Texte im Internet sind oft wenig glaubhaft, die Quellen vielfach dubios. Das UPK Lab der TU Darmstadt stellt jetzt eine Trainingsdatenbank zur Verfügung, mit der Wissenschaftler neue Methoden zur Qualitätskontrolle von Texten testen können.

In Pocket speichern vorlesen Druckansicht 56 Kommentare lesen
Künstliche Intelligenz

(Bild: Gerd Altmann)

Lesezeit: 2 Min.
Von
  • Jürgen Diercks

Die aktuellen Debatten um "Lügenpresse" und Fake News zeigen, dass großer Bedarf daran besteht, Diskussionsbeiträge und andere Veröffentlichungen vor allem in sozialen Medien automatisiert zu untersuchen und gegebenenfalls Warnungen auszugeben. Politiker sind alarmiert und fordern Konsequenzen. Dass gefälschte Nachrichten gefährliche Folgen haben können, zeigen die Ereignisse rund um die Drohungen von Pakistan gegen Israel.

Das Problem: Wahres vom Falschen zu unterscheiden, ist in der Praxis schwierig, denn die Sache ist hoch komplex, gute Tools gibt es kaum. So bleiben Argumente und Informationen aus dem Netz bislang weitgehend unvalidiert, wie Professor Iryna Gurevych, Leiterin des UKP-Labs (Ubiquitous Knowledge Processing) an der TU Darmstadt, erklärt. Ihr Forschungsteam entwickelt Werkzeuge, die große Mengen an Informationen aus unterschiedlichen Kanälen erschließen und für den Nutzer vorstrukturieren.

Mit der neuen Datenbank „UKPConvArg2“ haben die Wissenschaftler eine Basis geschaffen, die insgesamt 9111 für die maschinelle Anwendung codierte Argumenten-Paare umfasst. Die Daten stammen aus 16 Social-Media-Debatten zu gesellschaftlich relevanten Themen. Rund 800 Crowdworker haben das Material anhand von 17 Qualitätskriterien bewertet, Experten diese Bewertung anschließend evaluiert.

Gurevych und ihr Team entwickeln Werkzeuge zur Analyse von Internetdebatten.

(Bild: TU Darmstadt)

Die Trainingsdatenbank steht anderen Wissenschaftlern seit November zur Verfügung. Sie zeigt nicht nur, welche Argumente überzeugend sind und warum. Sie bildet auch die Grundlage zum Entwickeln neuer Methoden für die empirische Analyse von Textdaten aus dem Internet. Man will damit eine Diskussion um die Möglichkeiten des maschinellen Lernens eröffnen.

Erste Experimente mit verschiedenen mathematischen Modellen zur Auswertung der Trainingsdaten seien bereits erfolgreich verlaufen, die Skalierungsfrage sei jedoch noch nicht gelöst.

Einfache Anwendungen wie die Segmentierung von Texten in Argumente, Fakten und Behauptungen innerhalb einheitlicher und umgrenzter Textsorten sind laut Institut in naher Zukunft bereits umsetzbar. Bisherige Versuche scheiterten oft an der Vielfalt, Heterogenität und Komplexität der Daten und der Fragestellungen. (jd)