KI-Werkzeug soll Fachliteratur zu Covid-19 automatisch einschätzen

Eine Aufsatz-Flut beschreibt das neuartige Coronavirus, aber nicht immer korrekt. Eine US-Organisation überprüft Aussagen darin jetzt mit einem neuronalen Netz.

12

(Bild: Antonio Guillem / shutterstock.com)

04.06.2020, 06:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Karen Hao

Ein experimentelles Werkzeug soll Forschern dabei helfen, die Flut an Coronavirus-Literatur daraufhin zu prüfen, ob sie wissenschaftlichen Methoden entspricht.

Die Zahl der am Coronavirus infizierten Menschen steigt beständig. Diese Artikel-Auswahl gibt einen Einblick in die Auswirkungen der Infektion:

Corona-Fakten versus Corona-Fiktion

Seit dem Ausbruch der Coronavirus-Pandemie erschienen massenhaft Beiträge und Aufsätze zu dem Thema, produziert von Menschen mit sehr unterschiedlichem Grad an Kompetenz und unterschiedlich intensiv überprüft durch Kollegen. Dadurch ist es für Wissenschafter schwierig geworden, beim Erforschen des Virus Fakten von Fiktion zu unterscheiden.

Das SciFact genannte Werkzeug wurde entwickelt von der nicht-kommerziellen Organisation Allen Institute for Artificial Intelligence (AI2). In ein Suchfeld kann man eine wissenschaftliche Aussage eingeben, beispielsweise "bei Covid-19 besteht eine Komorbidität mit Bluthochdruck". Als Antwort kommt dann eine Reihe von Fachaufsätzen, zu denen angegeben ist, ob sie die Aussage unterstützen oder ihr widersprechen. Außerdem wird von jedem Paper die Kurz-Zusammenfassung angezeigt und das Werkzeug hebt die Sätze darin hervor, die am relevantesten für die Bewertung sind.

Videos by heise

Das System basiert auf einem neuronalen Netzwerk namens VeriSci. Trainiert wurde es mit einer bestehenden Daten-Sammlung für Fakten-Checks, die mit Hilfe von Wikipedia zusammengestellt wurde. Das Fein-Tuning erfolgte dann mit neuen wissenschaftlichen Faktencheck-Daten mit 1.409 Aussagen und 5.183 Abstracts dazu.

Die zweite Daten-Sammlung stellte AI2 mit Hilfe von Semantic Scholar zusammen, einer frei zugänglichen Datenbank wissenschaftlicher Aufsätze, die von der Organisation seit 2015 geführt wird. Dazu wählte das Team nach dem Zufallsprinzip Papers aus einigen Dutzend angesehener Fachzeitschriften im Bereich Life Sciences und Medizin aus, darunter Cell, Nature oder JAMA. Anschließend wurden die Sätze daraus extrahiert, die Zitierungen enthielten, und Experten gebeten, diese zu wissenschaftlichen Aussagen umzuformulieren, die sich mit der Literatur stützen oder belegen lassen. Zu jeder Aussage lasen die Experten die Abstracts der dazugehörigen Zitate und hielten fest, welche Sätze dafür sprechen oder dagegen.

KI-basiertes Fakten checken

Die AI2-Forscher haben VeriSci anhand von wissenschaftlichen Aussagen mit Bezug zu Covid-19 getestet. Dabei rief das System in 23 von 36 Fällen relevante Aufsätze ab und stufte sie korrekt ein. Das ist längst nicht perfekt. Aber das Ergebnis ist besser als beim selben neuronalen Netzwerk, wenn es mit anderen Datenbanken trainiert wurde. Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten. Die Fehlerquote könnte durch mehr Trainingsdaten noch gesenkt werden, aber auch Fortschritte beim Verstehen natürlicher Sprache sind erforderlich.

SciFact soll Wissenschaftlern dabei helfen, eigene Hypothesen oder Aussagen von Kollegen mit der bestehenden Literatur abzugleichen. Zur Widerlegung von Falschinformationen oder Verschwörungstheorien über Covid-19, wie sie in sozialen Medien kursieren, ist es nicht gedacht, und auch nicht zur Bewertung von Meinungen über den Umgang damit. Der experimentelle Charakter des Werkzeugs bedeutet, dass Experten immer noch lieber selbst die Abstracts lesen sollten, statt sich auf die automatischen Kennzeichnungen "unterstützt" oder "widerlegt" zu verlassen. Außerdem weist AI2 darauf hin, dass es nicht überprüft, ob bei den jeweiligen Papers wissenschaftlich sauber gearbeitet wurde.

(sma)