KI hilft bei der Literaturrecherche
"Semantic Scholar" vom Allen Institute for Articial Intelligence vereinfacht das Auffinden wissenschaftlicher Inhalte.
- Karen Hao
Die Abkürzung "tl;dr" (too long, didn't read) heißt bekanntlich auf Englisch, dass ein Artikel zu lang für den Nutzer ist, um ihn wirklich zu lesen. Der Begriff wird auch verwendet, wenn ein Textinhalt verknappt und essentiell wiedergegeben werden soll. KI-Algorithmen können das mittlerweile besonders gut. Ein neues System, das am Allen Institute for Artifical Intelligence (AI2) entstanden ist, zeigt nun, wie das mit wissenschaftlicher Literatur funktioniert.
Forscher sollen so dabei unterstützt werden, neue Veröffentlichung schneller und gründlicher zu sichten. Am 16. November stellte das AI2 hier ein neues Flaggschiff-Produkt vor: Es nennt sich Semantic Scholar und ist eine KI-getriebene Suchmaschine für wissenschaftliche Literatur. Die zu jeder darin enthaltenen Veröffentlichung gestellten Zusammenfassungen sind jeweils nur einen Satz lang und erscheinen, wenn Nutzer die Suchfunktion verwenden oder das Profil eines Autors besuchen. Aktuell sind allerdings nur Paper aus dem Fachbereich Informatik enthalten.
Informationen finden, Sätze generieren
In einer Zeit der Informationsüberflutung wird KI so zu einem Lösungsansatz, die sich die natürliche Sprachverarbeitung (Natural Language Processing, NLP) zunutze macht. Man kann diese Aufgabe auf zweierlei Arten angehen. Eine nennt sich "extraktiv"; dabei wird ein Satz oder eine Satzreihe aus dem Textkörper gesucht, der die Essenz erfassen soll. Die andere heißt "abstrahierungsfähig", hier werden neue Sätze generiert. Während extraktive Techniken schon länger populär sind, da die Möglichkeiten der NLP-Systeme recht begrenzt waren, haben Fortschritte in den vergangenen Jahren nun auch die Fähigkeit zur Abstrahierung verbessert.
Das AI2-Modell arbeitet mit einem sogenannten Transformer – eine Art neuronale Netzwerkarchitektur, die erstmalig 2017 demonstriert wurde und seitdem alle entscheidenden Fortschritte in der NLP – inklusive GPT-3 von OpenAI – möglich gemacht hat. Die Forscher haben ihren Transformer zunächst mit einem generischen Textkörper trainiert, um ihn grundsätzlich mit der englischen Sprache vertraut zu machen. Dieser Prozess ist als Vortraining bekannt und Teil dessen, was Transformer so leistungsstark macht. Anschließend wurde das Modell verfeinert – mit anderen Worten: das Training ging weiter – entsprechend der spezifischen Aufgabe der Zusammenfassung wissenschaftlicher Literatur.
Mit Daten verfeinern
Als erstes kreierten die Forscher ein Datenset namens SciTldr, welches gut 5400 Paare von wissenschaftlichen Papern und dazugehörigen Ein-Satz-Zusammenfassungen beinhaltete. Um diese hochqualifizierten Zusammenfassungen zu finden, griff das Team zunächst auf OpenReview zurück, eine öffentliche Plattform, auf der Konferenzbeiträge eingereicht werden und auf der Forscher häufig eine eigene Ein-Satz-Synopsis ihres Papers veröffentlichen. Auf diese Weise konnten ein paar tausende Beispiel-Paare gefunden werden. Anschließend wurden menschliche Experten beschäftigt, um weitere Paper zusammenzufassen und um längere Synopsen zu verdichten, die bereits von Gutachtern verfasst worden waren.
Um diese 5400 Paare noch weiter zu verbessern, haben die Forscher ein zweites Datenset zusammengefügt, dass 20.000 Paare (je ein wissenschaftliches Paper und deren Titel) beinhaltet hat. Die Forscher verfolgten die Annahme, dass die Titel an sich schon eine Form der Zusammenfassung darstellen und dass sie helfen würden, die Modell-Ergebnisse zu verbessern. Experimente bestätigten das.
Um den Faktor 238 verdichtet
Wenngleich viele Forschungsanstrengungen sich mit Zusammenfassungen als Aufgabenstellung befasst haben, sticht Semantic Scholar mit dem Ausmaß der erreichten Komprimierung hervor. Die wissenschaftlichen Paper, die in dem SciTldr-Datenset enthalten sind, waren im Schnitt 5000 Wörter lang. Die Ein-Satz-Zusammenfassung hatten eine Länge von durchschnittlich 21 Wörtern. Das bedeutet, dass jedes Paper in seinem Umfang um das 238-fache verdichtet wurde.
Das nächstbeste entsprechende Modell ist so trainiert, dass es Wissenschaftsliteratur durchschnittlich um den Faktor 36,5 komprimieren kann. Während der Testphase beurteilten menschliche Gutachter die Fähigkeiten des Modells, informativere und akkuratere Zusammenfassungen als frühere Modelle zu kreieren.
Verbesserungen möglich
AI2 arbeitet weiter an der Verfeinerung, wie Daniel Weld, Professor an der University of Washington und Leiter der Semantic-Scholar-Forschungsgruppe, meint. Zum einen ist geplant, dass das Modell mehr als nur Informatik-Literatur bearbeiten kann. Zum anderen – und das liegt in Teilen vielleicht an dem Trainingsprozess – ist aufgefallen, dass die "tl;dr"-Zusammenfassungen manchmal zu stark mit dem Titel der Veröffentlichung übereinstimmen, was ihre allgemeine Nützlichkeit verringert. Nach Plan sollen bei einem Update des Trainingsprozess derartige Überschneidungen negativ bewertet werden, sodass das Modell mit der Zeit lernt, diese Wiederholungen zu vermeiden.
Auf lange Sicht will das Team auch daran arbeiten, mehrere Dokumente gleichzeitig zusammenfassen zu lassen – das wäre nützlich für Forscher, die ein neues Feld betreten oder sogar für Entscheidungsträger, die sich schnell auf den neuesten Stand bringen wollen. "Wir freuen uns darauf, personalisierte Forschungs-Briefings zu kreieren", sagt Weld. "Bei denen würde nicht nur ein einzelnes Paper zusammengefasst werden, sondern ein ganzer Satz von sechs neuesten Forschungsfortschritten in einer bestimmten Subkategorie." (bsc)