Künstliche Intelligenz: Google Brain verfasst selbstständig Wikipedia-Artikel
Sind Wikipedia-Autoren bald arbeitslos? Geht es nach dem Google Brain Team, dann könnte das in Zukunft der Fall sein. Ihre intelligente Software aggregiert Informationen aus mehreren Texten und kann daraus einen neuen Lexikon-Eintrag schreiben.
Eine Software kann aus vorgegebenen Texten Informationen extrahieren und neue natürlichsprachige Texte zu einem speziellen Thema generieren. Das beschreibt Googles Forschungslabor für Künstliche Intelligenz und Maschinenlernen, Google Brain Team, in dem Paper "Generating Wikipedia by Summarizing Long Sequences".
Das Papier soll auf der International Conference on Learning Representations (ICLR) im kommenden April diskutiert werden. Den Wissenschaftlern ist es nach eigenen Angaben gelungen, eine Software englischsprachige Wikipedia-Artikel verfassen zu lassen. Dem publizierten Textbeispiel ist aber noch anzumerken, dass es von einem Bot verfasst wurde.
Natürlichsprachige Texte
Menschliche Autoren suchen sich Informationen aus mehreren relevanten Quellen zusammen, ziehen die wichtigsten Kerninformationen heraus und verfassen dann einen themenspezifischen Text. Die Software des Google Brain Teams arbeitet nach dem gleichen Prinzip. Die Forscher füttern ihre Software zunächst mit Texten, die relevante Informationen zu einem Thema enthalten. Das können beispielsweise die Top-10-Webseiten einer themenspezifischen Google-Suche sein.
In einem Prozess, den die Wissenschaftler als "extraktive Zusammenfassung" bezeichnen, scannt die Software diese Texte und ermittelt über einen Algorithmus die wichtigsten Kerninformationen zum Thema. Die so herausgefilterten Sätze werden dann über ein neurales abstrahierendes Modell auf kürzere Informationseinheiten heruntergebrochen und danach zu einem neuen Text zusammengesetzt. Dabei wird wieder auf die Sätze in den originalen Texten zurückgegriffen. Die Sätze werden also nicht komplett neu formuliert. Das Ergebnis wirkt dadurch sprachlich natürlicher als rein computergenerierte Artikel.
Verbesserungsbedarf bei den Algorithmen
Als Beispiel haben die Forscher ihren Bot einen bereits vorhanden Wikipedia-Artikel der Luftfahrt-Webseite Wings Over Kansas neu verfassen lassen. Das Ergebnis ist trotz fehlender Interpunktion gut lesbar, wirkt aber noch ein wenig holprig.
Das Google Brain Team gibt sich entsprechend bescheiden: Die Texte unterschieden sich noch deutlich von einem Text eines menschlichen Autors. Außerdem könne die Software noch nicht zwischen vertrauenswürdigen und unglaubwürdigen Informationen beim Scannen der Quelltexte unterscheiden. Bisher sei es auch nicht möglich, eine größere Anzahl an Texten als Quellen zu verwenden, da dies die Algorithmen und die Hardware überfordere. Wikipedia-Artikel können sie daher derzeit noch nicht in ausreichender Qualität formulieren. In Zukunft und mit Verbesserung der Algorithmen sei das jedoch denkbar. (olb)