Sprachmodelle im Visier: Kann eine KI Artikel schreiben?

OpenAIs Spachmodell GPT2 weckte die Erwartung, dass KI ähnlich gut Text wie Menschen produzieren kann. Ein Test zeigt, was wirklich geht und was nicht.

70

(Bild: sdecoret/Shutterstock.com)

05.04.2021, 10:00 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

André von Raison

Seit Jahrzehnten arbeiten Sprachforscher daran, Maschinen die Feinheiten der menschlichen Sprache beizubringen. Immer ausgefeiltere Algorithmen der Computerlinguistik (Natural Language Processing, NLP) sollen die maschinelle Verarbeitung von Text- und Sprachdaten durch Computer ermöglichen. Die Sprachmodelle können Inhalte von Texten analysieren und erkennen, um welche Themen, Dinge, Menschen oder Orte es geht. Maschinelle Sprachmodelle sind inzwischen in der Lage, selbst Texte zu generieren oder interaktiv auf Fragen zu antworten, wobei die Qualität logischerweise stark vom Trainigsmaterial für die zugrundeliegenden neuronalen Netze abhängt.

Sprachmodell für eigene Experimente

Hatten frühe Vertreter, die Sequence2Sequence-Modelle, bei einer großen Menge von Beispieltexten noch Skalierungsprobleme, haben Forscher mittlerweile mit dem Transformer-basierten GPT-2 (Generative Pretrained Transformer) ein Sprachmodell entwickelt, das sich selbst trainiert. GPT-2 steht auf der GitHub-Seite von OpenAI als Open Source für eigene Experimente zur Verfügung.

Mit mehreren Schichten von Transformern besitzt es eine bislang Menschen vorbehaltene Eigenschaft: Aufmerksamkeit. So merkt sich die KI nur die für das Verständnis eines Textes relevanten Wörter, was den angehmen Nebeneffekt hat, dass die Trainingszeit bei großen Zeichen- oder Wortsequenzen nicht so stark zunimmt wie bei Sequence2Sequence-Modellen. Den Code des leistungsfähigeren Nachfolgers GPT-3 hält OpenAI allerdings unter Verschluss. Auf das System kann man nur über eine kostenpflichtige API zugreifen.

GPT-2 in der Praxis

iX-Autor Ramon Wartala hat GPT-2 getestet. Als Grundlage für das Training dienten die iX-Artikel der letzten 30 Jahre. Anschließend sollte GPT-2 auf Basis einiger Wörter einen iX-Artikel schreiben. Aus der Vorgabe "Mit Hilfe von Cloud Computing" dichtete GPT-2 beispielsweise: "Mit Hilfe von Cloud Computing muss sich der Anwender nicht um die einzelnen Angebote kümmern, sondern kann nach Bedarf skalieren – vom Anbieter eines Dienstes über den Anbieter bis hin zu den Kunden. Deshalb ist es möglich, ein Rechenzentrum mit mehreren Cloud..." – was nur so lange plausibel klingt, bis man genauer hinsieht.

Wie man mithilfe einiger Python-Skripte Textdaten für GPT-2 aufbereitet, den Textgenerator damit trainiert und dann neue iX-Artikel – oder so etwas ähnliches – schreiben lässt, beschreibt der Artikel in der aktuellen iX 4/2021: