Künstliche Intelligenz: Fortsetzung folgt

US-Forscher haben eine Software entwickelt, die selbstständig Texte schreibt. Sie ist so gut, dass die Forscher den Code lieber unter Verschluss halten.

In Pocket speichern vorlesen Druckansicht
Künstliche Intelligenz: Fortsetzung folgt

(Bild: Hendrik Strobelt und Sebastian Gehrmann)

Lesezeit: 5 Min.
Von

War das ein cleverer PR-Stunt oder berechtigte Vorsicht verantwortungsvoller Wissenschaftler? Mitte Februar veröffentlichte die Non-Profit-Organisation OpenAI, die größtenteils vom Silicon-Valley-Mogul Elon Musk finanziert wird, einen bemerkenswerten Artikel. Darin beschrieben die Wissenschaftler ein neues Sprachmodell. Die lernfähige Software GPT-2 wurde darauf trainiert, Sätze zu vervollständigen und Texte sinnvoll zu ergänzen. Darüber hinaus kann sie einfache Fragen zu einem vorgegebenen Text beantworten.

Füttert man die Software mit zwei fiktiven Sätzen, spinnt sie sogar eine komplette Geschichte weiter.

Eine Vorgabe lautete:

"Wissenschaftler haben eine Herde von Einhörnern entdeckt, die in einem abgelegenen, bisher unerforschten Tal in den Anden leben. Noch überraschender für die Forscher war allerdings die Tatsache, dass die Einhörner perfektes Englisch sprachen."

GPT-2 ergänzte:

"Die vierhörnigen, silberweißen Einhörner waren der Wissenschaft bisher unbekannt. … Dr. Jorge Pérez, ein Evolutionsbiologe der Universität La Paz, und mehrere Begleiter erkundeten die Anden, als sie ein kleines Tal fanden, in dem keine anderen Tiere oder Menschen lebten. Pérez bemerkte, dass das Tal einen anscheinend natürlichen Brunnen aufwies, und von zwei Gipfeln aus Felsen mit silbern glänzendem Schnee umrahmt war. Pérez und die anderen wagten sich weiter in Richtung Tal. ,Als wir einen der Gipfel erreichten, sah das Wasser blau aus. Es war bedeckt mit Kristallen', sagte Pérez. Pérez und seine Freunde waren erstaunt, die Einhornherde zu sehen."

Das ist zwar keine hohe Literatur, aber aus mehreren Gründen bemerkenswert: Die Figur des Evolutionsbiologen Pérez hat das Modell frei erfunden, obwohl es nicht explizit darauf programmiert war. Inhaltliche Inkonsistenzen wie die "vierhörnigen Einhörner" und die penetrante Wiederholung von Wörtern rechnen die Forscher dagegen noch zu den Schwächen des Modells.

Ihre Fortschritte haben die Open-AI-Forscher nicht durch ein neues Verfahren erzielt, sondern durch mehr Ressourcen. Sie gaben dem Algorithmus zehnmal mehr Trainingsdaten als bisher – was auch das Zehnfache an Rechenzeit für das Training erforderte.

Technisch steckt hinter der Software das Prinzip der Verteilungssemantik. Diese geht davon aus, dass Wörter, die in einem ähnlichen Kontext vorkommen, auch eine ähnliche Bedeutung haben. So sind beispielsweise die Wörter "Katze" und "Hund" in ihrer Bedeutung verwandt, weil sie mehr oder weniger gleich verwendet werden. Man kann eine Katze oder einen Hund füttern – nicht jedoch eine Orange.

Algorithmen, die auf der Verteilungssemantik basieren, nutzen maschinelles Lernen, indem sie im Wesentlichen zählen, wie oft Wörter in einem Text auftauchen und welche anderen Wörter gehäuft in ihrem Umfeld stehen. Die resultierenden Modelle können die so gelernten Muster verwenden, um Wörter zu vervollständigen, aber auch um komplette Sätze oder gar Absätze zu konstruieren. In den letzten Jahren haben einige Forscher auch die Verteilung von zufälligen Zeichenfolgen anstelle von Wörtern untersucht, sodass Modelle flexibler mit Akronymen, Interpunktion, Slang und anderen Abweichungen umgehen können, die nicht im Wörterbuch erscheinen.

Politisch brisant wird die Geschichte allerdings dadurch, dass OpenAI nicht, wie sonst üblich, die Trainingsdaten, den Quellcode und die Parameter ihres Modells veröffentlichte. Denn dieses, schrieb die Organisation, könne sich auch zur automatisierten Massenproduktion von Fehlinformationen verwenden lassen. Eine Entscheidung, die von einigen KI-Forschern scharf kritisiert wurde: "Jeder Mensch kann dazu missbraucht werden, andere Menschen zu verführen und Lügen und Verschwörungstheorien zu verbreiten", spottete etwa der Deep-Learning-Pionier Yann LeCun auf Twitter. "Sollten wir deshalb aufhören, Babys zu produzieren?"

Zumindest ein Teil der Forschergemeinde ist denn auch mehr an den technischen Möglichkeiten der Software interessiert als an ihren diffusen Gefahren. Hendrik Strobelt und Sebastian Gehrmann vom IBM Watson Lab des Massachusetts Institute of Technology und der University of Harvard beispielsweise schlugen vor, die Technologie zu nutzen, um computergenerierte Sprache zu entlarven. Denn Sprachmodelle erzeugen Sätze, indem sie das nächste Wort in einer Folge vorhersagen. Wenn also die meisten Wörter in einem Text leicht vorhersagbar sind, ist der Text wahrscheinlich von einer Maschine geschrieben, argumentieren sie.

Strobelt und Kollegen programmierten mit dem abgespeckten Modell von OpenAI eine Testsoftware, die sie "Giant Language Model Test Room" (GLTR) nannten. Sie färbt Wörter, die für eine KI leicht vorhersehbar sind, grün ein. Weniger wahrscheinliche Wörter werden gelb beziehungsweise rot und violett gefärbt. Wenig überraschend markierte sie den Einhorn-Text überwiegend grün.

Janelle Shane, die den Blog "Letting Neural Networks Be Weird" betreibt, trainiert neuronale Netze beispielsweise darauf, Namen für Biersorten zu erfinden. Sie unterzog das Tool einer strengeren Prüfung. Anstatt es nur mit GPT-2-generiertem Text zu füttern, prüfte sie auch Passagen von anderen Sprachmodellen. Das Ergebnis: Die Software war nicht in der Lage, einen großen Teil der Wörter in diesen Texten vorherzusagen. Zumindest vorerst können Maschinen uns also nicht vor Fake News schützen, die von Maschinen geschrieben wurden.

(wst)