Maschinelles Lernen: "Verstehen" GPT-3 & Co. Sprache?

Verbesserte NLP-Modelle sollen menschliche Sätze besser verarbeiten. Doch es gibt noch immer einfache Wege, sie zu verwirren.

In Pocket speichern vorlesen Druckansicht 29 Kommentare lesen

(Bild: Photo by Rudi Endresen on Unsplash)

Lesezeit: 5 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Mittlerweile gibt es KI-Systeme, die durchaus den Anschein erwecken, Sprache zu verstehen und bei einer Reihe von Verständnisaufgaben sogar besser als der Mensch abschneiden. Doch genau diese Modelle zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) merken offenbar nicht, wenn Wörter in einem Satz durcheinandergebracht werden. Das Problem liegt in der Art, wie KI-Systeme trainiert werden – es gibt aber erste Hinweise darauf, wie es zu überwinden ist.

Forscher der Auburn University in Alabama haben zusammen mit Adobe Research Interessantes entdeckt, als sie versucht haben, ein NLP-System dazu zu bringen, Erklärungen für das eigene Verhalten zu generieren. Warum behauptete es beispielsweise, dass verschiedene Sätze das gleiche bedeuten? Als die Wissenschaftler ihren Ansatz testeten, bemerkten sie, dass umgestellte Wörter in einem Satz keinen Unterschied machten, jedenfalls nicht dabei, wie die KI sie erklärte. "Das ist allgemein ein Problem mit allen NLP-Modellen", sagt Anh Nguyen, Forscher an der Auburn University, der die Untersuchung leitete.

Das Team schaute sich einige der hochmodernsten NLP-Systeme an, die auf BERT basieren, ein von Google entwickeltes Sprachmodell, auf dem sich viele der neuesten Systeme stützten, unter anderem GPT-3. All diese Systeme schnitten beim GLUE-Test (General Language Understanding Evaluation) besser ab als frühere. GLUE ist eine standardisierte Aufgabenreihe, die dafür entwickelt wurde, Sprachverständnis zu testen. Sie prüft beispielsweise das Erkennen von Paraphrasierungen, das Urteilsvermögen, ob ein Satz positive oder negative Empfindungen ausdrückt und die Fähigkeit zu verbalem Argumentieren.

Die Teste ergaben, dass die Systeme nicht erkennen konnten, ob Wörter in einem Satz vertauscht wurden – auch dann nicht, wenn die neue Reihenfolge die Bedeutung veränderte. Beispielsweise erkannten die Systeme korrekterweise, dass die Sätze "Ruft Marihuana Krebs hervor?" und "Wie kann das Rauchen von Marihuana Lungenkrebs entstehen lassen?" Paraphrasen sind.

Doch sie waren sich noch sicherer, dass "Du rauchen Krebs wie Marihuana Lunge geben kann?" ("You smoking cancer how marijuana lung can give?") und "Lunge kann Marihuana geben rauchen wie du Krebs?" ("Lung can give marijuana smoking how you cancer?") ebenfalls dasselbe bedeuten. Die Systeme waren auch der Ansicht, dass Sätze mit gegensätzlichen Aussagen – etwa "Ruft Marihuana Krebs hervor?" und "Ruft Krebs Marihuana hervor?" – dieselbe Frage stellten.

Die einzige Aufgabe, in der die Wortreihenfolge einen Unterschied für die Modelle machte, war die Überprüfung der (korrekten) grammatikalischen Ordnung eines Satzes. Andernfalls änderten 75 bis 90 Prozent der getesteten Systeme nicht ihre Antwort, nachdem Wörter durcheinandergebracht wurden.

Die Modelle scheinen einige Schlüsselwörter in einem Satz aufzunehmen, egal in welcher Reihenfolge diese erscheinen. Sie verstehen Sprache nicht wie Menschen, und GLUE misst eben nicht den echten Sprachgebrauch. In vielen Fällen muss sich ein Modell bei den Trainingsaufgaben nicht um Wortreihenfolge oder Syntax im Allgemeinen kümmern. Mit anderen Worten: GLUE bringt NLP-Modellen bei, durch bestimmte Reifen zu springen – die Systeme führen nur aus, was von ihnen in der jeweiligen Aufgabe erwartet wird. Viele Forscher haben angefangen, mit einer schwierigeren Aufgabenreihe namens SuperGLUE zu arbeiten, doch Nguyen vermutet, dass die Probleme dort ähnlich sein werden.

Die Schwierigkeiten haben auch Yoshua Bengio und seine Kollegen an der Universität Montreal erkannt. Sie fanden heraus, dass die Umstellung der Wörter in einer Konversation manchmal nicht die Antworten von Chatbots veränderte. Und ein Team von Facebook AI Research fand entsprechende Beispiele im Chinesischen. Nguyens Team zeigt jetzt, wie weit das Problem verbreitet ist.

Wie viel das ausmacht, kommt auf die Anwendung an. Auf der einen Seite wäre ein KI-System nützlich, das es versteht, wenn man sich vertippt oder Quatsch erzählt – so, wie ein Mensch es eben bemerken würde. Im Allgemeinen ist die Wortreihenfolge schließlich elementar, wenn man die Bedeutung eines Satzes herausfinden will.

Die gute Nachricht ist, dass es möglicherweise nicht allzu schwierig wird, das Problem zu beheben. Die Forscher fanden heraus, dass ein Modell besser bei derartigen Aufgaben abschneidet, wenn man es dazu zwingt, sich auf die Wortreihenfolge zu fokussieren – indem man Trainings wählt, bei denen sie eine Bedeutung hat.

Man kann daher vermuten, dass die Optimierung der Trainingsaufgaben die Modelle insgesamt verbessern wird. Nguyens Ergebnisse sind ein weiteres Beispiel dafür, wie die Fähigkeiten von Künstlicher Intelligenz oft weit hinter dem zurückbleiben, was Menschen glauben. Er findet, dass die Ergebnisse hervorheben, wie schwer es wird, KI beizubringen, menschengleich zu begreifen und zu verstehen. "Keiner hat wirklich Ahnung", sagt er. (bsc)