Wir müssen reden

Menschliche Sprache zu verstehen, ist der ultimative Test für eine künstliche Intelligenz. Je näher Forscher diesem Ziel kommen, desto nützlicher – und unheimlicher – werden die Maschinen.

09.05.2017, 06:00 Uhr

Lesezeit: 12 Min.

MIT Technology Review

Von

Will Knight

Von Anfang an stand die Frage im Raum: Was wäre, wenn wir Maschinen hätten, die intelligent im Sinne von 'effizient' agierten, aber anders als wir keinerlei Einfühlungsvermögen hätten?", sagt Terry Winograd, emeritierter Informatiker der Stanford-Universität. "Man stelle sich Systeme vor, die die Welt regieren, aber nicht auf menschlicher Intelligenz aufbauen, sondern auf diesem Big-Data-Kram." Eine beängstigende Vorstellung.

Aber solange diese Systeme kein Sprachverständnis besäßen, sei eine menschlich handelnde Maschine nicht denkbar. Umgekehrt ausgedrückt: Könnten Maschinen intelligente Unterhaltungen führen, besäßen sie menschliche Intelligenz. Seit den frühen Tagen der Forschung an künstlicher Intelligenz versuchen Forscher daher, Computern diese Fähigkeit beizubringen. Winograd war 1968 einer der Ersten. Ein mathematisches Wunderkind und fasziniert von Sprache, wollte er im Rahmen seiner Promotion ein Programm erschaffen, das sich mit Menschen per Tastatur in natürlicher Sprache verständigen würde. Ein solches Vorhaben schien damals nicht besonders ausgefallen. Denn die Forschung über künstliche Intelligenz machte rasante Fortschritte. "Es herrschte eine Atmosphäre der ungekannten, unbegrenzten Möglichkeiten", erinnert sich Winograd.

TR 1/2017 — (Bild:
Technology Review 1/17
)

Dieser Artikel stammt aus dem Januar-Heft von Technology Review. Weitere Themen der Ausgabe:

Tatsächlich gab es Grund zur Hoffnung. Joseph Weizenbaum, ein in Deutschland geborener MIT-Informatiker, hatte ein paar Jahre zuvor das erste Chatbot-Programm geschaffen. ELIZA war konzipiert wie ein Psychotherapeut aus einem Cartoon: Es wiederholte die jeweils wichtigsten Aspekte einer Aussage oder stellte Fragen, die das Gespräch vorantrieben. Erzählte man dem Programm beispielsweise, man sei wütend auf seine Mutter, so antwortete es: "Was fällt dir ein, wenn du an deine Mutter denkst?" Ein billiger Trick, aber er funktionierte erstaunlich gut. Weizenbaum war schockiert, als einige Kandidaten seiner Maschine ihre dunkelsten Geheimnisse beichteten.

Winograd aber wollte etwas schaffen, das Sprache wirklich verstand. Er begann mit einer Eingrenzung des Problems, indem er eine einfache virtuelle Umgebung erzeugte, eine "Klötzchenwelt" mit imaginären Objekten auf einem imaginären Tisch. Dann schrieb er ein Programm, genannt SHRDLU (ein Nonsenswort, entstanden aus der zweiten Spalte von Tasten einer Linotype-Setzmaschine). Es analysierte die Substantive, Verben und einfachen Regeln der Grammatik, mit denen Aussagen über diese virtuelle Welt möglich waren. SHRDLU konnte die Objekte beschreiben, Fragen über ihre Beziehungen zueinander beantworten und sogar auf getippte Befehle hin die Klötzchenwelt verändern. Mehr noch: Das Programm konnte sich "erinnern": Befahl man ihm, "den roten Kegel" zu bewegen, und nannte ihn dann später nur noch "den Kegel", dann nahm das Programm an, dass der rote Kegel und kein andersfarbiger gemeint sei.

SHRDLU galt damals als Beleg für tiefgreifende Fortschritte in der KI-Forschung. Doch als Winograd die Klötzchenwelt erweitern wollte, erwiesen sich die zur Darstellung benötigten Grammatikregeln und Wörter als zu komplex und unhandlich. Nur wenige Jahre später gab er auf. "Die Grenzen waren viel enger, als es zunächst ausgesehen hatte", sagt er.

Hubert Dreyfus, Philosoph an der Universität Kalifornien, beschrieb 1972 in seinem Buch "Die Grenzen künstlicher Intelligenz – was Computer nicht können", das Problem so: Menschliche Tätigkeiten benötigten häufig eine Form instinktiver Intelligenz, die sich nicht in Anweisungen und Regeln fassen ließe. Doch schon während er diese Aussagen formulierte, arbeiteten einige Forscher an einem Ansatz, der Maschinen mit genau dieser Art Intelligenz ausstatten sollte. Inspiriert von der Neurowissenschaft experimentierten sie mit künstlichen neuronalen Netzen – Schichten mathematisch simulierter Neuronen, die als Reaktion auf bestimmte Eingangsquellen "feuern". Anfangs arbeiteten diese Systeme quälend langsam, doch nach und nach lernten sie Aufgaben, die sich nicht von Hand kodieren ließen. Als es in den 1990er-Jahren üblich wurde, Bankschecks automatisch einzulesen, erwies sich diese Fähigkeit beim Erkennen von Handschriften als äußerst nützlich.

Inzwischen sind künstliche neuronale Netze weitaus komplexer und leistungsfähiger geworden. Nun schaffen sie, was Forscher lange Zeit für unmöglich gehalten hatten: den Menschen im Brettspiel Go zu schlagen. Genau das glückte der Google-Tochter Deep Mind im Frühjahr 2016.

Besonders gut eignen sich solche "tiefgehend lernenden" (Deep Learning) Netze für die Bilderkennung. Dabei arbeiten sie mit einem einfachen Trick. Eine Schicht simulierter Neuronen liest die digitale Version des Bildes ein, und dabei feuern einige ihrer Neuronen als Reaktion auf die Intensität einzelner Pixel. Unterschiedliche Ebenen des Netzes reagieren auf Features wie Kanten, Farben oder Textur. Die Systeme erkennen inzwischen Objekte, Tiere oder Gesichter mit einer Genauigkeit, die mit der des Menschen konkurriert.

Wer aber Deep Learning auf Sprache anwenden will, steht vor einem grundsätzlichen Problem. Wörter sind beliebige Symbole und unterscheiden sich dadurch fundamental von Bildern. Zwei Wörter können in ihrer Bedeutung ähnlich sein, obwohl sie ganz andere Buchstaben enthalten. Und ein Wort kann in verschiedenen Kontexten unterschiedliche Bedeutung haben.

In den achtziger Jahren entwickelten Forscher deshalb die Idee, Sprache so umzuformen, dass neuronale Netze besonders gut damit umgehen können. Sie stellten Wörter als mathematische Vektoren dar und konnte auf diese Weise Ähnlichkeiten zwischen verwandten Wörtern berechnen. Zum Beispiel sind "Boot" und "Wasser" benachbart im Vektorraum, obwohl sie sehr unterschiedlich aussehen. Forscher der Universität Montreal unter Leitung von Yoshua Bengio bauten so Netze auf, in denen jedes Wort eines Satzes dazu genutzt werden kann, um eine noch komplexere Schilderung zu konstruieren.

Mithilfe von zwei derartigen Netzen – jeweils für eine Sprache – lässt sich die eine mit hervorragender Genauigkeit in die andere übersetzen. 2009 präsentierten die Forscher der Universität Toronto ein mehrschichtiges Deep-Learning-Netz, das Sprache mit Rekordgenauigkeit erkennt. Inzwischen lehrt Google seine Computer bereits die Grundlagen der Sprache. Im Mai 2016 stellte das Unternehmen ein System namens Parsey McParseface frei zur Verfügung. Es kann die Syntax analysieren sowie Nomen, Verben und andere Elemente des Textes identifizieren. Bessere Sprachverarbeitung ist für Google ausgesprochen hilfreich: Sein Suchalgorithmus baute früher auf simple Schlüsselwörter und Links zwischen Webseiten. Heute verwendet er ein System namens RankBrain, um aus dem Text einer Webseite auf ihre Bedeutung zu schließen und so bessere Ergebnisse zu liefern.

Einer der Google-Forscher, die diesen Ansatz mitentwickelt haben, ist der gebürtige Vietnamese Quoc Le. Er und seine Kollegen haben inzwischen das Übersetzungs- und Bildbeschreibungs-Tool zu einer Software namens Smart Reply adaptiert. Sie liest den Text einer Gmail-Nachricht und schlägt eine Handvoll möglicher Antworten vor. Das Ziel: eine Maschine, die richtige Unterhaltungen führen kann. Le schrieb auch ein Programm, das aus Chat-Protokollen von Googles interner IT-Hotline lernte, einfache technische Fragen zu beantworten.