Wir müssen reden

Menschliche Sprache zu verstehen, ist der ultimative Test für eine künstliche Intelligenz. Je näher Forscher diesem Ziel kommen, desto nützlicher – und unheimlicher – werden die Maschinen.

09.05.2017, 06:00 Uhr

Lesezeit: 12 Min.

MIT Technology Review

Von

Will Knight

Von Anfang an stand die Frage im Raum: Was wäre, wenn wir Maschinen hätten, die intelligent im Sinne von 'effizient' agierten, aber anders als wir keinerlei Einfühlungsvermögen hätten?", sagt Terry Winograd, emeritierter Informatiker der Stanford-Universität. "Man stelle sich Systeme vor, die die Welt regieren, aber nicht auf menschlicher Intelligenz aufbauen, sondern auf diesem Big-Data-Kram." Eine beängstigende Vorstellung.

Aber solange diese Systeme kein Sprachverständnis besäßen, sei eine menschlich handelnde Maschine nicht denkbar. Umgekehrt ausgedrückt: Könnten Maschinen intelligente Unterhaltungen führen, besäßen sie menschliche Intelligenz. Seit den frühen Tagen der Forschung an künstlicher Intelligenz versuchen Forscher daher, Computern diese Fähigkeit beizubringen. Winograd war 1968 einer der Ersten. Ein mathematisches Wunderkind und fasziniert von Sprache, wollte er im Rahmen seiner Promotion ein Programm erschaffen, das sich mit Menschen per Tastatur in natürlicher Sprache verständigen würde. Ein solches Vorhaben schien damals nicht besonders ausgefallen. Denn die Forschung über künstliche Intelligenz machte rasante Fortschritte. "Es herrschte eine Atmosphäre der ungekannten, unbegrenzten Möglichkeiten", erinnert sich Winograd.

TR 1/2017 — (Bild:
Technology Review 1/17
)

Dieser Artikel stammt aus dem Januar-Heft von Technology Review. Weitere Themen der Ausgabe:

Tatsächlich gab es Grund zur Hoffnung. Joseph Weizenbaum, ein in Deutschland geborener MIT-Informatiker, hatte ein paar Jahre zuvor das erste Chatbot-Programm geschaffen. ELIZA war konzipiert wie ein Psychotherapeut aus einem Cartoon: Es wiederholte die jeweils wichtigsten Aspekte einer Aussage oder stellte Fragen, die das Gespräch vorantrieben. Erzählte man dem Programm beispielsweise, man sei wütend auf seine Mutter, so antwortete es: "Was fällt dir ein, wenn du an deine Mutter denkst?" Ein billiger Trick, aber er funktionierte erstaunlich gut. Weizenbaum war schockiert, als einige Kandidaten seiner Maschine ihre dunkelsten Geheimnisse beichteten.

Winograd aber wollte etwas schaffen, das Sprache wirklich verstand. Er begann mit einer Eingrenzung des Problems, indem er eine einfache virtuelle Umgebung erzeugte, eine "Klötzchenwelt" mit imaginären Objekten auf einem imaginären Tisch. Dann schrieb er ein Programm, genannt SHRDLU (ein Nonsenswort, entstanden aus der zweiten Spalte von Tasten einer Linotype-Setzmaschine). Es analysierte die Substantive, Verben und einfachen Regeln der Grammatik, mit denen Aussagen über diese virtuelle Welt möglich waren. SHRDLU konnte die Objekte beschreiben, Fragen über ihre Beziehungen zueinander beantworten und sogar auf getippte Befehle hin die Klötzchenwelt verändern. Mehr noch: Das Programm konnte sich "erinnern": Befahl man ihm, "den roten Kegel" zu bewegen, und nannte ihn dann später nur noch "den Kegel", dann nahm das Programm an, dass der rote Kegel und kein andersfarbiger gemeint sei.

SHRDLU galt damals als Beleg für tiefgreifende Fortschritte in der KI-Forschung. Doch als Winograd die Klötzchenwelt erweitern wollte, erwiesen sich die zur Darstellung benötigten Grammatikregeln und Wörter als zu komplex und unhandlich. Nur wenige Jahre später gab er auf. "Die Grenzen waren viel enger, als es zunächst ausgesehen hatte", sagt er.

Hubert Dreyfus, Philosoph an der Universität Kalifornien, beschrieb 1972 in seinem Buch "Die Grenzen künstlicher Intelligenz – was Computer nicht können", das Problem so: Menschliche Tätigkeiten benötigten häufig eine Form instinktiver Intelligenz, die sich nicht in Anweisungen und Regeln fassen ließe. Doch schon während er diese Aussagen formulierte, arbeiteten einige Forscher an einem Ansatz, der Maschinen mit genau dieser Art Intelligenz ausstatten sollte. Inspiriert von der Neurowissenschaft experimentierten sie mit künstlichen neuronalen Netzen – Schichten mathematisch simulierter Neuronen, die als Reaktion auf bestimmte Eingangsquellen "feuern". Anfangs arbeiteten diese Systeme quälend langsam, doch nach und nach lernten sie Aufgaben, die sich nicht von Hand kodieren ließen. Als es in den 1990er-Jahren üblich wurde, Bankschecks automatisch einzulesen, erwies sich diese Fähigkeit beim Erkennen von Handschriften als äußerst nützlich.

Inzwischen sind künstliche neuronale Netze weitaus komplexer und leistungsfähiger geworden. Nun schaffen sie, was Forscher lange Zeit für unmöglich gehalten hatten: den Menschen im Brettspiel Go zu schlagen. Genau das glückte der Google-Tochter Deep Mind im Frühjahr 2016.

Besonders gut eignen sich solche "tiefgehend lernenden" (Deep Learning) Netze für die Bilderkennung. Dabei arbeiten sie mit einem einfachen Trick. Eine Schicht simulierter Neuronen liest die digitale Version des Bildes ein, und dabei feuern einige ihrer Neuronen als Reaktion auf die Intensität einzelner Pixel. Unterschiedliche Ebenen des Netzes reagieren auf Features wie Kanten, Farben oder Textur. Die Systeme erkennen inzwischen Objekte, Tiere oder Gesichter mit einer Genauigkeit, die mit der des Menschen konkurriert.

Wer aber Deep Learning auf Sprache anwenden will, steht vor einem grundsätzlichen Problem. Wörter sind beliebige Symbole und unterscheiden sich dadurch fundamental von Bildern. Zwei Wörter können in ihrer Bedeutung ähnlich sein, obwohl sie ganz andere Buchstaben enthalten. Und ein Wort kann in verschiedenen Kontexten unterschiedliche Bedeutung haben.

In den achtziger Jahren entwickelten Forscher deshalb die Idee, Sprache so umzuformen, dass neuronale Netze besonders gut damit umgehen können. Sie stellten Wörter als mathematische Vektoren dar und konnte auf diese Weise Ähnlichkeiten zwischen verwandten Wörtern berechnen. Zum Beispiel sind "Boot" und "Wasser" benachbart im Vektorraum, obwohl sie sehr unterschiedlich aussehen. Forscher der Universität Montreal unter Leitung von Yoshua Bengio bauten so Netze auf, in denen jedes Wort eines Satzes dazu genutzt werden kann, um eine noch komplexere Schilderung zu konstruieren.

Mithilfe von zwei derartigen Netzen – jeweils für eine Sprache – lässt sich die eine mit hervorragender Genauigkeit in die andere übersetzen. 2009 präsentierten die Forscher der Universität Toronto ein mehrschichtiges Deep-Learning-Netz, das Sprache mit Rekordgenauigkeit erkennt. Inzwischen lehrt Google seine Computer bereits die Grundlagen der Sprache. Im Mai 2016 stellte das Unternehmen ein System namens Parsey McParseface frei zur Verfügung. Es kann die Syntax analysieren sowie Nomen, Verben und andere Elemente des Textes identifizieren. Bessere Sprachverarbeitung ist für Google ausgesprochen hilfreich: Sein Suchalgorithmus baute früher auf simple Schlüsselwörter und Links zwischen Webseiten. Heute verwendet er ein System namens RankBrain, um aus dem Text einer Webseite auf ihre Bedeutung zu schließen und so bessere Ergebnisse zu liefern.

Einer der Google-Forscher, die diesen Ansatz mitentwickelt haben, ist der gebürtige Vietnamese Quoc Le. Er und seine Kollegen haben inzwischen das Übersetzungs- und Bildbeschreibungs-Tool zu einer Software namens Smart Reply adaptiert. Sie liest den Text einer Gmail-Nachricht und schlägt eine Handvoll möglicher Antworten vor. Das Ziel: eine Maschine, die richtige Unterhaltungen führen kann. Le schrieb auch ein Programm, das aus Chat-Protokollen von Googles interner IT-Hotline lernte, einfache technische Fragen zu beantworten.

Vor Kurzem baute Le eine Applikation, die passable Antworten auf offene Fragen findet. Dazu lernte sie aus Dialogen von 18900 Spielfilmen. Einige Antworten scheinen geradezu unheimlich treffend zu sein. Le fragte zum Beispiel: "Was ist der Sinn des Lebens?", und das Programm antwortete: "Dem Guten zu dienen". "Das war wahrscheinlich besser, als meine eigene Antwort gewesen wäre", erinnert sich Le mit breitem Grinsen.

Andere Systeme erkennen mittlerweile sogar Wortspiele oder Übertreibungen. Noah Goodman, Psychologe an der Stanford University, hat mit seinen Studenten eine Programmiersprache namens WebPPL entwickelt. Sie soll Computern mithilfe von Wahrscheinlichkeitsaussagen gesunden Menschenverstand vermitteln, was sich als äußerst nützlich für Gespräche herausstellt. Behauptet man beispielsweise, Gäste hätten "ewig" auf einen Tisch im Restaurant warten müssen, entscheidet das Programm automatisch, dass die wörtliche Bedeutung unwahrscheinlich sein muss. Die Gäste warteten wohl einfach länger als üblich und waren genervt. Das System zeigt, wie neue Ansätze KI-Software hervorbringen kann, die lebendiger spricht.

Dennoch sind derartige Systeme immer noch weit von echter Intelligenz entfernt. Googles Unterhaltungsprogramm Smart Reply etwa gibt immer wieder Antworten, die aufdecken, dass es keine Ahnung hat, wovon es spricht. Auf die Frage: "Wie viele Beine hat eine Katze?" antwortete sein System: "Vier, glaube ich". Aber auf den Versuch: "Wie viele Beine hat ein Tausendfüßler?" kam als Antwort: "Acht". Mit anderen Worten: Les Programm versteht zwar, dass bestimmte Kombinationen von Symbolen zusammenpassen, hat aber kein Verständnis der realen Welt. Es weiß nicht, wie ein Tausendfüßler aussieht und sich bewegt. Es ist immer noch eine Illusion von Intelligenz ohne den für uns so selbstverständlichen gesunden Menschenverstand. "Sprache erfordert einerseits viel Sprachwissen, andererseits aber auch eine Riesenmenge gesunden Wissens über die Welt. Beides geht Hand in Hand", kommentiert Psychologe Goodman.

Wer wissen will, wie man Computern zu einem tieferen Verständnis von Worten verhelfen könnte, muss sich mit Fei-Fei Li treffen, der Direktorin des Stanford-Labors für künstliche Intelligenz. Li hat einen Großteil ihrer Karriere an maschinellem Lernen und Bildverarbeitung geforscht. Vor einigen Jahren leitete sie den Aufbau einer Datenbank mit Millionen Bildern von Objekten, die jeweils ein passendes Stichwort erhielten. Doch sie glaubt, dass Maschinen ein viel weitergehendes Verständnis dessen benötigen, was in der Welt passiert. 2016 veröffentlichte ihr Team deshalb eine neue Datenbank mit weitaus detaillierteren Kommentaren. Jedes Bild erhielt Dutzende von Menschen eingegebene Beschreibungen: "Ein Hund, der Skateboard fährt", "Hund hat flaumiges, gelocktes Fell", "Die Straße ist aufgerissen" und so weiter. Lernfähige Systeme sollen so mehr Verständnis für die physische Welt entwickeln. "Das Sprachzentrum des Gehirns verarbeitet eine Menge Informationen, auch aus dem visuellen System", sagt Li. "Die KI-Forschung will diese Systeme jetzt integrieren."

Mit anderen Worten: Sie will die Art, wie Kinder lernen, imitieren – nämlich Worte mit Gegenständen, Beziehungen und Handlungen assoziieren. Li zeigt auf ihre drei Monate alte Tochter. "Sehen Sie, wie Phoenix Sie intensiver anschaut als mich", fragt Li. "Das liegt daran, dass Sie neu sind. Es ist eine Grundform der Gesichtserkennung." Doch die Analogie zum menschlichen Lernen hat ihre Grenzen. Kinder brauchen keinen Skateboard fahrenden Hund zu sehen, um ihn sich vorstellen oder verbal beschreiben zu können. Heutige Werkzeuge für maschinelles Lernen reichten nicht aus, echte künstliche Intelligenz zu schaffen, glaubt Li. "Es geht nicht nur um datenreiches Deep Learning", sagt sie. KI-Forscher sollten mehr über emotionale und soziale Intelligenz nachdenken. "Menschen sind schrecklich unbegabt bei Berechnungen mit riesigen Datenmengen", sagt sie. "Aber sie haben ein großes Talent dafür, zu abstrahieren und kreativ zu sein."

Niemand weiß, wie sich Maschinen mit solchen menschlichen Kompetenzen ausstatten ließen – sofern das überhaupt möglich ist. Haben solche Fähigkeiten etwas einzigartig Menschliches, das sie außer Reichweite der künstlichen Intelligenz stellt? Kognitionswissenschaftler wie Josh Tenenbaum vom MIT glauben, dass wichtige Komponenten des Verstandes bei heutigen neuronalen Netzen fehlen – egal wie groß diese Netze werden. Menschen sind in der Lage, sehr schnell aus relativ kleinen Datenmengen zu lernen, und sie besitzen die angeborene Fähigkeit, die Welt in 3D zu modellieren. "Sprache baut auf weiteren, vermutlich grundlegenderen Fähigkeiten auf. Kleinkinder verfügen bereits über sie, bevor sie Sprache überhaupt beherrschen: nämlich die Welt visuell wahrzunehmen, ihre Motorik zu kontrollieren sowie die Physik der Alltagswelt und die Absichten anderer Akteure zu verstehen", sagt Tenenbaum.

Hat er recht, wird es schwierig, Maschinen und KI-Systeme mit echtem Sprachverständnis auszustatten. Die einen dürfte die Botschaft erleichtern, schließlich wäre den Maschinen damit auch der Weg verbaut, jemals an die menschliche Intelligenz heranzureichen. Andere dagegen hoffen, Computern doch noch beibringen zu können, so zu tun, als würden sie denken. Die Kommunikation mit Computern würde müheloser und nützlicher. Denn Sprache ist unser mächtigstes Hilfsmittel, die Welt zu verstehen und mit ihr zu interagieren. Stanford-Psychologe Goodman glaubt, es könnte klappen. "Ich suche einen Weg, in einer Maschine Gedanken zu simulieren", sagt er. "Und wenn man das kann, dann sollte man die Maschine auch fragen können, was sie denkt." Angesichts immer anspruchsvoller und komplexer werdender KI-Systeme wäre es vielleicht wirklich gut, könnten wir sie endlich fragen: "Warum?" (bsc)