Wie IBM "Jeopardy"-Champion werden will

Das Computersystem "Watson" des IT-Konzerns zeigt, wo der Weg bei der Verarbeitung natürlicher Sprache hingegen könnte.

vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 6 Min.
Von
  • David Talbot

Seit Jahrzehnten versuchen Forscher bereits, Maschinen beizubringen, wie sie den wahren Sinn menschlicher Sprache verstehen können – mit all ihren Feinheiten, Betonungen, mit ihrem Humor und ihrer Ironie. Bisherige Ansätze benötigen dabei stets viel Handarbeit, um den Input so zu verändern, dass ihn ein Computeralgorithmus zumindest teilweise verarbeiten kann. Das ultimative Ziel liegt jedoch darin, diesen Schritt einzusparen.

Beim IT-Riesen IBM hofft man nun, diesem Ziel mit "Watson" näher zu kommen, einem Computersystem, das erfolgreich an der populären US-Quizshow "Jeopardy" teilnehmen soll – und zwar im Wettkampf mit menschlichen Champions. Erste öffentliche Demonstrationen des Systems sind noch in diesem Jahr geplant, der offizielle Fernsehauftritt mit Moderator Alex Trebek folgt 2010. Der wird die Fragen in menschlicher Sprache stellen, die dann in Textform in das Watson-System eingegeben werden.

Bislang hat IBM noch keine wissenschaftlichen Paper veröffentlicht, wie die Technik genau vorgehen wird, um bei Jeopardy zu siegen. David Ferrucci, Computerwissenschaftler bei dem Konzern, erklärt aber, dass das System eine Frage in mehrere Teile herunterbrechen kann, um dann in der eigenen Datenbank nach "verwandtem Wissen" zu suchen.

Daraus werden dann entsprechende Verbindungen geknüpft, um das Ergebnis zusammen zu setzen. Worauf Watson hingegen nicht ausgelegt sein soll, ist die Web-Suche – IBMs kommerzielles Ziel für das Computersystem ist es, Geschäftskunden beim Zugriff auf große Datenmengen zu helfen, die in der Firma bereits vorliegen.

Ferrucci beschrieb gegenüber Technology Review, wie die Watson die folgende Frage im Jeopardy-Stil beantworten würde: "Der Name einer Oper, die im Text eines Nummer-Eins-Hits von Smokey Robinson und den Miracles aus dem Jahr 1970 erwähnt wird."

Watson nutzt zunächst Mechanismen zur Verarbeitung natürlicher Sprache, um die Jeopardy-Aufgabe in ihre strukturellen Komponenten zu zerlegen. In diesem Fall sind es deren vier: 1. eine Oper, 2. eine Oper, die in einem Song erwähnt wird, 3. ein Song, der 1970 ein Hit war und 4. ein Song von Smokey Robinson und den Miracles.

Beim Durchsuchen seiner enzyklopädischen Datenbank nach Informationen, die für diese Fragekomponenten relevant sein könnten, wird das System nun auf Hunderte einzelner Passagen stoßen. Die folgenden drei könnten unter anderem darunter sein:

1. "Pagliacci", eine Oper, in der es um einen Clown geht, der seine Gefühle gegenüber der Welt versteckt.

2. Smokey Robinsons Motown-Hit aus den Sechzigern, "Tears of a Clown".

3. "Tears of a Clown" von den Miracles wurde in Großbritannien im Jahre 1970 zur Nummer Eins.

Durch die Analyse dieser Passagen kann Watson "Pagliacci" als eine "Oper" identifizieren – obwohl das alleine nicht viel hilft, weil es viele andere Passagen in der Datenbank gibt, die Opernnamen enthalten. Das zweite Ergebnis identifiziert einen Musikhit, "Tears of a Clown" von "Smokey Robinson", den das System vermutlich als gleichwertig zu "Smokey Robinson und den Miracles" einordnet. Parallel würden aber viele andere Songtitel auf ähnliche Art durchforstet. Die Wahrscheinlichkeit, dass das Ergebnis "Tears of a Clown" stimmt, würde zudem als niedrig eingeschätzt, weil der Song ja "mit den Sechzigern" assoziiert ist, nicht mit "1970". Die dritte oben genannte Passage macht es hingegen deutlicher, das "Tears of a Clown" trotz seines früheren Erscheinungsdatums ein Hit im Jahr 1970 war, wenn man davon ausgeht, dass das "Miracles" "Smokey Robinson und die Miracles" entspricht.

Aus der ersten der drei Passagen wüsste Watson nun also, dass "Pagliacci" eine Oper über einen Clown ist, der seine Gefühle vor der Welt versteckt. Um die Verbindung zu "Smokey Robinson" herzustellen, würde das Computersystem "Tears" (Tränen) als stark mit dem Begriff "Gefühle" assoziiert ansehen. Da "Pagliacci" sich also um einen Clown dreht, der seine Gefühle versteckt, kommt Watson zu der korrekten Annahme, dass "Pagliacci" die korrekte Antwort ist. Natürlich könnte das System zwischenzeitlich auch noch die falsche Wahl treffen, "abhängig davon, wie schwer die Beweise für eine der inkorrekten Antworten wiegen", sagt Ferrucci.

Ein weniger intelligentes System zur Verarbeitung natürlicher Sprache hätte vielleicht geschlossen, dass "Tears of a Clown" die Antwort ist, weil ihm entgangen wäre, dass eine "Oper" gesucht wurde, die in einem Song erwähnt wird, erläutert der Forscher weiter. Eine solche Lösung könnte durch Passagen hervorgerufen werden, in der viele Schlüsselbegriffe vorkommen, die zur Frage passen.

Marti Hearst, Computerwissenschaftlerin an der University of California, Berkeley, meint, dass es auf dem Gebiet der Verarbeitung natürlicher Sprache in den letzten zehn Jahren enorme Fortschritte gegeben habe. Dass IBM nun sein Watson-System gegen die Top-Jeopardy-Spieler antreten lasse, sei "ein unterhaltsamer Weg, diese Entwicklung bekannter zu machen und der Welt zu demonstrieren". Allerdings wundert auch sie sich darüber, dass die IBM-Forschungsabteilung bislang noch nicht über Watson publiziert hat.

Der IT-Riese ist unterdessen nicht die einzige Organisation, die den Bereich der Verarbeitung natürlicher Sprache vorantreiben will. Die US-Militärforschungsbehörde DARPA wird bald ein auf fünf Jahre angelegtes Wissenschaftsprojekt starten, das den Sektor stark fördern soll. "Ich erwarte, dass der ganze Bereich in den nächsten paar Jahren deutlich heißer wird", meint Dan Weld, Computerwissenschaftler an der University of Washington, der eine Forschergruppe leitet, die an dem DARPA-Projekt teilnehmen will.

Egal ob Watson seine menschlichen Jeopardy-Konkurrenten nun im nächsten Jahr schlägt oder nicht – das DARPA-Vorhaben dürfte das ganze Forschungsfeld zum Glühen bringen. Heute seien die klügsten Systeme zur Verarbeitung natürlicher Sprache stets auf einen engen Bereich fokussiert, heißt es dort. Breiter angelegte Ansätze seien hingegen zu ungenau. "Die DARPA wird sich dafür einsetzen, die Forschungsbemühungen vieler Gruppen an Top-Universitäten und Forschungseinrichtungen zu koordinieren, um ein integriertes System zu schaffen, das mit einem breiten Bereich an Dokumenten umgehen kann", so die Ausschreibung. Aktuelle Systeme könnten stets nur "kleine Teile des Puzzles" lösen. (bsc)