"Nicole Kidman ist keine kosmische Gaskugel"

Michael Lynch, Mitgründer von Autonomy, über die Unterschiede verschiedener Suchverfahren, die Überlegenheit der Bayes'schen Statistik und die Beschränktheit von Google und Wolfram Alpha.

1

07.01.2010, 07:00 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Jason Pontin

Eines der schwierigsten Probleme der Informatik ist die Suche in unstrukturierten Daten – doch genau die machen leider den größten Teil aller gespeicherten Informationen aus. Die britische Firma Autonomy hat sich auf diesem Gebiet mit einer Technologie einen Namen gemacht, die auf dem Bayestheorem beruht, einem Spezialgebiet der Statistik.

Technology Review sprach mit Autonomy-Mitgründer und Geschäftsführer Michael Lynch über die Unterschiede verschiedener Suchverfahren, die Überlegenheit der Bayes'schen Statistik und die Beschränktheit von Google und Wolfram Alpha.

Technology Review: Herr Lynch, was ist an unstrukturierter Information eigentlich so interessant?

Michael Lynch: Alles, was wir als Menschen tun, dreht sich im Wesentlichen um unstrukturierte Information. Ein Großteil des Geschäftslebens nutzt diese Art der Information, die dem Menschen liegt. In einem Unternehmen macht sie etwa 85 Prozent aus.

TR: Warum ist die Suche darin so schwierig?

Lynch: Wenn Daten strukturiert sind, können Sie die Frage stellen: Ist A gleich B? Sind sie es nicht, wird die Situation komplizierter. Sie können dann mit Konzepten arbeiten, die einander nahe stehen, aber sich nicht entsprechen: „Hund“ ist im strengen Sinne nicht dasselbe wie „Labrador“, in mancher Hinsicht aber schon. Für Computer ist das sehr schwer zu verstehen.

TR: Kann man da nicht mit der Booleschen Logik drangehen, mit der auch Suchmaschinen Suchwörter verarbeiten?

Lynch: Wenn Sie eine Boolesche Suche durchführen wollen, müssen Sie ziemlich gewieft sein – und vor allem wissen, wonach Sie suchen. Nehmen wir an, wir wollen einen Rechner alle Artikel über „Apple“ suchen lassen. Wir würden dann „Apple + Computer“ oder „Mac + Computer“ als Kriterien nehmen sowie „not apple + tree“ und „not apple + fruit“ und so weiter. Dann landen wir ziemlich schnell bei einer komplizierten Abfrage. Das eigentliche Problem ist aber, dass sich während der Konstruktion einer solchen Suchabfrage die Welt ändert – plötzlich müssen wir auch „iPhone“ als Kriterium mit einbauen.

TR: Inwiefern ist die Bayes’sche Statistik, die mit Wahrscheinlichkeiten arbeitet, hierbei besser?

Lynch: Generell gibt es zwei Ansätze für Systeme, die lernen können, wie sich Konzepte zueinander verhalten, ohne diese vorher definieren zu müssen. Der erste, sehr intuitive Ansatz verwendet semantische Verfahren. Ein Computer ist in der Lage, die Regeln der Grammatik zu verstehen und damit in gewisser Weise Dinge zu analysieren. Dabei gibt es aber ein grundsätzliches Problem. Wenn ich Ihnen sage „Die Katze rennt in die Scheune, und sie hat ein Fell“, können Sie das „sie“ definieren. Aber nur, weil Sie über einiges Wissen verfügen. Sie wissen, dass Katzen – statistisch gesehen – mit größerer Wahrscheinlichkeit ein Fell haben als Scheunen.

Also finden sich Leute, die an solchen Problemen arbeiten, dabei wieder, dass sie Doktoranden in Hinterzimmern damit beschäftigen, die Eigenschaft „hat ein Fell“ für Katzen zu definieren. Das läuft irgendwann aus dem Ruder, weil die Beziehungen zwischen Konzepten nicht absolut gelten, sondern von Bedingungen abhängen.

Der zweite Ansatz, den wir nutzen, ist hingegen kontraintuitiv: Man behandelt die ganze Sache als ein mathematisches Problem.

TR: Was heißt das konkret?

Lynch: Stellen Sie sich vor, Sie nehmen alle Bücher und Zeitungen, schneiden sämtliche Wörter aus und packen sie in einen schwarzen Beutel. Das wäre ein Zufallsprozess. Da würde nur Kauderwelsch herauskommen. Eine reale Textseite ist aber kein Zufallsprodukt. Wenn Sie das Wort „Katze“ lesen, nimmt die Wahrscheinlichkeit zu, dass ein Wort wie „rennt“ folgt. Der Grund dafür ist, dass dieser Prozess von irgendetwas beeinflusst worden ist: nämlich vom Konzept „Katze“, das der Autor des Satzes im Kopf hatte. Mit Hilfe der Bayes’schen Statistik können Sie tatsächlich auf das Konzept hinter einem Wort und auf all seine Beziehungen schließen. Das Tolle daran ist, dass sie gewissermaßen von selbst einen Kontext bekommen. Bayes’sche Systeme können erkennen, dass Nicole Kidman zwar ein „Star“ [also ein Stern am Kinohimmel], aber keine leuchtende kosmische Gaskugel ist.

TR: Warum kann Google mit seinen Algorithmen keine unstrukturierten Daten durchsuchen?

Lynch: Gut bei einer Suche zu sein, die auf Schlagworten und der Rangliste in der Popularität basiert, heißt noch nicht, auch einen Vorteil bei der Suche in unstrukturierten Daten zu haben. Dafür müssen Sie Bedeutungen verstehen.

TR: Sie haben gegen den Suchansatz von Wolfram Alpha philosophische und praktische Vorbehalte.

Lynch: Solche Ansätze funktionieren sehr gut in ganz bestimmten Kontexten. Die Idee, Information könnte in ihrer Bedeutung absolut sein und auf eine einzige Weise klassifiziert werden, birgt aber einige große philosophische Probleme. Wer sich mit Wahrscheinlichkeiten beschäftigt, weiß schnell, dass es auch auf die Weltanschauungen der Leute ankommt. Ein einfaches Beispiel: Ein Computer würde ein und dieselbe Nachricht unterschiedlich klassifizeren, je nachdem, ob er von einer palästinensischen oder einer israelischen Zeitung genutzt wird. Das ist auch nicht falsch.

Die Annahme, eine Information habe immer dieselbe Bedeutung, geht auf die Vorstellung einer objektiven Wissenschaft zurück, die uns seit der Reformation prägt. Für viele Aufgaben, die Menschen erledigen müssen, ist es aber völlig in Ordnung, dass eine Bedeutung vom Standpunkt des Betrachters abhängt. (nbo)