"Es geht um den physikalischen Prozess"

KI-Rebell Rolf Pfeifer, Leiter des Labors für künstliche Intelligenz an der Universität Zürich, im TR-Gespräch.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 11 Min.
Inhaltsverzeichnis

Rolf Pfeifer ist Leiter des Labors für künstliche Intelligenz an der Universität Zürich. Im Laufe der vergangenen Jahre ist der auf den ersten Blick gar nicht kämpferisch wirkende Mann zur Galionsfigur einer wissenschaftlichen Rebellion geworden: Die "Neue KI" (Nouvelle AI) – eine Forschungsrichtung, die eine bunte Mischung aus Neurologen, Roboter-Forschern, Psychologen und Informatikern versammelt, hat sich von der klassischen KI-Forschung getrennt und beansprucht, deren wahres Erbe anzutreten. Im TR-Interview spricht Pfeifer über Robotik und den Zusammenhang zwischen Körper und Intelligenz.

Technology Review: Herr Pfeifer, in Ihrem neuen Buch haben Sie unter anderem angekündigt, eine Theorie der Intelligenz zu skizzieren. Nun habe ich immer gedacht, auf der Basis einer Theorie könne man auch Vorhersagen machen. Das können Sie aber nicht, oder? Ist das also wirklich eine Theorie?

Rolf Pfeifer: Ja, wir diskutieren das ja auch. Im klassischen Sinne ist es vielleicht keine Theorie. Aber wenn ich die Design-Prinzipien anwende, kann ich schon Vorhersagen machen über ein System. Ich kann beispielsweise sagen, was sinnvollerweise in einer bestimmten Umgebung gelernt werden kann. Aber etwas vorhersagen zu können, ist nicht das einzige Ziel einer Theorie.

TR: Sie haben einmal gesagt, dass Sie mit den klassischen KI-Forschern eigentlich überhaupt nicht mehr diskutieren. Nun war ja letztes Jahr das 50jährige Jubiläum der KI. Haben Sie in diesem Zusammenhang vielleicht doch erneut die Diskussion gesucht?

Pfeifer: Wir haben ja auch eine Tagung dazu gemacht und beispielsweise den Nils Nilsson als Hauptredner eingeladen. Der ist ja dieser klassischen Sichtweise verhaftet geblieben – obwohl er eigentlich ursprünglich viel mit Robotern gemacht hat. Aber ich glaube, die beiden Gebiete haben sich einfach auseinander gelebt. Sie verfolgen andere Zielsetzungen.

Der klassische Ansatz ist ja im Sinne von Anwendungen sehr erfolgreich gewesen. Schach ist ein schönes Beispiel. Das ist eine Super-Leistung, hat aber wenig damit zu tun, wie menschliche Schachspieler spielen. Wenn es mir also darum geht, ein Programm zu machen, das gut Schach spielt, dann ist das eine Super-Leistung.

Wenn es mir aber darum geht, etwas über die natürliche menschliche Leistung herauszufinden, dann lerne ich so nicht viel. Es ist die Zielsetzung, die unterschiedlich ist. Und wenn wir die Intention haben, etwas darüber zu lernen, wie sich Systeme in der realen Welt verhalten, dann muss ich mich mit der Idee des Embodiment auseinandersetzen. Dann kann ich nicht nur auf der algorithmischen Ebene bleiben.

TR: Das heißt, reine Software-Agenten bleiben in gewisser Weise immer begrenzt?

Pfeifer: Das sind eigentlich Programme, die vielleicht noch mobil sind. Aber im Prinzip sind es Programme und es werden auch Programme bleiben. Es hat ja mal einen Versuch gegeben, von Ed John glaube ich. Der hat versucht, die Konzepte von Brooks dort anzuwenden, aber das ist meines Erachtens nie von irgendjemand weiter geführt worden.

TR: Ein Problem mit Ihren Design-Regeln ist, dass ich nicht sagen kann, ich habe hier ein Problem, und wende die Design-Regeln an, dann muss ich das System so und so bauen. Sie können also hinterher erklären, wie sich ein System verhält, aber es nicht in eine bestimmte Richtung entwickeln, oder?

Pfeifer: Das ist natürlich eine berechtigte Frage. Es geht wieder ein bisschen um die Zielsetzung. Was sie beschrieben haben, ist sehr Task-orientiert. Da habe ich eine bestimmte Aufgabe. Evolutionär enstandene Systeme, und das ist ja das, wofür wir uns interessieren, die haben keine Tasks. Die funktionieren einfach in einer ökologischen Nische - oder auch nicht. Aber das Konzept der Aufgabe, das Ingenieursproblem, das gibt es dort nicht. Deswegen sind diese Prinzipen wahrscheinlich nicht gut für Probleme geeignet, bei denen ich einfach nur eine spezifische Aufgabe lösen will.

Eine ganz zentrale Erkenntnis für intelligente Systeme ist, dass diese Systeme durch die Interaktion mit der Umwelt ihre Sensorstimulation erzeugen – einerseits. Und andererseits durch diese Interaktion auch Korrelationen induzieren – was dann die Verarbeitung und das Lernen vereinfachen. Ich diskutiere beispielsweise ja auch mit den Leuten aus dem Bereich Ubiquitous Computing. Und bis jetzt ist das nur Sensor-Input. Dort wird man nie auf diese Art von intelligenten Systemen kommen, wenn man nicht eine substanzielle Handlungskomponente – die aktive Akquisition von Sensordaten – einführt.

TR: Wie könnte das aussehen?

Pfeifer: Erstens könnte man bewegliche Kameras haben. Wenn ich die Kameras bewege – das ist auch das Konzept von "Active Vision" – erzeuge ich optischen Fluss. Dieser optische Fluss enthält mehr Informationsstrukturen als wenn die Kameras nur still stehen. Das wäre ein erster, kleiner Schritt.

Man könnte sich beispielsweise auch vorstellen, dass ich in einem Museum durch Sensoren wahrnehme wo viele Leute sind, und dann vielleicht die Abtrennungen ändere, so dass ich da mehr Leute durchschleuse. Das ist auch die Idee des Embodiment: Durch einen physikalischen Prozess wird die Informationsverarbeitung verändert. Wenn ich ein Glas in die Hand nehme, wird durch das Ergreifen Sensorstimulation erzeugt – an den Fingerbeeren. Das ist das Rohmaterial für das Hirn zum Verarbeiten. Aber ich brauche diesen physikalischen Prozess dazu.

TR: Gibt es denn schon erste Experimente mit aktiven Komponenten im Ubiquitous Computing?

Pfeifer: Es gibt da verschiedene Leute. Der Alois Ferscha und andere fanden die Idee sehr spannend. Aber was jetzt daraus geworden ist, das weiß ich nicht. Aber vielleicht gibt es da auch noch ein psychologisches Problem: Sobald sich etwas physikalisch anfängt zu bewegen, wird es beunruhigend. Wenn einfach Sensoren da sitzen, dann ist das vielleicht unangenehm – aber die bewegen sich nicht.

TR: Eines der sehr spannenden Ziele Ihres Ansatzes ist es, aus einfachen sensomotorischen Schleifen höhere kognistive Funktionen zu erzeugen. Gibt es da bereits erste Erfolge?

Pfeifer: Auf jeden Fall! Ein ganz wichtiges Beispiel für mich ist die Kategorisierung – die Fähigkeit, Unterscheidungen zu machen. Wenn ich das nicht machen kann – unterscheiden, was essbar ist, oder trinkbar – dann kann ich nicht viel machen in der realen Welt. Um diese Kategorisierung durchführen zu können, brauche ich sensomotorische koordinierte Interaktion mit der Umwelt. Dass Wahrnehmung nicht einfach etwas ist, was hereinkommt und dann auf eine innere Repräsentation abgebildet wird, sondern dass das ein aktiver Prozess ist. Und wenn man nur schaut – die Augen bewegen sich permanent.

Und es gibt schon einige Experimente in der Objekterkennung – oder beispieslweise beim Lernen von Affordances, die sich damit befassen. Das ist natürlich eine der Grundfunktionen der Kognition. Gerade im Developmental Robotics-Bereich, aber auch in der Entwicklungspsychologie, ist es so, dass es dort das Ausbilden von cross-modalen Assoziationen gibt. Das ist auch bei uns zentral für Kategorisierung und für Konzeptbildung. Und das ist natürlich die Basis. Das schöne daran ist, dass ist dann "fully grounded" – voll verankert in der Morphologie des Körpers.

TR: Halten Sie es für möglich, dass man, wenn man Neuronen nur genau genug nachbilden kann, Intelligenz emergent herausbekommt?

Pfeifer: Das man Intelligenz emergent herausbekommen kann, das glaube ich auf jeden Fall. Man braucht natürlich eine Dynamik, ein Embodiment. Ich habe gerade jetzt ein paar interessante Experimente gesehen – ein Doktorand von mir, der jetzt seine Dissertation eingereicht hat, hat sich intensiv mit Emergenz befasst.

Der definiert relativ wenig vor, dann hat er eine Interaktion mit der Umwelt und weil das ein Embodiment-System ist, werden durch die Interaktion Korrelationen induziert. Dann kann er diese Korrelationen lernen, mit einfachem Hebbschen Lernen und so weiter entstehen dann bestimmte Verhaltensweisen, ohne dass das irgendwo einprogrammiert worden ist.

TR: Können Sie noch etwas zu Ihren eigenen Forschungsarbeiten sagen? Was treibst Sie persönlich zurzeit um?

Pfeifer: Eine Frage beschäftigt mich immer: Wenn ich komplexe Systeme habe wie beispielsweise das Nervensystem, was ist dann eigentlich eine gute Erklärung für deren Funktion? Was heißt, ich habe etwas darüber verstanden? Was ist die Art der Story, die ich da hören will? Wie kann ich im Anderen den Effekt erzeugen, dass er sagt "Aha"?

Das ist etwas, was wir da versuchen, zusammen mit einem neuen Mitarbeiter, der bei mir doktoriert hat und dann in Tokio war – jetzt ist er wieder bei mir. Wir versuchen, kausale Zusammenhänge zu erfassen. Das sind Theorien, die ursprünglich aus der Ökonomie kommen, die versuchen wir zu übertragen auf Kausalitäten in komplexen sensomotorischen Netzwerken.

Dann kann man vielleicht besser verstehen, was sich da nun eigentlich effektiv abspielt – und man kann vielleicht auch eine quantitative Erklärung abgeben. Ich möchte das wirklich auf das Verhalten von Robotern anwenden. Wenn ich sage, dass wenn ich ein Glas in die Hand nehme, dass dann Informationsstrukturen induziert werden, dann ist das intuitiv vielleicht plausibel. Ich möchte das aber auch quantitativ erfassen.

TR: Wie sieht das konkret aus?

Pfeifer: Man definiert beispielsweise informationstheoretische Maße. Was für mich ein ganz interessantes Maß ist, dass ist die "Mutual Information". Das heißt, in einem Videobild, wenn ich da ein Pixel habe, wie gut kann ich aus diesem Pixel auf die benachbarten Pixel schließen.

Oder vielleicht noch ein besserer Beispiel: Wenn ich da ein Concept Learning habe und ich bilde cross-modale Assoziationen, dann ist es ja so, dass ich aufgrund der visuellen Information, die ich habe – wenn ich das Glas einfach anschaue – zumindest teilweise vorhersagen kann, wie sich das Glas anfühlen wird. Das heißt, da gibt es eine partielle Überlappung – und das ist diese Mutual Information. Dann gibt es die Integration – das ist wie Mutual Information, aber über alle Sensorkanäle. So eine Art Kohärenz im gesamten System. Und dann gibt es noch diese Komplexitätsmaße, wie sie Sprons Tononi und Edelman genannt haben.

Jetzt kann man versuchen, diese Maße auf verschiedene Situationen anzuwenden. Um ein einfaches Beispiel zu geben: Wir haben einen Roboter, der schaut einen orangen Ball an. Der orange Ball bewegt sich irgendwie herum, und der Roboter soll diesem Ball folgen. Wir haben zwei Bedingungen: Das eine ist eine sensomotorisch koordinierte Bedingung, wo er dem Ball nachschaut. Und dann haben wir eine Random Condition, wo das Verhalten des Roboters nicht mit dem des Balls korreliert ist. Und wenn man diese Maße berechnet für beide Situationen, dann sieht man, dass in jedem Fall unter sensomotorisch koordinierten Bedingungen im Zentrum des Bildes mehr Informtionsstruktur vorhanden ist. Und für mich ist das einer der tiefen Gründe, wieso die sensomotorische Koordination so bedeutend ist. Weil dadurch eben diese Informationsstruktur erzeugt wird. (bsc)