Humanoids 2016: "Deep Learning ist keine black box"

… und Intelligenz kein heiliger Gral, sondern lässt sich berechnen – sagt Patrick van der Smagt, seit kurzem leitender Forscher bei Volkswagen, im Interview am Rande der Konferenz Humanoids 2016.

In Pocket speichern vorlesen Druckansicht 64 Kommentare lesen
Patrick van der Smagt

Patrick van der Smagt

(Bild: heise online / Hans-Arthur Marsiske)

Lesezeit: 10 Min.
Von
  • Hans-Arthur Marsiske

Am Ende hat es dann doch noch geklappt mit den Fußballrobotern. Am letzten Tag der Konferenz Humanoids 2016 in Cancún konnte Daniel Lofaro von der George Mason University endlich die Mini-Darwins auf einem kleinen Spielfeld im Flur vor den Vortragssälen antreten lassen. Wer Lust hatte, konnte sich eine Virtual-Reality-Brille aufsetzen, mit einem Gamepad die kleinen Roboter steuern und versuchen, den Ball zu treffen. Wenn nur die Perspektive der Roboterkamera zur Verfügung steht, ist das gar nicht so einfach. Und das ist auch die Idee: Lofaro möchte beim RoboCup einen Wettbewerb für ferngesteuerte humanoide Roboter etablieren, um die Aufmerksamkeit stärker auf das Problem der Wahrnehmung zu lenken.

Es ist gar nicht so einfach, aus Sicht eines Roboters den Ball zu treffen.

(Bild: heise online / Hans-Arthur Marsiske)

Wahrnehmung war natürlich auch in vielen Vorträgen ein Thema, insbesondere die taktile. Beim Menschen ist es offensichtlich, wie wichtig der Tastsinn für die Orientierung ist. Das zeigt sich bei so vermeintlich simplen Aufgaben wie dem Zerschneiden eines Brötchens oder Apfels oder auch dem Schälen einer Banane. Das probierte Akihiko Yamaguchi (Carnegie Mellon University) ferngesteuert mit dem zweiarmigen Baxter-Roboter – mit ziemlich matschigem Ergebnis, wie eine Videoaufnahme des Versuchs zeigt.

Um Robotern das nötige Gefühl für die Welt zu verleihen, braucht es zum einen geeignete Sensoren, zum anderen aber auch Verfahren, die anfallenden Daten zu verarbeiten. Das führt zu einem der derzeit am heißesten diskutierten Themen nicht nur in der humanoiden Robotik: Deep Learning. Es war am letzten Konferenztag Thema eines Plenarvortrags. Wir haben danach mit dem Referenten Patrick van der Smagt, der früher an der TU München gelehrt hat und vor kurzem Leiter der Forschung zu Künstlicher Intelligenz im data lab bei der Volkswagen AG geworden ist, über das Thema gesprochen.

heise online: Herr van der Smagt, Deep Learning scheint für erhebliche Unruhe und Nervosität zu sorgen. Woher kommt das?

van der Smagt: Forschungen zu maschinellem Lernen und neuronalen Netzen haben bereits in den 1940er-Jahren begonnen. Aber erst jetzt ist klar geworden, dass das komische Wort "Intelligenz" kein heiliger Gral ist, sondern etwas, das sich berechnen lässt. Es wächst das Bewusstsein, dass dieses Verkoppeln von Kausalitäten, das unser Gehirn leistet, eigentlich ein Teil der Wahrscheinlichkeitstheorie ist. Das lässt sich heute in sehr eingeschränkten Domänen bereits berechnen und nachbauen. Bildverarbeitung ist dafür ein sehr gutes Beispiel: Rechner können heute Gesichter oder Objekte besser und viel schneller erkennen als Menschen.

Die Unruhe erstreckt sich insbesondere auch auf viele Forscher, die Deep Learning als nicht nachvollziehbare "black box" bezeichnen...

Das ist es aber nicht.

Es handelt sich doch um einen rein mathematischen Prozess. Wie kann der nicht nachvollziehbar sein?

Es ist ein mathematischer Prozess, der teilweise gut verstanden ist. Diese Mathematik gab es schon immer, aber jetzt lässt sie sich sehr effizient mit neuronalen Netzen berechnen. Dadurch wird sie plötzlich anwendbar. Es ist wie zwei Werkzeuge, die ich schon immer hatte, aber jetzt auf einmal kombinieren kann. Dadurch können wir so etwas wie Sprach- und Bilderkennung realisieren oder Kausalitäten entdecken.

Wie kommt es dann zu dieser Idee der black box?

In den technischen Wissenschaften und insbesondere in der Robotik ist der Ansatz sehr verbreitet, die Lösung einer Aufgabe mathematisch auszuformulieren. Dazu werden Modelle der Welt formalisiert. Der Standardansatz, um zum Beispiel eine Tasse zu greifen, besteht darin, ein Modell dieser Tasse zu erstellen, das Höhe, Breite, Masse und andere Parameter wiedergibt. Daraus lässt sich berechnen, wo der Griff am besten ansetzen soll. Wenn ich es komplizierter haben will, kann ich auch noch den Reibungskoeffizienten und weitere Größen berechnen. Der Ansatz funktioniert wunderbar, sofern ich weiß, welche Tasse ich packen möchte. Aber bei einer anderen Tasse habe ich dann ein Problem. Das gilt ebenso für Bildverarbeitung, taktile Sensorik, Kraftsensorik, Motoren und so weiter. In einer Laborumgebung, in der ich die Welt perfekt kontrollieren und modellieren kann, funktioniert die Methode sehr gut. Ebenso in der Produktion: Wenn ich weiß, welche Teile ich habe und wo sie liegen, kann ich sie greifen und platzieren.

Aber jetzt gibt es Methoden, um das Gleiche mit ähnlicher Genauigkeit zu lernen und das gelernte Verhalten zu generalisieren. Man gibt dem System zehn Beispiele zum Lernen und danach erledigt es die weiteren Aufgaben selbstständig. Wenn es dabei zu einem Fehler kommt, kann ich allerdings nicht mehr sagen, welche Zeile im Programmcode dafür verantwortlich ist oder welche Stellschraube wie weit gedreht werden muss, um das Problem zu korrigieren. Stattdessen kann ich eine Vorhersage treffen, wie gut ich mit welcher Wahrscheinlichkeit greifen werde und kann den voraussichtlichen Fehler beim Greifen quantifizieren. Das ist eine völlig andere Herangehensweise und Denkweise. Ich kann nicht mehr zurückrechnen und den Fehler eindeutig identifizieren. Das ist zum Beispiel ein Problem beim autonomen Fahren. Ich kann sehr gut probabilistische Aussagen treffen, kann das Verhalten aber nicht bis ins letzte Detail analysieren.

Ist das vergleichbar mit dem Problem, das Anbieter etwa von Industrierobotern mit Open-Source-Software haben? Viele tun sich damit schwer, weil sie ihre Systeme dann nicht mehr hundertprozentig spezifizieren und dem Kunden garantieren können, dass nichts verändert wird.

Open Source ist etwas anders gelagert, weil man hier niemanden für einen Fehler im Code verantwortlich machen kann. Lernende Systeme dagegen sind so komplex, dass ich sie nicht mehr Regel für Regel beschreiben, sondern nur noch Wahrscheinlichkeiten benennen kann. Eigentlich war das schon immer so. Aber inzwischen sind probabilistischen Systeme deutlich leistungsfähiger als die regelbasierten Systeme. Das erfordert ein gewisses Umdenken.

Nun gibt es neuronale Netze und maschinelles Lernen schon lange. Was ist das Neue an Deep Learning?

Ich habe einen Datensatz mit einer gewissen Wahrscheinlichkeitsverteilung. Den kann ich abbilden auf einen anderen Datensatz mit einer anderen Wahrscheinlichkeitsverteilung. Mehr ist das nicht. Ich sehe zum Beispiel ein Bild und kann die Wahrscheinlichkeit ausrechnen, ob es einen Hund oder eine Katze zeigt, weil ich es vorher gelernt habe. Die dafür verwendeten Methoden der Neuronalen Netze sind in den 1950er- und 1960er-Jahren aus dem damaligen Verständnis von der Funktionsweise des Gehirns abgeleitet worden. Die Neuronen sind kleine Berechnungselemente, die ihre Aktivität aus ihrem Input berechnen. Diese Aktivität geben sie wiederum weiter in ein Netzwerk, das aus hundert, tausend oder noch mehr solcher Neuronen bestehen kann. Der Einfluss eines Neurons auf ein anderes lässt sich lernen, dafür gibt es Algorithmen. Die mathematische Basis dafür heißt back propagation. Mithilfe dieser Algorithmen lassen sich bessere Gewichtungen der wechselseitigen Beeinflussung der Neuronen finden, um eine bestimmte Abbildung von Input auf Output zu lernen.

Das heißt, das System verändert die Parameter seines eigenen Programms?

Genau, diese Parameter werden gelernt. Der Unterschied zwischen Deep Neural Networks und Neural Networks besteht darin, dass Deep Neural Networks eine höhere Komplexität von Schichten mit versteckten Neuronen haben und dadurch besser generalisieren können. Es ist keine neue Methode, kein Paradigmenwechsel, lässt sich mit den heute verfügbaren Rechnern aber effizient berechnen.

Das heißt, das "deep" in Deep Learning bezieht sich auf die Zahl der neuronalen Zwischenschichten: je mehr, desto tiefer?

Genau. Aber erst seit wenigen Jahren haben wir die Rechner, um damit effizient arbeiten zu können.

Verstehe ich es richtig, dass der Output einer Schicht dabei der Input ist für die nächste Schicht? Also die erste Schicht mag in einem Bild Kanten und Linien detektieren, die nächste fügt sie zu geometrischen Formen zusammen, in denen die wiederum nächste dann Objekte erkennt?

Richtig. Zufälligerweise macht das Gehirn es genauso.

Zufälligerweise?

Der Zufall liegt darin, dass die probabilistische Darstellung der Daten für Effizienz sorgen. Das heißt nicht, dass die Struktur der neuronalen Netze die gleiche wäre wie im Gehirn. Aber es ist eine Methode, die die gleiche Wahrscheinlichkeitsdarstellung effizient finden kann. Ich habe zwei unterschiedliche Methoden, die zum gleichen Ergebnis kommen. Wir sollten sehr vorsichtig sein mit der Behauptung, neuronale Netze würden irgend etwas vom Gehirn erklären.

Wie viel Entwicklungspotenzial sehen Sie in Deep Learning?

Wir stehen am Anfang.

Und wo kann es noch hingehen?

Ich denke schon, dass wir eine Intelligenz ähnlich der des Menschen schaffen können. Daran habe ich schon während meines Studiums nie gezweifelt, habe aber auch nicht erwartet, dass das in absehbarer Zeit gelingen könnte. In Teilbereichen, etwa in der Bildverarbeitung oder Bilderkennung, sind wir schon weit gekommen. Von allgemeiner Intelligenz sind wir dagegen noch weit entfernt. Ob es fünf Jahre sind oder fünfzig, kann ich nicht sagen. Ich hoffe ein bisschen auf fünf, vielleicht auch zehn Jahre, dann könnte ich noch mitmachen. Aber früher oder später kommt es, davon können wir ausgehen. Wie die Gesellschaft dann aussieht, ist eine andere Frage. Die Notwendigkeit, 40 Stunden pro Woche zu arbeiten, dürfte es dann nicht mehr geben. Es gibt viele Jobs, die für Roboter viel besser geeignet sind als für Menschen. Übergänge sind immer schmerzhaft, aber danach könnte es viele Vorteile bringen.

Um noch einmal an die erste Frage anzuknüpfen: Ist die Unruhe angesichts von Deep Learning gerechtfertigt?

Wenn man sich vor gesellschaftlichen Veränderungen fürchtet, ja. Aber nur dann. Smartphones und Tablets haben in der menschlichen Interaktion auch sehr viel verändert, sicherlich nicht immer im positiven Sinn. Aber sie haben die Welt deutlich kleiner gemacht und das globale Denken innerhalb weniger Jahre komplett geändert. Künstliche Intelligenz, die ja heute schon in diesen Geräten steckt, wird das nur weiter beschleunigen. Ich freue mich darauf. (anw)