Noch lange nicht ausgelernt

Seite 2: Wie die Backpropagation funktioniert

Inhaltsverzeichnis

Dabei komme die Backpropagation ins Spiel: Weil die Hotdog-Bilder gekennzeichnet sind, kann man einen Fehler vom Ende des Rechenprozesses zu seinem Anfang zurückverfolgen. Man betrachtet also die letzten beiden Neuronen und findet heraus, wie weit sie danebenlagen. Wie groß hätte der Unterschied zwischen den Erregungszahlen sein sollen, und wie groß ist er tatsächlich? Danach betrachtet man alle Verbindungen, die aus der nächstniedrigeren Schicht zu diesen Neuronen führen, und ermittelt, wie viel sie zu dem Fehler beigetragen haben.

Das setzt man fort bis zum ersten Satz von Verbindungen ganz unten im Netzwerk. Im letzten Schritt ändert man nun jede Gewichtung in die Richtung, die den Fehler am besten reduziert. So lernt das Netzwerk ziemlich gut zu entscheiden, ob ein Bild einen Hotdog zeigt.

Noch bemerkenswerter ist, dass die einzelnen Schichten Bilder ähnlich "sehen" wie unser eigenes visuelles System: Es analysiert in Bildern zunächst bestimmte Muster – etwa Kanten oder Formen. Aus ihrer Kombination entsteht dann das Motiv – etwa ein Brötchen. Bei einem neuronalen Netz könnte die erste Schicht also Kanten erkennen, in dem Sinne, dass ihre Neuronen bei Kanten angeregt werden – oder eben nicht, wenn es keine gibt.

Die darüberliegende Schicht könnte Gruppen von Kanten identifizieren, beispielsweise Ecken; die Schicht darüber begänne, Formen zu erkennen. Nun könnte sich die nächsthöhere an Entscheidungen wie "offenes Brötchen" oder "geschlossenes Brötchen" wagen, weil sie Neuronen herausgebildet hat, die auf diese Fälle reagieren. Mit anderen Worten: Das Netzwerk organisiert sich selbst in hierarchische Schichten, ohne jemals explizit so programmiert worden zu sein.

Diese Fähigkeit hat alle begeistert: Schließlich bedeutet sie, dass neuronale Netze nicht nur Bilder von Hotdogs (oder was auch immer) klassifizieren – sondern auch Ideen abbilden können. Bei Texten wird das noch deutlicher. Man kann den Text der Wikipedia, viele Milliarden Wörter, in ein einfaches neuronales Netz einspeisen und es so trainieren, dass es für jedes Wort eine Liste von Zahlen ausspuckt. Die Ziffern entsprechen der Erregung eines jeden Neurons einer Schicht.

Betrachtet man sie als Koordinaten in einem komplexen Raum, dann findet man einen Ort für jedes Wort – hier als Vektor bezeichnet. Trainiert man nun das Netzwerk so, dass Wörter, die auf Wikipedia-Seiten nahe beieinanderstehen, ähnliche Koordinaten erhalten, passiert etwas Verrücktes: Wörter mit ähnlichen Bedeutungen erscheinen nahe beieinander. Das heißt, "geisteskrank" und "ausgeflippt" erhalten ähnliche Koordinaten, ebenso "drei" und "sieben" und so weiter. Durch die sogenannte Vektorarithmetik lässt sich beispielsweise der Vektor für "Frankreich" von dem für "Paris" subtrahieren, der Vektor für "Italien" hinzufügen und schließlich in der Nachbarschaft von "Rom" ankommen – alles ohne dem Netzwerk explizit mitzuteilen, dass Rom für Italien dasselbe wie Paris für Frankreich ist.

Neuronale Netze kann man sich demnach so vorstellen, dass man Objekte – Bilder, Wörter, Audio-Mitschnitte, medizinische Daten – in einen hochdimensionalen Vektorraum aufnimmt, in dem ihre relative Nähe oder Entfernung wichtige Merkmale der realen Welt widerspiegelt.

"Es ist erstaunlich", sagt Hinton, "und es ist schockierend." Er glaubt, dass unser Gehirn genauso arbeitet. Für ihn ist jeder Gedanke ein Tanz der Vektoren. Es ist kein Zufall, dass Hinton für Torontos KI-Flaggschiff den Namen Vector Institute vorschlug. In seiner mitreißenden Begeisterung kreiert Hinton eine Atmosphäre der Gewissheit und des Enthusiasmus, die einem das Gefühl vermittelt, es gäbe nichts, was Vektoren nicht könnten.

Erst nach dem Gespräch erinnert man sich: Diese Deep-Learning-Systeme sind immer noch ziemlich dumm, obwohl sie manchmal klug erscheinen. Ein Computer, der ein Bild von einem Haufen gestapelter Donuts nimmt und es automatisch beschriftet als "ein Haufen Donuts, die auf einem Tisch gestapelt sind", scheint die Welt zu verstehen. Aber wenn das gleiche Programm ein Bild eines Mädchens sieht, das sich die Zähne putzt und sagt: "Der Junge hält einen Baseballschläger", dann merkt man, wie schlecht dieses Verständnis wirklich ist, sofern es überhaupt jemals da war.

Deep Learning, sagt David Duvenaud, einer von Hintons Kollegen an der Universität von Toronto, sei wie die Technik vor der Physik. "Jemand schreibt einen Aufsatz und sagt: 'Ich habe diese Brücke gebaut, und sie blieb stehen!' Ein anderer schreibt: 'Ich habe eine Brücke gebaut, und sie brach zusammen – aber dann habe ich Pfeiler hinzugefügt, und sie hielt.' Schon sind Pfeiler eine heiße neue Technologie. Jemand kommt mit Bögen, prompt heißt es 'Bögen sind großartig!'" Aber noch hat man lediglich Phänomene beschrieben, ohne zu verstehen, was funktioniert und warum. Das gelinge erst mithilfe der Physik. Bei künstlicher Intelligenz "haben wir erst kürz-lich begonnen, diese Phase des Verständnisses zu erreichen".

Hinton selbst sieht die Grenzen durchaus. "Die meisten Konferenzen beschäftigen sich damit, kleine Variationen zu erörtern ... anstatt grundsätzlich nachzudenken und zu fragen: Wo liegen die wirklichen Mängel in unserem derzeitigen Ansatz? Womit hat er Schwierigkeiten? Konzentrieren wir uns darauf."

Wie also könnte der nächste große Schritt aussehen? Die Einschränkungen der KI zu überwinden, bedeutet für Hinton "eine Brücke zwischen Informatik und Biologie zu bauen". Mit der Idee der Backpropagation ist ihm vor mehr 30 Jahren ein wichtiger Pfeiler dieser Brücke gelungen. Sie war ein Triumph des biologisch inspirierten Programmierens, inspiriert von der Psychologie. Nun braucht es weitere Pfeiler. Hinton hat sogar schon eine Idee, wie sie zu errichten sein könnten.

Künstliche neuronale Netze bestehen heute aus großen, flachen Schichten, aber im menschlichen Neokortex sind reale Neuronen nicht nur horizontal, sondern auch vertikal angeordnet. Hinton glaubt zu wissen, warum – beim Sehen sind die vertikalen Säulen zum Beispiel entscheidend für unsere Fähigkeit, Objekte auch dann noch zu erkennen, wenn sich der Blickwinkel ändert. Also entwickelt er eine künstliche Version – er spricht von "Kapseln" – um diese Theorie zu testen.

Bis jetzt konnten jedoch die Kapseln die Leistung seiner Netze nicht dramatisch verbessern. Doch mit der Backpropagation befand er sich fast 30 Jahre lang in der gleichen Situation. "Das muss einfach stimmen", sagt er zur Kapsel-Theorie und lacht. "Die Tatsache, dass es nicht funktioniert, ist nur ein vorübergehendes Ärgernis."

(bsc)