Noch lange nicht ausgelernt

Deep Learning geht auf einen drei Jahrzehnte alten Durchbruch zurück. Die damals geschlagene Brücke zwischen Informatik und Biologie könnte zu weiteren Meilensteinen führen, hofft ihr Erfinder Geoffrey Hinton.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Noch lange nicht ausgelernt

(Bild: Shutterstock)

Lesezeit: 12 Min.
Von
  • James Somers
Inhaltsverzeichnis

Mitten in Toronto befindet sich seit Kurzem der Mittelpunkt der Welt, zumindest jenes Teils, der sich der Erforschung des maschinellen Lernens verschrieben hat. Ende 2017 öffnete das Vector Institute seine Pforten mit keinem geringeren Ziel, als zum weltweiten Epizentrum der künstlichen Intelligenz zu werden.

In dem beeindruckenden Glaspalast wollen Firmen aus den USA und Kanada – darunter Google, Uber und Nvidia – die Kommerzialisierung der Technologien fördern. Groß um Geld mussten die Gründer nicht werben, es floss fast von selbst herein. Und ein wichtiger Grund dafür dürfte Geoffrey Hinton sein. Er gilt als Vater des Deep Learning – jener Technik, die derzeit für so viel Begeisterung sorgt. Hintons Studenten und Postdocs haben die KI-Labs bei Apple, Facebook und OpenAI geleitet.

Hinton selbst ist leitender Wissenschaftler des Projekts Google Brain. Fast jede KI-Errungenschaft des letzten Jahrzehnts – Übersetzung, Spracherkennung, Bilderkennung, Spiele – lässt sich irgendwie auf seine Arbeit zurückführen. An ihm liegt es daher auch, dass das Vector Institute ausgerechnet in Toronto steht und nicht etwa im Silicon Valley. Denn er lebt in der kanadischen Metropole. Der gebürtige Brite forschte bis in die 1980er-Jahre an der Carnegie Mellon University (CMU) in Pittsburgh, wechselte dann aber an die Universität Toronto. Der Grund, sagt Hinton, sei die Iran-Contra-Affäre in den USA gewesen. "Die meisten Leute an der CMU fanden es völlig normal, dass die USA in Nicaragua einfielen. Sie betrachteten es irgendwie als ihr Eigentum." Inzwischen ist er emeritiert und leitender wissenschaftlicher Berater des Vector Institute.

TR 03/2018

Den Büros dort wohnt der Zauber des Anfangs inne, eine Aufbruchstimmung liegt über den Fluren. Dabei ist die Idee des Deep Learning eigentlich eine uralte Geschichte. 1986 veröffentlichte Hinton mit den Kollegen David Rumelhart und Ronald Williams jene bahnbrechende Arbeit, die als Ausgangspunkt des Fortschritts gilt. Über 30 Jahre hat sich die Technologie entwickelt, wenn auch größtenteils im Verborgenen. Möglicherweise also steht die KI gar nicht am Anfang einer Revolution, sondern an deren Ende.

Hinton, 70 Jahre alt, hat das schlanke englische Gesicht des Big Friendly Giant, mit einem dünnen Mund, großen Ohren und einer stolzen Nase. Er spricht wie der Erzähler eines Kinderbuchs über Wissenschaft: neugierig, mitreißend, witzig. Schon in den 1980er-Jahren galt er als führender Experte für künstliche neuronale Netze, stark vereinfachte Modelle der Neuronen und Synapsen menschlicher Gehirne. Ein Karrieresprungbrett war das Feld damals jedoch nicht: Die meisten Wissenschaftler waren der Meinung, neuronale Netze seien eine Sackgasse der KI-Forschung.

Zwar wurde das erste von ihnen, das in den 1950er-Jahren entwickelte Perceptron, als Schritt zu maschineller Intelligenz auf menschlichem Niveau gefeiert. Doch 1969 wiesen die MIT-Forscher Marvin Minsky und Seymour Papert mit ihrem Buch "Perceptrons" mathematisch nach, dass solche Netzwerke nur sehr einfache Funktionen ausführen können. Sie verfügten lediglich über zwei Schichten von Neuronen, eine Eingangs- und eine Ausgangsschicht. Netze mit mehr Schichten hätten theoretisch weit mehr Probleme lösen können. Aber niemand wusste sie zu trainieren, und damit waren sie in der Praxis nutzlos. Bis auf ein paar Standfeste wie Hinton gaben die meisten die Forschung an neuronalen Netzen auf.

1986 aber gelang Hinton der Durchbruch: Er zeigte, dass durch Backpropagation, auch Fehlerrückführung genannt, durchaus mehrschichtige neuronale Netze eingelernt werden können. Damals war jedoch schlicht nicht genug Rechenleistung verfügbar, um diese Entdeckung umzusetzen. Und so dauerte es weitere 26 Jahre, bis das Deep Learning seinen Siegeszug antrat. Im Rahmen einer 2012 erschienenen Arbeit trainierten Hinton und zwei seiner Toronto-Studenten mehrschichtige – oder "tiefe" – neuronale Netze durch Backpropagation so, dass sie modernste Bilderkennungssysteme übertrafen. Nach außen schien die KI über Nacht aufzuwachen – für Hinton war es jedoch ein längst überfälliger Erfolg.

Der Aufbau eines neuronalen Netzes wird normalerweise wie ein Sandwich dargestellt, mit übereinandergestapelten Schichten. Sie enthalten künstliche Neuronen, simple kleine Recheneinheiten, die – wie echte Neuronen – angeregt werden und ihre Erregung an andere Neuronen weitergeben. Eine Zahl, beispielsweise 0,13 oder 32,39, stellt den Erregungsgrad eines Neurons dar. Für jede Verbindung zwischen zwei Neuronen legt eine weitere Zahl fest, wie viel Erregung von einem zum anderen übertragen wird. Diese Zahl steht also für die Stärke der Verbindung zwischen den Neuronen: je höher die Zahl, desto stärker die Verbindung – und desto mehr Erregung wird übertragen. Eine der erfolgreichsten Anwendungen ist die Bilderkennung – wie in der denkwürdigen Szene der HBO-Serie "Silicon Valley": Das Team erstellt ein Programm, das erkennt, ob ein Hotdog im Bild ist. Solche Programme gibt es inzwischen tatsächlich.

Der Ausgangspunkt ist beispielsweise ein kleines Schwarz-Weiß-Bild von 100 mal 100 Pixeln. Damit füttert man das neuronale Netzwerk, indem jedes Neuron entsprechend der Helligkeit eines jeden Pixels erregt wird. In der ersten Schicht würden dann 100 mal 100 Neuronen die Helligkeit der Bildpixel repräsentieren, also insgesamt 10000. Diese Schicht verbindet man dann mit einer weiteren Neuronenschicht von nur noch einigen Tausend Neuronen und so fort, bis schließlich in der obersten Schicht – dem Output – lediglich zwei Neuronen übrig bleiben. Eins repräsentiert "Hotdog", das andere "kein Hotdog". Das neuronale Netz soll nun so trainiert werden, dass durch die Schichten hindurch nur das "Hotdog"-Neuron der obersten Schicht erregt wird, wenn das Bild einen Hotdog zeigt – und das andere Neuron, wenn nicht.

Anfangs sind die Verbindungen zwischen den Neuronen zufällig gewichtet. Das heißt, der Zufall entscheidet, wie viel Erregung jede Verbindung übermittelt. Es ist, als seien die Synapsen eines Gehirns noch nicht richtig eingestellt. Anschließend trainiert man das neuronale Netz mit Millionen von Bildern – einige mit Hotdogs, einige ohne.

Dabei komme die Backpropagation ins Spiel: Weil die Hotdog-Bilder gekennzeichnet sind, kann man einen Fehler vom Ende des Rechenprozesses zu seinem Anfang zurückverfolgen. Man betrachtet also die letzten beiden Neuronen und findet heraus, wie weit sie danebenlagen. Wie groß hätte der Unterschied zwischen den Erregungszahlen sein sollen, und wie groß ist er tatsächlich? Danach betrachtet man alle Verbindungen, die aus der nächstniedrigeren Schicht zu diesen Neuronen führen, und ermittelt, wie viel sie zu dem Fehler beigetragen haben.

Das setzt man fort bis zum ersten Satz von Verbindungen ganz unten im Netzwerk. Im letzten Schritt ändert man nun jede Gewichtung in die Richtung, die den Fehler am besten reduziert. So lernt das Netzwerk ziemlich gut zu entscheiden, ob ein Bild einen Hotdog zeigt.

Noch bemerkenswerter ist, dass die einzelnen Schichten Bilder ähnlich "sehen" wie unser eigenes visuelles System: Es analysiert in Bildern zunächst bestimmte Muster – etwa Kanten oder Formen. Aus ihrer Kombination entsteht dann das Motiv – etwa ein Brötchen. Bei einem neuronalen Netz könnte die erste Schicht also Kanten erkennen, in dem Sinne, dass ihre Neuronen bei Kanten angeregt werden – oder eben nicht, wenn es keine gibt.

Die darüberliegende Schicht könnte Gruppen von Kanten identifizieren, beispielsweise Ecken; die Schicht darüber begänne, Formen zu erkennen. Nun könnte sich die nächsthöhere an Entscheidungen wie "offenes Brötchen" oder "geschlossenes Brötchen" wagen, weil sie Neuronen herausgebildet hat, die auf diese Fälle reagieren. Mit anderen Worten: Das Netzwerk organisiert sich selbst in hierarchische Schichten, ohne jemals explizit so programmiert worden zu sein.

Diese Fähigkeit hat alle begeistert: Schließlich bedeutet sie, dass neuronale Netze nicht nur Bilder von Hotdogs (oder was auch immer) klassifizieren – sondern auch Ideen abbilden können. Bei Texten wird das noch deutlicher. Man kann den Text der Wikipedia, viele Milliarden Wörter, in ein einfaches neuronales Netz einspeisen und es so trainieren, dass es für jedes Wort eine Liste von Zahlen ausspuckt. Die Ziffern entsprechen der Erregung eines jeden Neurons einer Schicht.

Betrachtet man sie als Koordinaten in einem komplexen Raum, dann findet man einen Ort für jedes Wort – hier als Vektor bezeichnet. Trainiert man nun das Netzwerk so, dass Wörter, die auf Wikipedia-Seiten nahe beieinanderstehen, ähnliche Koordinaten erhalten, passiert etwas Verrücktes: Wörter mit ähnlichen Bedeutungen erscheinen nahe beieinander. Das heißt, "geisteskrank" und "ausgeflippt" erhalten ähnliche Koordinaten, ebenso "drei" und "sieben" und so weiter. Durch die sogenannte Vektorarithmetik lässt sich beispielsweise der Vektor für "Frankreich" von dem für "Paris" subtrahieren, der Vektor für "Italien" hinzufügen und schließlich in der Nachbarschaft von "Rom" ankommen – alles ohne dem Netzwerk explizit mitzuteilen, dass Rom für Italien dasselbe wie Paris für Frankreich ist.

Neuronale Netze kann man sich demnach so vorstellen, dass man Objekte – Bilder, Wörter, Audio-Mitschnitte, medizinische Daten – in einen hochdimensionalen Vektorraum aufnimmt, in dem ihre relative Nähe oder Entfernung wichtige Merkmale der realen Welt widerspiegelt.

"Es ist erstaunlich", sagt Hinton, "und es ist schockierend." Er glaubt, dass unser Gehirn genauso arbeitet. Für ihn ist jeder Gedanke ein Tanz der Vektoren. Es ist kein Zufall, dass Hinton für Torontos KI-Flaggschiff den Namen Vector Institute vorschlug. In seiner mitreißenden Begeisterung kreiert Hinton eine Atmosphäre der Gewissheit und des Enthusiasmus, die einem das Gefühl vermittelt, es gäbe nichts, was Vektoren nicht könnten.

Erst nach dem Gespräch erinnert man sich: Diese Deep-Learning-Systeme sind immer noch ziemlich dumm, obwohl sie manchmal klug erscheinen. Ein Computer, der ein Bild von einem Haufen gestapelter Donuts nimmt und es automatisch beschriftet als "ein Haufen Donuts, die auf einem Tisch gestapelt sind", scheint die Welt zu verstehen. Aber wenn das gleiche Programm ein Bild eines Mädchens sieht, das sich die Zähne putzt und sagt: "Der Junge hält einen Baseballschläger", dann merkt man, wie schlecht dieses Verständnis wirklich ist, sofern es überhaupt jemals da war.

Deep Learning, sagt David Duvenaud, einer von Hintons Kollegen an der Universität von Toronto, sei wie die Technik vor der Physik. "Jemand schreibt einen Aufsatz und sagt: 'Ich habe diese Brücke gebaut, und sie blieb stehen!' Ein anderer schreibt: 'Ich habe eine Brücke gebaut, und sie brach zusammen – aber dann habe ich Pfeiler hinzugefügt, und sie hielt.' Schon sind Pfeiler eine heiße neue Technologie. Jemand kommt mit Bögen, prompt heißt es 'Bögen sind großartig!'" Aber noch hat man lediglich Phänomene beschrieben, ohne zu verstehen, was funktioniert und warum. Das gelinge erst mithilfe der Physik. Bei künstlicher Intelligenz "haben wir erst kürz-lich begonnen, diese Phase des Verständnisses zu erreichen".

Hinton selbst sieht die Grenzen durchaus. "Die meisten Konferenzen beschäftigen sich damit, kleine Variationen zu erörtern ... anstatt grundsätzlich nachzudenken und zu fragen: Wo liegen die wirklichen Mängel in unserem derzeitigen Ansatz? Womit hat er Schwierigkeiten? Konzentrieren wir uns darauf."

Wie also könnte der nächste große Schritt aussehen? Die Einschränkungen der KI zu überwinden, bedeutet für Hinton "eine Brücke zwischen Informatik und Biologie zu bauen". Mit der Idee der Backpropagation ist ihm vor mehr 30 Jahren ein wichtiger Pfeiler dieser Brücke gelungen. Sie war ein Triumph des biologisch inspirierten Programmierens, inspiriert von der Psychologie. Nun braucht es weitere Pfeiler. Hinton hat sogar schon eine Idee, wie sie zu errichten sein könnten.

Künstliche neuronale Netze bestehen heute aus großen, flachen Schichten, aber im menschlichen Neokortex sind reale Neuronen nicht nur horizontal, sondern auch vertikal angeordnet. Hinton glaubt zu wissen, warum – beim Sehen sind die vertikalen Säulen zum Beispiel entscheidend für unsere Fähigkeit, Objekte auch dann noch zu erkennen, wenn sich der Blickwinkel ändert. Also entwickelt er eine künstliche Version – er spricht von "Kapseln" – um diese Theorie zu testen.

Bis jetzt konnten jedoch die Kapseln die Leistung seiner Netze nicht dramatisch verbessern. Doch mit der Backpropagation befand er sich fast 30 Jahre lang in der gleichen Situation. "Das muss einfach stimmen", sagt er zur Kapsel-Theorie und lacht. "Die Tatsache, dass es nicht funktioniert, ist nur ein vorübergehendes Ärgernis."

(bsc)