Google lernt sehen

Software, die ohne menschliche Hilfe lernt, soll Googles Dienste weiter verbessern. Ein erster Prototyp ist bereits erstaunlich erfolgreich.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Lesezeit: 5 Min.
Von

Software, die ohne menschliche Hilfe lernt, soll Googles Dienste weiter verbessern. Ein erster Prototyp ist bereits erstaunlich erfolgreich.

Diesen Sommer hat Google eine neue Markierung auf dem Gebiet der künstlichen Intelligenz gesetzt: Der Suchmaschinen-Riese präsentierte eine Software, die ohne menschliche Hilfe gelernt hat, in Online-Videos Katzen, Menschen und andere Objekte zu erkennen.

Den Kern von Googles lernendem Computerprogramm bildet ein sogenanntes künstliches neuronales Netz (KNN): KNN sind stark vereinfachte Modelle vernetzter Gehirnzellen. Diese sind über künstliche Synapsen verbunden und antworten mit spezifischen Output-Daten auf den jeweils vorliegenden Input. Von einem Punktemuster kann ein KNN beispielsweise auf den zugehörigen Buchstaben schließen – und das entsprechende Signal ausgeben.

Auch wenn ein KNN die tatsächlichen Vorgänge im Gehirn nur ansatzweise abbildet, so ist es prinzipiell lernfähig. Man kann es trainieren, indem man ihm Daten eingibt und gleichzeitig das Ergebnis – also beispielsweise den gesuchten Buchstaben – vorgibt. Das System passt die Synapsen-Eigenschaften im neuronalen Netz so lange an, bis das Trainingsbild das richtige Resultat liefert. Einmal trainiert, ist ein KNN dann in der Lage, auch andere, den Trainingsdaten nur entfernt ähnliche Muster zu erkennen. Auf diese Weise kann man der Software sogar beibringen, Fotos und Videos zu durchkämmen, um etwa Gesichter aufzuspüren.

Allerdings benötigten die KNN dafür Hilfe – Menschen müssen dem System vorgeben, nach welchen Merkmalen es suchen soll. Google-Wissenschaftlern war das nicht genug.

Damit ihr Netzwerk selbstständig lernen kann, entwickelten sie ein Computerprogramm, das Signale ähnlich verarbeitet wie die menschliche Sehrinde im Gehirn. Die ist in der Lage, neuronale Aktivitätsmuster zu sich ähnelnden Bildern zuzuordnen – Informatiker nennen diesen Mechanismus "sparse encoding". Während derartige Programme bisher nur in der Lage waren, relativ einfache Bildmerkmale wie Kanten oder zusammenhängende Flächen gleicher Helligkeit zu erkennen, konnten Google-Techniker im Juli 2012 erstmals zeigen: Selbstständig lernende KNN erfassen auch komplexe Kategorien wie "Mensch" oder "Katze".

Voraussetzung dafür ist allerdings, dass die Netze groß genug sind und mit genügend Trainingsdaten gefüttert werden. In ihrem Experiment hatten die Wissenschaftler ein KNN mit einer Milliarde künstlicher Synapsen verwendet und diesem zehn Millionen Bilder aus YouTube-Videos vorgesetzt. 16000 Prozessoren in 1000 Computern waren zehn Tage damit beschäftigt.

"Die meisten Leute lassen ihre Modelle in einer einzelnen Maschine laufen, aber wir wollten mit sehr großen neuronalen Netzen experimentieren", sagt Jeff Dean, der leitend an dem Projekt beteiligt war. "Wenn man sowohl die Größe des Netzes erhöht als auch die Menge an Daten, mit denen es trainiert, kann es komplexere Merkmale erlernen." Das KNN lag zwar nur in knapp 16 Prozent aller Fälle richtig. Wertvoll ist das Experiment dennoch: Die Google-Wissenschaftler haben gezeigt, dass der Ansatz prinzipiell funktioniert.

Die neuronalen Netze, die aus einem solchen Prozess hervorgehen, lernen nicht nur ohne menschliche Hilfe. Sie können auch den Kontext der eingegebenen Informationen berücksichtigen. So könnte Spracherkennung, für die Google auch jetzt schon neuronale Netze einsetzt, deutlich besser werden. "Wir können den Anteil falsch erkannter Wörter um 20 bis 25 Prozent reduzieren", sagt Vincent Vanhoucke, leitender Forscher bei Googles Spracherkennung.

Laut Dean testet sein Team außerdem Modelle, die den Zusammenhang zwischen Bild und Text verstehen. "Wer das Wort ,Schweinswal' eingibt, bekommt Bilder von einem Schweinswal. Und wenn man dem Modell das Bild eines Schweinswals vorlegt, gibt es ,Schweinswal' als Wort aus", erklärt er.

Entsprechend beeindruckt sind auch unabhängige Experten. Für Yoshua Bengio von der University of Montreal ist Googles Arbeit an neuronalen Netzen ein weiterer Schritt auf dem Weg zum ultimativen Ziel wirklicher künstlicher Intelligenz. "Genau dieser Weg führt dahin", so Bengio, der an ähnlichen Techniken zum Maschinen-Lernen arbeitet wie Google. KI-Forscher wollen Software erschaffen, die es mit den geistigen Fähigkeiten von Tieren oder sogar Menschen aufnehmen kann. "Eine Maschine kann erst dann intelligent sein, wenn sie in der Lage ist, große Mengen an Wissen über die Welt aufzunehmen."

Schnell schränkt Bengio allerdings ein, dass Googles neuronale Netze deutlich kleiner sind als ein echtes Gehirn. Auch können sie viele Aufgaben, die Intelligenz ausmachen, noch nicht erfüllen. Sie habe beispielsweise nicht die Fähigkeit, auf der Grundlage von in der äußeren Welt gesammelten Informationen Überlegungen anzustellen.

Auch Dean legt Wert darauf, dass die von ihm erreichte begrenzte Intelligenz keineswegs der eines biologischen Hirns nahekommt. Trotzdem verweist er gern darauf, dass Googles Netze auf bestimmten Gebieten Menschen schlagen können. "Bei manchen visuellen Aufgaben kommen wir auf bessere Ergebnisse als mit Menschen", sagt der Forscher. Das gilt beispielsweise für das Auszeichnen von Straßenaufnahmen für Google Street View. Hausnummern wurden dort bislang von (vielen) Menschen identifiziert. "Um zu entscheiden, ob ein Fleck eine Hausnummer ist oder nicht, beginnt das Team jetzt, neuronale Netze einzusetzen", sagt Dean – und deren Leistung sei nach den bisherigen Erfahrungen besser als die der Menschen.

Künstliche neuronale Netze mögen den natürlichen in unseren Köpfen nach wie vor weit unterlegen sein – der kleine Sieg zeigt, dass sie dennoch einen Vorteil besitzen: "Die Computer können Aufgaben erledigen, die für Menschen nicht interessant sind – und werden niemals müde", sagt Dean. Um sich zu langweilen, sind sie einfach noch nicht schlau genug. (wst)