Der Maschinenlehrer

Ob Cloud-Tagebuch, 3D-Scanner oder DNA-Programmierung: In seiner Forschungsabteilung lässt Microsoft Wissenschaftler an verschiedensten Problemen tüfteln. Doch weil selbst ihre schlauen Gehirne die Komplexität kaum noch erfassen können, trainieren sie Computer und Maschinen für neue Lösungswege.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 9 Min.
Inhaltsverzeichnis

Als Microsoft 1997 sein Forschungslabor in Cambridge eröffnete, hätte sich der jetzige Leiter Andrew Blake (oben) nicht träumen lassen, dass seine Grundlagenforschung einmal die Welt der Videospiele genauso beeinflussen würde wie die Steuerung von Energiesparhäusern oder die Diagnose von Hirntumoren. Blake war maßgeblich an der Entwicklung der Kinect-Kamera beteiligt, die die vierte Generation der Eingabegeräte einläutete: Nach Tastatur, Maus und Touch-Screen ermöglicht die Gestensteuerung eine neue Art der Interaktion mit Computern.

Doch die Erkennung unterschiedlicher Personen und Bewegungen wäre nicht möglich, ohne dass Computer vom Verhalten des Anwenders lernen. Sie müssen mit Entscheidungsbäumen und Wahrscheinlichkeiten operieren und ihre Ergebnisse flexibel anpassen. Die dazu nötigen Lernalgorithmen kommen in nahezu allen Bereichen zum Einsatz, in denen Maschinen komplexe Systeme erkennen und verarbeiten sollen, die vorab nicht bestimmbar sind. Nicht zuletzt wird der Programmcode durch sie erheblich kürzer. Wo eine deterministische Software 1000 Zeilen Code benötigt, kommt ein Lernalgorithmus mit vielleicht 20 bis 30 Zeilen aus.

Microsofts Lernalgorithmen sollen die Erkennung von Hirntumoren verbessern.

Für solche Lernalgorithmen hat Microsoft Research die Entwicklungsumgebung Infer.NET aus der Taufe gehoben. Infer.NET erlaubt, mit Wahrscheinlichkeitsverteilungen zu arbeiten und Ergebnisse in Abhängigkeit von den Eingaben zu verfeinern. Damit lassen sich beispielsweise Antworten der Suchmaschine Bing verbessern, indem neue Suchdurchläufe berücksichtigen, welche Vorschläge Anwender bei vorherigen Anfragen angeklickt haben.

Bei der Kinect-Kamera verbessern Lernalgorithmen die Bewegungserkennung, ohne den Entwicklungsaufwand zu erhöhen. So lernt beispielsweise die Ende Oktober erscheinende Spielesammlung „Kinect Sports Season 2“, wie Spieler vor der Kamera einen imaginären Ball werfen oder schlagen. Statt bei der Entwicklung die Gesten Tausender verschiedene Testspieler zu speichern, wertet die Software jeweils die Bewegungen des Spielers aus, und berechnet anhand von Wahrscheinlichkeiten, welche Wurfart oder Schlagrichtung wohl am ehesten gemeint war. Je mehr man spielt, desto besser klappt die Erkennung.

Was bei der Sprach- und Bewegungserkennung funktioniert, kann auch Medizinern bei der Diagnose helfen. In Cambridge stellten die Forscher Projekte zur Asthma-Behandlung und zur Erkennung und Klassifizierung von 3D-Körper-Scans von Patienten vor. Unter dem Projektnamen InnerEye zeigte Antonio Crominisi eine Software, die auf 3D-Aufnahmen von Computertomographen nicht nur automatisch alle Organe erkennt und in einer Datenbank katalogisiert, sondern die Aufnahmen auch vergleicht und krankhafte Veränderungen aufzeigen kann. Mit Hilfe von Cloud-Datenbanken könnte InnerEye Ärzte beispielsweise in die Lage versetzen, Aufnahmen ihrer Patienten mit Tausenden anderen zu vergleichen und Behandlungskonzepte mit bereits erprobten Methoden abzustimmen. Davon sollen später auch Neurologen profitieren, wenn InnerEye ihnen beim Aufspüren von Hirntumoren hilft.

Wie ein kleiner Junge freute sich Steve Hodges, als er seinen Elektronik-Baukasten .NET Gadgeteer vorführen durfte. „Ich hatte Monate an einer tragbaren Digitalkamera gebastelt, die den Tagesablauf ihres Trägers protokollieren sollte“, erzählte Hodges. „Mit Gadgeteer kann ich den gleichen Prototypen nun in Stunden zusammenstecken und programmieren.“ Das System umfasst eine Hauptplatine mit einem programmierbaren ARM-Prozessor, an den über Steckkontakte ein Touch-Screen, eine Kamera, verschiedene Schnittstellen (USB, Ethernet etc.) und Sensoren angeschlossen werden können. Zu Weihnachten will GHI Electronics ein Grundset für 250 US-Dollar in seinem Online-Shop verkaufen. Gehäuse soll man nach eigenen Vorgaben individuell zuschneiden oder von 3D-Druckdienstleistern im Web bauen lassen können.

Mit dem programmierbaren Elektronikbaukasten .NET Gadgeteer können auch junge Forscher erste Prototypen basteln.

Mit Gadgeteer konstruierte Hodges beispielsweise einen Sensor, der die Temperatur in einzelnen Wohnräumen und die Anwesenheit der Bewohner überwacht und per WLAN an eine Steuereinheit übermittelt. Eine Software protokolliert die Nutzung jedes Raumes und steuert die Heizungsanlage, sodass die Räume nur dann aufgeheizt werden, wenn zu erwarten ist, dass sich später tatsächlich Personen darin aufhalten werden.

In einem ersten Forschungsprojekt, in dem das PreHeat genannte System in fünf Haushalten in Großbritannien und den USA getestet wurde, ließen sich bis zu einem Drittel der Heizkosten sparen. Gleichzeitig verringerte sich die Zeit, in der Bewohner im Kalten saßen, um 60 bis 90 Prozent verglichen mit fest programmierten Heizsystemen. PreHeat könne somit helfen, Heizkosten in Smart-Homes zu sparen, ohne dass sich die Bewohner mit komplexen Zeitplänen auseinandersetzen müssen, sagte Hodges.

Nicht erst seit der Vorstellung der neuen Timeline von Facebook tüftelt Abigail Sellen an einem Online-Tagebuch, in dem Anwender ihre Erinnerungen in einer Zeitleiste anordnen können. Ein Prototyp des „Timelines“ genannten Projekts soll Ende Oktober bei Microsoft Research online gehen. Doch anders als bei Facebook wird Timelines nicht sämtliche Aktivitäten der Anwender automatisch protokollieren, sondern ihnen die Möglichkeit geben, Ereignisse, die ihnen wichtig sind, mit Bildern, Tonaufnahmen, Videos und Text auf einer interaktiven Zeitleiste zusammenzustellen und aufzuarbeiten. Solche Tagebücher lassen sich nicht nur Personen zuordnen, auch geschichtsträchtige Phasen wie der Zweite Weltkrieg ließen sich darstellen. Anwender könnten dann ihre eigene Geschichte mit der anderer koppeln und in einen geschichtlichen Kontext stellen.

Nicht nur auf Facebook: Ende Oktober will Microsoft sein eigenes Timelines-Projekt online stellen.

Gespeichert werden sollen die Tagebücher auf den Cloud-Servern von Microsoft. Nutzerkonten ließen sich mit Windows Live oder Facebook verknüpfen. Ein Herunterladen der Daten zum Oflline-Betrachten ist nicht vorgesehen, was den Nutzen von Timelines als generationenübergreifendes Werkzeug für digitale Erinnerungen merklich einschränkt. „Wir haben derzeit keine Lösungen für den Fall, dass die Cloud-Server oder Microsoft irgendwann einmal nicht mehr existieren“, stellte Sellen klar. Die Problematik sei ihrer Gruppe jedoch bewusst und man widme sich ihr in anderen Forschungsprojekten.

Die spektakulärste Präsentation sparten sich Microsofts Wissenschaftler bis zum Schluss auf, als Sharam Izadi KinectFusion vorführte. Das System verwandelt eine Kinect-Kamera in einen mobilen 3D-Scanner, der Objekte und Personen in Echtzeit erfasst. Izadi demonstrierte das System an einer kleinen Gesprächsrunde, die sein Kollege mit der Kinect-Kamera in der Hand aufnahm. Kinect-Fusion nutzt ausschließlich den Tiefensensor der Kinect-Kamera, um deren Position und Richtung zu ermitteln. Der Bewegungssensor wird nicht genutzt. Die Tiefenbilder werden in Echtzeit zu einem volumetrischen Abbild zusammengesetzt (fusioniert). Der Kinect-Tiefensensor gibt sein 3D-Scannerbild, das zunächst stark verrauscht und löchrig ist, lediglich mit einer geringen VGA-Auflösung aus. Durch Überlagerung der Bilder lässt sich die Auflösung jedoch verbessern, sodass selbst kleine Details sichtbar werden – jeder kleine Wackler hilft.

KinectFusion überlagert in Echtzeit die Tiefenscans der frei gehaltenen Kinect-Kamera zu einem volumetrischen Abbild des Raums.

Derzeit kann das System Räume bis zu sieben Kubikmeter mit einer Auflösung von 5123 Voxeln abbilden. Weil die Kamera 30 Bilder pro Sekunde schießt, werden die Berechnungen parallelisiert und auf eine schnelle GPU ausgelagert. Mittels CUDA könne eine GeForce GTX 470 mit 448 CUDA-Kernen besagten Würfel mit 512 Pixeln Kantenlänge in 2 ms berechnen. Das System arbeite zwar schnell, so Izadi, sei jedoch auch speicherintensiv. Mit einer Auflösung von 32 Bit pro Voxel beanspruche ein 512er-Würfel 512 MByte Speicher. Verdoppelt man die Kantenlänge, so verachtfacht sich der Speicherbedarf.

KinectFusion berücksichtigt noch nicht das Farbbild des RGB-Sensors der Kamera. „Weil sich die Farbe eines Voxels mit jedem Blickwinkel ändert, würden wir eine Art HDR-Bild erhalten“, erklärte Izadi. Derzeit arbeite man aber noch an den Grundlagen und wolle beispielsweise ein allgemeingültiges Dateiformat für die Volumenbilder beschreiben. Eine Veröffentlichung für die Xbox 360 sei derzeit nicht geplant. Das Besondere an Kinect und dem dort eingebauten Sensor von Primesense sei, dass die Technik robust und billig sei. „Wenn 3D-Kameras kleiner werden und ihre Auflösung steigt, haben wir vielleicht in zehn Jahren in jedem Smartphone einen solchen Objekt-Scanner“, stellte Izadi in Aussicht. Man könne jedoch auch Satelliten mit der Technik bestücken, die große Landstriche dreidimensional scannen. Google Earth in seiner jetzigen Form wäre dann Schnee von gestern.

Microsoft will nicht bei der Programmierung von Computern stehenbleiben, sondern auch die Gentechnik vorantreiben. „Die Programmierung der DNA wird in den kommenden 50 Jahren mindestens die Bedeutung erlangen wie die des Siliziums in den vergangenen 50 Jahren“, prognostizierte Stephen Emmot. Für ihn sind Zellen lebende Computer, deren Software in der DNA steckt. Statt aus Nullen und Einsen besteht der biologische Code aus GC- und TA-Basenpaaren. Er kontrolliert die Sensoren an der Zelloberfläche, die Energiegewinnung in den Mitochondrien und den Informationsaustausch mit anderen Zellen.

Software von Microsoft soll künftig nicht nur auf Silizium, sondern auch in biologischen Zellen laufen.

Um die DNA von Zellen programmieren zu können, müssen die Forscher ihre Syntax entschlüsseln. Ziel sei schließlich eine Entwicklungsumgebung, in der man DNA-Bausteine neu zusammensetzen und ihre Wirkung simulieren könne, bevor man sie in reale Zellen einpflanzt. Emmot bedient sich bei der Gentechnik des gleichen Vokabulars wie in der Informatik. Er spricht von „Compilern“ und „Debugging“, als ob Gott Informatiker gewesen wäre.

Mit einem solchen Werkzeug könne man Erbkrankheiten von Embryonen wie Programmierfehler verbessern. Die DNA-Informatik wäre in der Lage, das Ernährungsproblem der Weltbevölkerung zu lösen, glaubt Emmot. Ende des 21. Jahrhunderts würden elf Milliarden Menschen die Erde bevölkern. „Deren Energieversorgung ließe sich vielleicht mit künstlichen Bäumen sichern, deren Photosynthese wir nutzen. Ich denke an ganze Wälder künstlicher Bäume, auf denen Tausende von Programmen laufen und die die Energieversorgung des ganzen Planeten sichern.“ Ob deren Betriebssystem dann immer noch Windows heißt, werden wir wohl nie erfahren.

www.ct.de/1122050 (hag)