Neuronale Netze machen Motion Capturing mit Handy oder Webcam möglich
Ohne aufgeklebte Marker und ohne spezielle Tiefenkamera, dafĂĽr mit der Handykamera und in Echtzeit: Das Max-Planck-Institut fĂĽr Informatik hat ein System entwickelt, das Bewegungen und Posen von Personen ohne Spezial-Equipment erkennt.
Motion Capturing – die Erfassung von menschlichen Bewegungen und Haltungen, um diese auf Figuren im Rechner zu übertragen – ist spätestens seit der aktuellen Virtual-Reality-Welle ein heißes Thema, denn für die Interaktion mit der simulierten Welt ist es entscheidend, dass diese genau weiß, wie sich der Besucher aus der materiellen Sphäre gerade verhält. Meist kommt zu diesem Zweck spezielle Hardware zum Einsatz, etwa Tiefenkameras wie die Kinect von Microsoft. Oder die Bewegung wird optisch über Marker erfasst, die man sich auf den Körper kleben muss.
Viel simpler soll es mit einem System namens VNect gehen, das eine Forschungsgruppe vom Max-Planck-Institut für Informatik an der Universität des Saarlandes entwickelt hat: Ihm reicht eine übliche, billige Webcam, die eine Person mit 30 Bildern pro Sekunde aus einer einzigen Perspektive aufnimmt, um in Echtzeit deren Bewegungen zu erkennen und mittels eines Avatars zu reproduzieren. Im Video gelingt das auch bei flotten Bewegungen, etwa beim Jonglieren.
Tiefes Denken
Dahinter steckt ein spezielles von neuronales Netz, das Forscher als "gefaltetes neuronales Netzwerk" bezeichnen – was so etwas leistet, erregt gerade unter dem Begriff "Deep Learning" für Aufsehen. Das neuronale Netzwerk wurde mit über zehntausend Bildern trainiert, denen Informationen über die entsprechenden Gelenkwinkel annotiert waren. Bevor VNect allerdings versucht, anhand dieser Erfahrungswerte die Pose zu rekonstruieren, bestimmt das System die Position der Person im Bild, um die Verarbeitung des Video-Stroms auf diesen Bereich zu beschränken, was Rechenzeit spart.
Gegenüber der Bewegungserfassung etwa mit der Kinect-Tiefenkamera von Microsoft hat die Methode laut ihren Entwicklern nicht nur den Vorteil, ohne solche Spezial-Hardware auszukommen, sondern auch bei hellem Sonnenlicht zu funktionieren, bei dem die Kinect Probleme bekommt. Darüber hinaus kann man den Algorithmus auch auf Videos loslassen, die man unterwegs mit dem Handy gefilmt hat, also Bewegungsabläufe nachträglich tracken lassen.
Vermummungsverbot
Wie die Forschergruppe einräumt, hat das System freilich aktuell noch Einschränkungen: Es arbeitet etwas weniger genau als Verfahren mit mehreren Kameras oder Markern. VNect gerät auch in Schwierigkeiten, wenn das Gesicht der Person verdeckt ist. Darüber hinaus dürfen die Bewegungen nicht zu schnell werden und sich auch nicht völlig von den gelernten Vorbildern entfernen – das liegt bei trainierten neuronalen Netzen in der Natur der Sache. Posen, bei denen die gefilmte Person mit den eigenen Gliedmaßen zu viel von sich selbst verdeckt, sind ebenfalls problematisch, mit mehreren Personen im Bild kann VNect derzeit nicht umgehen.
Die Forscher werden ihr System VNect in Honolulu vom 21. bis 26. Juli auf der Computer-Vision-Konferenz CVPR zeigen, anschließend präsentieren Sie es auf der SIGGRAPH in Los Angeles vom 30. Juli bis 3. August.
- Paper (PDF): Mehta, Dushyant and Sridhar, Srinath and Sotnychenko, Oleksandr and Rhodin, Helge and Shafiei, Mohammad and Seidel, Hans-Peter and Xu, Weipeng and Casas, Dan and Theobalt, Christian: VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera, ACM Transactions on Graphics
(pek)