Die Verwandlung

Gollum, die schillerndste digitale Filmfigur der jüngeren Geschichte, kam im "Hobbit" wieder in die Kinos – und setzte dabei erneut technische Maßstäbe.

4

10.06.2013, 07:30 Uhr

Lesezeit: 11 Min.

MIT Technology Review

Von

Siegfried Tesche
Gregor Honsel

Gollum, die schillerndste digitale Filmfigur der jüngeren Geschichte, kam im "Hobbit" wieder in die Kinos – und setzte dabei erneut technische Maßstäbe.

Er schimpft oder jammert in einer Tour, ist verschlagen und hinterhältig, besitzt einen viel zu großen Kopf und groteske Glupschaugen. Trotzdem hat er es zu einer der schillerndsten Filmfiguren der jüngeren Kinogeschichte gebracht: Gollum, der Neben-Bösewicht aus der 2001 bis 2003 erschienenen Fantasy-Trilogie "Herr der Ringe". Im letzten Dezember kam Gollum zurück ins Kino – und zwar im Film "Der kleine Hobbit". Auch diesmal setzte Regisseur Peter Jackson nicht nur künstlerische, sondern auch technische Maßstäbe.

Schon mit den ersten Streifen war der Neuseeländer seiner Zeit weit voraus, was die digitale Nachbearbeitung betraf – jeder der drei Filme bekam einen Oscar für seine visuellen Effekte. Paradebeispiel dafür ist die übellaunige Kreatur Gollum: Wenn sie ihre Augen so weit aufreißt, dass sie fast aus den Höhlen fallen, oder Verwünschungen faucht, dass der Zuschauer instinktiv vor ihrem schlechten Atem in Deckung geht, steckt dahinter die gelungene Zusammenarbeit von Mensch und Maschine. Die Bewegungen stammen vom britischen Schauspieler Andy Serkis, seine ausgemergelte Gestalt erhielt Gollum aber vom Computer. Dahinter steht die neuseeländische Firma Weta Digital, die Jackson damals mit einem Budget von 20 Millionen Dollar für alle drei Teile ausgestattet hat. Auch beim Hobbit bringt Weta Fachwelt wie Publikum abermals zum Staunen. Wie hoch das Budget diesmal war, darüber gibt Jackson keine Auskunft.

Doch man darf getrost unterstellen, dass er bei der Technik nicht gegeizt hat. Die offenkundigste Neuerung beim "Hobbit": Er wurde als erster großer Kinofilm seit 1927 nicht mehr mit 24, sondern mit 48 Bildern pro Sekunde gefilmt ("High Frame Rate", HFR). Die schnellere Bildfolge und die damit einhergehende kürzere Belichtungszeit pro Bild soll Ruckler, Flimmern und Bewegungsunschärfe verringern. Das ist vor allem für störungsfreie Kameraschwenks sowie für die Tiefenwirkung der parallel produzierten 3D-Fassung wichtig. Gleichzeitig schraubt Jackson auch die Auflösung auf eine neue Rekordhöhe: Die 48 verwendeten Digitalkameras des Herstellers Red erfassen 5120 mal 2700 Bildpunkte (5K).

Bisher waren maximal 4096 mal 2150 Pixel (4K) üblich. Die hochauflösende HFR-Technik verschaffe "die Illusion, dass man quasi mitten im Geschehen ist", behauptet Jackson auf der Fachmesse CinemaCon im April 2012 im kalifornischen Burbank. "Seit über einem Jahr schaue ich mir nun das täglich gedrehte Material an und stelle fest, dass die Augen weniger belastet werden als je zuvor."

Die schnelle Bildfolge erzeugt in der Tat einen ganz neuen Seh-Eindruck – der allerdings nicht jeden auf Anhieb überzeugt. Simon Spielmann, Forscher an der Filmakademie Baden-Württemberg in Ludwigsburg, konnte sich auf Fachmessen schon die ersten Ausschnitte ansehen. Er findet die HFR-Anmutung "gewöhnungsbedürftig" – die Bewegungsunschärfe sei schließlich auch ein künstlerisches Mittel, das nun wegfalle. Für die neue Produktionsweise mussten selbst die Textilien geändert werden, weil plötzlich die Kleider ganz anders wallen und fallen. Peter Jackson nahm die Kritik nach den ersten Vorführungen gelassen auf – das sei eben Gewöhnungssache, so wie beim Umstieg von der Schallplatte auf die CD.

Damit sich das Publikum an die HFR-Technik gewöhnen kann, muss es diese aber erst einmal in Originalqualität zu sehen bekommen. Das kann dauern, denn dazu müssen mehr als 50.000 Digitalprojektoren weltweit aufgerüstet werden. Die Kinobesitzer sind zwar nicht glücklich darüber, erneut investieren zu müssen. Über kurz oder lang wird ihnen aber nichts anderes übrig bleiben, denn auch Regisseur James Cameron hat bereits angekündigt, seine nächsten beiden "Avatar"-Filme in HFR aufzunehmen. Zum Filmstart des "Hobbit" konnten in Deutschland nur vergleichsweise wenige Kinos den Streifen in der hohen Bildrate zeigen.

Ein anderes technisches Highlight erlebten die Zuschauer aber auf jeden Fall im "Hobbit": den Gollum. Erschaffen wurde die Figur in den ersten drei Filmen durch das Motion-Capture-Verfahren. Dazu zwängte sich der Darsteller Andy Serkis in einen Anzug mit Markierungspunkten. Kameras und entsprechende Software verfolgten die Punkte und übertrugen ihre Bewegungen auf ein digitales Körpermodell. Dieses Prinzip wurde schon in den achtziger Jahren entwickelt, aber die Weta-Leute führten es ein ganzes Stück weiter: Um die Haut realistischer wirken zu lassen, wälzten sie Anatomiebücher und modellierten Muskelstränge, Venen und Arterien so, als würde tatsächlich Blut durch Gollums Adern fließen. Die Mimik war damals allerdings ausschließlich Sache von Computeranimatoren in der Postproduktion, Andy Serkis lieferte nur die Körperbewegung.

Das hat sich nun, gut ein Jahrzehnt später, geändert. Heute sprechen die Filmemacher nicht mehr von "Motion Capture", sondern von "Performance Capture". Das bedeutet: Nicht nur die Körperbewegungen, auch die Mimik von Serkis wird erfasst und auf das digitale Gollum-Modell übertragen. Dazu bekommt der Schauspieler Markierungspunkte ins Gesicht geklebt. Eine eigene Kamera, die an einem Ausleger an seinem Kopf befestigt ist, erfasst nun jede Regung, jedes Augenzucken, jedes Wimpernklimpern – wie bereits bei James Camerons Blockbuster "Avatar".

Weta hat das Performance-Capture-Verfahren über eine lange Reihe von Filmen wie "King Kong", "Planet der Affen" oder eben "Avatar" weiter verfeinert, und zwar auf Basis des "Facial Action Coding System" (FACS), das in den siebziger Jahren von Paul Ekman und Wallace V. Friesen entwickelt wurde. Die beiden amerikanischen Psychologen erstellten ein Alphabet aus 64 einzelnen Bewegungen ("Action Units"), aus dem sich prinzipiell jeder denkbare Gesichtsausdruck zusammensetzen lässt. "Freude" besteht etwa aus den Action Units 6 ("Wangen an- heben") und 12 ("Mundwinkel auseinanderziehen"). Für das Performance Capturing bieten die Action Units eine entscheidende Erleichterung: Kamera und Software brauchen nicht jeden Quadratzentimeter Haut dreidimensional zu erfassen – es reicht, wenn sie die zugrunde liegenden Action Units erkennen. Diese kann eine entsprechende Software dann auf die Gesichtsmuskeln eines digitalen Kopfs übertragen, auch wenn der völlig andere Proportionen hat als der des Schauspielers.

In den Labors gehen die Forscher noch einmal einen Schritt weiter: Sie wollen die lästigen Markierungen ganz loswerden. Wissenschaftler des Max-Planck-Instituts für Informatik in Saarbrücken haben ein System entwickelt, bei dem Farben statt Markierungspunkte die Brücke zwischen Schauspieler und digitalem Double bauen. Dieses sieht aus wie ein Michelin-Männchen aus 64 farbigen Kugeln. Die Farben entsprechen denen von Hemd und Hose der Schauspieler. Erkennt die Software beispielsweise ein rotes T-Shirt in einer Videoaufnahme, überträgt sie dessen Bewegung auf die roten Kugeln, die Torso, Schultern und Oberarme repräsentieren. Das System arbeitet mit fünf handelsüblichen Videokameras, die nicht synchronisiert werden müssen, und funktioniert sogar, wenn sich Schauspieler auf dem Boden wälzen, miteinander ringen oder teilweise verdeckt sind. Bisherige Systeme hatten damit Schwierigkeiten.

Projektleiter Nils Hasler war früher selbst bei Weta tätig und kennt die Tricks aus "Herr der Ringe". Darüber, woran genau er damals gearbeitet hat, darf er nicht sprechen. Wohl aber über seine aktuelle Forschung: "Die Datenmenge ist bei unserem Verfahren größer, weil ein komplettes Videobild mehr Informationen liefert als ein paar weiße Punkte." Filmemacher, die auf die Marker verzichten möchten, sollten also nicht beim Rechnerpark geizen. Im Gegenzug sparen sie Zeit am Set, weil die Filmcrew den Schauspieler nicht mehr mit Markern bekleben muss. Zudem entfallen Messfehler durch verrutschte Marker.

Hasler glaubt, dass die neue Technik "mittelfristig das frühere Marker-Verfahren ersetzen wird". Anfragen aus Hollywood und der Computerspielindustrie gebe es bereits. Das heißt aber nicht, dass Marker völlig ausgedient haben – sie liefern zum Beispiel bei sehr schnellen Bewegungen präzisere Ergebnisse. Deshalb sei auch eine Kombination beider Techniken sinnvoll, so Hasler. Der nächste Schritt: "Wir wollen die Rekonstruktion so stark verbessern, dass wir auch Kleidungsdeformationen aufnehmen können, beispielsweise die Falten eines Shirts."

Filmemacher, die es weniger perfekt brauchen, können sich ihr Capture-System auch aus dem nächsten Elektronikmarkt besorgen. Simon Spielmann von der Filmakademie Ludwigsburg hat untersucht, inwieweit sich Microsofts "Kinect" für die Filmindustrie einsetzen lässt. Die Kinect erfasst mit drei Kameras 3D-Bilder ihrer Umgebung und wurde ursprünglich zum Steuern der Xbox-Spielekonsole entwickelt. "Das Revolutionäre daran ist, dass man eine Art Tiefenscanner für 150 Dollar bekommt", so Spielmann. "Im Vergleich zu herkömmlichen Systemen, die mehrere Zehntausend Euro kosten können, ist das unglaublich günstig."

Ein weiterer Vorteil der Kinect: Für die Bewegungserfassung ist kein eigenes Studio mehr nötig. Was damit möglich ist, zeigten die Ludwigsburger Forscher auf einer Feier zum 60. Jubiläum des Landes Baden-Württemberg. Dort parlierte ein Moderator auf offener Bühne per Video-Schalte mit einem Comic-Avatar des Ministerpräsidenten Winfried Kretschmann. Bewegung und Stimme verlieh ihm der Schauspieler Dominik Kuhn. Zwei Kinect-Konsolen erfassten dessen Mimik und Gesten – irgendwelche Markierungspunkte musste er sich dazu nicht ins Gesicht kleben. Dank des FACS-Systems reichten die relativ ungenau arbeitenden Kinects aus, die Mimik des Schauspielers zu entschlüsseln und auf das digitale Modell zu übertragen.

Wird die digitale Produktion Schauspieler überflüssig machen? Diesen Eindruck kann gewinnen, wer sich mit dem Projekt "Calliope" beschäftigt, an dem Spielmann und seine Kollegen beteiligt sind. Sie entwickeln eine ebenfalls auf FACS aufbauende Software, mit der Computeranimatoren per Knopfdruck einen bestimmten Gesichtsausdruck auf einen digitalen Kopf zaubern können. Bisher mussten sie, um etwa ein Lachen zu erzeugen, jede Bewegung von Augen und Mund einzeln modellieren. "Jetzt kann ich jede Mimik rekonstruieren", so Spielmann. "Das geht bis zu einer Rötung der Haut oder zur Absonderung von Tränenflüssigkeit."

Die Ludwigsburger arbeiten bereits an virtuellen Charakteren, die zum Beispiel Gedichte mit den dazu passenden Gesichtsausdrücken vortragen, ohne dass ein Animator seine Maus im Spiel hat. In einer in Handarbeit angelegten Datenbank steht, welche Schlüsselwörter für welche Emotionen stehen. Bei Rilke sollte die Software beispielsweise auf traurig oder einsam schalten, anschließend die entsprechenden Action Units aus der Datenbank fischen und auf den virtuellen Vorleser übertragen. Die Vision dahinter: Man speist nur noch ein Drehbuch ins System, und eine Software animiert automatisch die passende Mimik.

Bisher arbeitet das System der Ludwigsburger mit comichaften Charakteren. Bis in die letzte Hautpore realistische Menschenmodelle lassen sich auch schon virtuell gestalten. "Am Rechner erzeugte Bilder von Menschen sind schon so weit, dass man sie von einer echten Person nicht unterscheiden kann", sagt Nils Hasler. Doch die Computeranimation kann mit dieser Perfektion noch nicht mithalten. "Sobald sich die digitalen Wesen bewegen, sieht man, dass irgendetwas komisch ist", so Hasler. Schauspielspezialisten wie Andy Serkis brauchen also vorerst keine Angst um ihren Job zu haben. (grh)