Akustisches Holodeck
Klangprojektionen über virtuell verknüpfte Schallräume
Selbst über hunderte Kilometer lassen sich Räume akustisch plausibel verbinden. Diese Technik soll Besuchern in Zukunft den Eindruck vermitteln, einander direkt zu begegnen. Forscher der Leibniz-Uni Hannover arbeiten an einem Übertragungssystem, das diese Illusion erzeugen soll.
Es ist die Immersion, die den Unterschied zwischen einer faden Videokonferenz und dem Eintauchen in ein herzliches Familientreffen macht. Eine politische Diskussion im Vereinshaus wird zu einem immersiven Erlebnis, wenn der Teilnehmer übers Web viel mehr wahrnimmt als nur die Stimme eines Redners. Das Ziel der Forscher am Institut für Kommunikationstechnik (IKT) an der Leibniz-Universität Hannover ist es, Räume akustisch so miteinander zu koppeln, dass eine plausible Gesamtraum-Akustik entsteht. Außerdem lässt sich dieser Effekt visuell unterstützen. So kann der Teilnehmer wenigstens mit zwei Sinnen in eine gemeinsame Situation mit anderen eintauchen, sei es eine kulturelle Veranstaltung in der nächsten Stadt, eine intensive Onlinebesprechung oder ein immersives Gaming-Konzept der Zukunft.
Der Ansatz der IKT-Forscher ist das Virtual Window: Zwei entfernte Räume haben jeweils an einer Wand einen großen Bildschirm oder eine Leinwandprojektion, die den Blick in den anderen Raum eröffnen. Um die Illusion zweier benachbarter Räume mit einem großen Fenster zu stärken, soll die Projektion aus jedem Winkel einen perspektivisch korrekten Blick in den Nachbarraum darstellen. Vor allem aber streben die Forscher eine gemeinsame Raumakustik an, die der eines entsprechend vergrößerten Gesamtraumes entspricht.
Audioszenen aus 46 Lautsprechern
Im sogenannten Immersive Media Lab (IML) des Instituts haben die Forscher in einem 30-Quadratmeter-Raum 46 Lautsprecher verbaut, davon 42 Zwei-Wege-Studiomonitore vom Typ Neumann KH 120A als Satellitenlautsprecher und vier Subwoofer KH 810G. An bis zu drei Seiten des Raumes können sie akustisch transparente Leinwände ausfahren und diese über ein Videoprojektionssystem bespielen. Die Leinwände selbst sind fein perforiert und akustisch vermessen; störende Resteffekte lassen sich durch ein voreingestelltes Equalizing egalisieren.
Ein Tracking-System erfasst die Position und die Blickrichtung der Personen im Lab. So wird es möglich, dem Betrachter auf der Leinwand eine an seinen Standort angepasste Perspektive darzustellen. Bei mehreren Teilnehmern tritt damit allerdings das auch aus anderen CAVE-Anwendungen (Cave Automatic Virtual Environment, ein rekursives Akronym für virtuelle Umgebungen) bekannte Problem auf, dass nur ein Teilnehmer die korrekte Perspektive sieht. Zusätzlich ist im IML auch die Projektion auf VR-Brillen möglich.
Für seine Forschungen hat das Team um Professor Dr. Jürgen Peissig zunächst ein einseitiges Virtual Window aufgebaut. Auf der Leinwand beziehungsweise hinter dem virtuellen Fenster erscheint damit ein virtueller Raum. Das heißt, der zweite Raum samt seiner akustischen Eigenschaften ist vollständig simuliert. Für die Darstellung der virtuellen Umgebung kommt die Unreal Engine des Spieleentwicklers Epic Games zum Einsatz. Zusätzlich stellt diese beteiligte Personen im virtuellen Raum als simulierte Avatare dar.
„Das Tracking und die Arbeit mit Avataren hat den Vorteil, dass es bei der digitalen Übertragung mit geringer Bandbreite und Latenz zu realisieren ist“, erläutert Dr.-Ing. Stephan Preihs. Die Übertragung der Metadaten zwischen zwei Räumen erfordert viel weniger Netzwerkressourcen als das Streaming von Kamerabildern. Selbst wenn es heute Videocodecs mit geringen Latenzen gibt, so erfordert doch die Kameraerfassung sowie das Kodieren und Dekodieren in Summe schon eine verhältnismäßig hohe Berechnungszeit und damit Verzögerung zusätzlich zur Übertragungszeit. Diese lässt sich mit Avataren drastisch reduzieren.
Das Trackingsystem liefert mit zwei bis drei Millisekunden Latenz die Trackingdaten, und diese Parameter zu streamen, ist ebenfalls nicht aufwendig. Ebenso erfordert das Bild-Rendering in der Unreal Engine nur wenig Prozessorzeit. „Wir sehen in diesem Entwurf einen gangbaren Weg, um das Latenzproblem auf der Videoseite zu umgehen.“ Entscheidend für die Frage „Videostream oder virtueller Raum mit Avataren?“ ist letztlich die Interface Awareness des Anwenders, also ob die Technik das immersive Erlebnis unterstützt oder etwa stört.
3D-Eindruck im Sweet Spot
Ihr Hauptaugenmerk legen die Forscher am IKT allerdings auf die akustische Verknüpfung von Räumen. Als Königsdisziplin betrachten sie die audiovisuelle Verknüpfung gemeinsam spielender Musiker. In diesem Szenario sind die Ansprüche an die Audioqualität am höchsten.
Derzeit stehen zwei Aufnahmekonzepte im Wettstreit. Das eine heißt Close-up-Miking: Personen in der Cave tragen beispielsweise ein Headset oder ein Mikro direkt an ihrem Musikinstrument. „In Kombination mit dem Tracking und der Richtungsinformation sowie der nachhallarmen Abnahme des Sounds kann man dann ein sauberes Rendering machen“, erklärt Marcel Nophut vom IKT im c’t-Gespräch.
Das zweite Konzept geht von einer Schallfeldaufnahme aus. Dabei wird die Schallszene im Raum mit einem sphärischen Mikrofon-Array aufgenommen. Dieses Klangfeld rechnet ein Decoder auf die Kanäle der zur Verfügung stehenden Lautsprecher um. Für diese Zwecke nutzt das IML das Eigenmike von MH Acoustics. Mit seinen 32 Mikrofonkapseln, die sich gleichmäßig über den kugelförmigen Korpus verteilen, erlaubt es die 360-Grad-Aufnahme im Ambisonics-Format höherer Ordnung.
In beiden Fällen, mit Close-up-Miking oder Schallfeldaufnahme, bezieht das abschließende Audio-Rendering sowohl den Standort des Hörers als auch die Raumarchitektur und den Nachhall ein. Bei der Ansteuerung der Lautsprecher im verbundenen Raum handelt es sich in beiden Fällen um ein Ambisonics-Rendering, also die Erzeugung eines räumlichen Schallfeldes. Wie frühere Forschungsarbeiten zeigen, spricht dieses anders als etwa Stereo- oder Surround-Sound nicht nur einen engen Sweet Spot an, sondern bietet eine größere Sweet Area. Der Hörer kann sich also innerhalb des Aufbaus frei bewegen, ohne dass das seinen räumlichen akustischen Eindruck allzu sehr verfälscht.
Das Audio-Rendering spricht alle Lautsprecher an oder nur ausgewählte Teilmengen. Ein Ziel der Forscher ist es, die tatsächlich erforderliche Anzahl von Mikrofonen und Lautsprechern für verschiedene Anwendungen zu ermitteln, mit der bereits eine plausible, natürlich wirkende audiovisuelle Raumkopplung gelingt.
Echos in gekoppelten Räumen
Ein wesentliches Problem bei der akustischen Verbindung zweier Standorte sind Echos und damit im schlimmsten Fall sogar Rückkopplungen. Um diese Effekte zurückzudrängen, arbeitet Nophut an einer adaptiven Echokompensation, die Schallreflexionen und Nachhall abschätzt, um damit die Echoeffekte aus dem Audio-Rendering herauszufiltern. Das erweist sich bei reinen Sprachanwendungen mit wenigen Lautsprecherkanälen als wesentlich einfacher im Vergleich zu komplexeren Geräuschkulissen.
Tatsächlich ist die Multikanal-Echocancellation im Ambisonics-Wellenfeld eines dreidimensionalen Raumes mathematisch nicht eindeutig lösbar, wie Nophut zugesteht. Trotzdem gibt es Verfahren, um auf eine gute Echounterdrückung zu kommen. In seiner jüngsten Arbeit schätzen Filtersysteme nicht die Übertragungspfade von jedem Lautsprecher zu jedem Mikrofon (Point-to-point-Matrix), sondern übergreifend zwischen den Ambisonics-Kanälen. Dazu muss man die Anordnung von Lautsprechern und Mikrofonkapseln in der Raumgeometrie und die Nachhallzeit zuvor genau bestimmen; im IML beispielsweise ist eine Nachhallzeit von 300 Millisekunden zu berücksichtigen.
Um die virtuelle Raumgeometrie zu erstellen, und auch das reale Tonstudio zu virtualisieren, nutzen die Forscher den Modeler Max von Cycling ’74. Ein Virtual Acoustic Rendering errechnet den Höreindruck bezogen auf die Klangquellen und den Standort des Betrachters und berücksichtigt dabei die Raumarchitektur und den Nachhall. Für diesen Schritt setzt man am IKT auf Ambisonics-Plug-ins der Universität Graz und der finnischen Aalto-Universität.
In den virtuell simulierten Räumen mussten sich die betrachteten Filtersysteme zur Echokompensation zuerst bewähren. Erfolgreiche Ansätze maßen die Forscher später in der Realität des IML nach, wobei die simulierten Ergebnisse nur um wenige Prozent abwichen. Die Echokompensation erreichte Dämpfungserfolge bis zu 30 Dezibel. Ob sie damit subjektiv vollständig überzeugt, müssen noch Versuche mit Testhörern belegen, die die Corona-Krise zeitweise erschwert hat.
Aktuell erforscht Nophut die Echokompensation beim Einsatz von Close-up-Mikrofonen. Bei dieser Konfiguration sind zwar zunächst nur die Echosignale an einem Mikrofon zu berücksichtigen, aber dessen Träger kann sich frei im Raum bewegen und das System muss die Schätzung der Übertragungswege ständig neu berechnen.
Beide Konfigurationen, sowohl das sphärische Mikrofon-Array als auch der Einsatz von Close-up-Mikrofonen, lassen sich übrigens auf mehrere Akteure im Raum erweitern. Im ersten Fall ist die Anzahl der Geräuschquellen nicht wesentlich, weil das Mikrofon-Array ohnehin ein Schallfeld aufnimmt. Im zweiten Fall kommt für jedes zusätzliche Mikrofon im Raum ein weiteres Rendering hinzu, das parallel berechnet wird. Somit ist auch dieses Konzept skalierbar.
600 Kilometer überwunden
Die akustische Raumsimulation ist aber nur die halbe Miete. Sollen die virtuell gekoppelten Räume auch für Musikproben oder gemeinsame Konzerte taugen, müssen die Daten zwischen Räumen möglichst verzögerungsfrei übertragen werden. Wie eng bereits heute professionelle Musiker aus zwei verschiedenen Städten über das Internet miteinander musizieren können, zeigten die Forscher mit Industriepartnern im Projekt LIPS (Live interactive PMSE Services). Sieben Partnerinstitute und Unternehmen verfeinerten Audio- und Videoübertragungstechnik für Produktionen und Events (PMSE, Programme Making and Special Events), um Musiker in München und am Sennheiser-Standort im niedersächsischen Wennebostel für ein gemeinsames Konzert audiovisuell zusammenzubringen. Die Distanz zwischen beiden Orten beträgt etwa 600 Kilometer.
Während sich aber Bandbreite bei einem Internet Service Provider nach Bedarf buchen lässt, bleiben die Ursachen für Latenz wie etwa dynamisch gewählte Internetpfade, Routingverfahren oder die Zahl der Hops und Switches eine große Unbekannte. Zudem haben die Forscher bei zeitkritischen Anwendungen nicht nur die durchschnittliche Latenz einzuberechnen, sondern zusätzlich kurzzeitigen Jitter (Taktzittern) sowie Packet Loss und Asymmetrie in der Verbindung zweier Standorte.
Die beteiligten Forscher des Audiospezialisten Sennheiser entwickelten eigens ein Interface, um die Mischpulte an zwei verknüpften Standorten über ein WAN zu verbinden. Ihre Rapid-Prototyping-Plattform namens Audio Network Transmission (ANT) umfasst jeweils vier Ein- und Ausgänge für High-Quality-Analog-Audio sowie zwei Kopfhörer-Ausgänge und eine Ethernet-Schnittstelle. Ob diese schnelle Übertragungsbox zu einem Kaufprodukt weiterentwickelt wird, verrät Sennheiser derzeit nicht.
Auf drei Meter herangerückt
Mit diesem Interface lässt sich die Gerätelatenz schon sehr genau abschätzen. Für jedes Mischpult veranschlagen die Audiospezialisten etwa 850 Mikrosekunden. Im ANT verursacht der Analog-Digital-Wandler eine Verzögerung von 125 Mikrosekunden. Für den Datentransfer setzte Sennheiser auf eine Paketgröße von 500 Mikrosekunden, da kleinere Paketgrößen einen höheren Netzwerk-Overhead erzeugen würden. Im Empfänger-ANT ist ein Jitter-Puffer vorgesehen. Die anschließende Maskierung von Datenpaketverlusten, die angesichts unsicherer Netzwerkprotokolle erforderlich ist, beansprucht 21 Mikrosekunden und der abschließende Digital-Analogwandler nochmals 125 Mikrosekunden. Rechnet man alles zusammen, so beträgt die reine Gerätelatenz ohne die Netzübertragung und auch noch ohne Jitter-Puffer etwa 2,5 Millisekunden.
Nun kam es auf die Netzwerkdaten an. Das Team mietete eine Glasfaserleitung mit einer Bandbreite von 1 Gigabit pro Sekunde und maß eine zweistündige Musikerprobe mit sechs unkomprimierten Audiokanälen durch, 9,5 Megabit pro Sekunde in beide Richtungen. Die Latenz lag bei etwa 5 Millisekunden und der Jitter streute die Datenpakete in einem Rahmen von 0,6 Millisekunden. Bei der Leitung handelte es sich um eine Ende-zu-Ende-Verbindung; ein teures Vergnügen, das so im öffentlichen Internet nicht funktioniert hätte.
Mit Sicherheitszugabe sahen die Entwickler für den Jitter-Puffer eine ganze Millisekunde vor, so dass für die reine Netzwerkübertragung sechs Millisekunden zu veranschlagen waren. Gemeinsam mit der zuvor berechneten Gerätelatenz ergibt das 8,5 Millisekunden. Das entspricht bei herkömmlichen Treffen einem Abstand von knapp drei Metern, damit können Musiker ganz sicher gemeinsam spielen.
Man sieht sich
Aber eine rein akustische Verbindung, selbst mit High-Quality-Audio, ist noch nicht immersiv. Um die Beteiligten auch optisch in einen gemeinsamen Raum zu bringen, planten Techniker des Filmausrüsters ARRI die Übertragung von Bild- und Beleuchtungsdaten. Ihre Grundüberlegung: Beide Räume sind symmetrisch aufzubauen. Soweit möglich sollte natürliches Licht erhalten bleiben. Neben den Scheinwerfern, die die Szene ausleuchten, kommen vor allem in der Nähe von Fenstern auch sogenannte Diffusoren zum Einsatz, die das Umgebungslicht in den verknüpften Räumen angleichen.
Die Beleuchtungsspezialisten platzierten an beiden Standorten jeweils zwei IP-fähige Spektrometer mit 360-Grad-Sichtfeld. Da die Spektrometer immer eine Kombination aus natürlichem und künstlichem Licht messen, ist die Anpassung der Lichtverhältnisse in den verknüpften Räumen ein kontinuierlicher Kalibrierungsprozess. Für die Videokomprimierung kam ProRes zum Einsatz, ein HD-fähiges Intraframe-Format. Bei einer Full-HD-Auflösung mit 50 Bildern pro Sekunde progressiv, also ohne datensparendes Zeilensprungverfahren, entsteht so eine Streaming-Bitrate von 500 Megabit pro Sekunde in jede Richtung.
Im LIPS-Abschlusskonzert im vergangenen Oktober litt insbesondere die Bildübertragung unter einer Latenz von etwa 150 Millisekunden. Damit waren die Musiker zwar noch in der Lage, gemeinsam anspruchsvoll zu spielen, aber die deutliche Bildverzögerung stört schon das unmittelbare gemeinsame Erlebnis, wenn man miteinander spricht oder beispielsweise auf Handsignale oder Blickkontakt achtet. Da könnte in Zukunft eine Lösung mit virtuell nachgebauten Räumen und Avataren eine Bandbreite-sparende sinnvolle Alternative sein. (agr@ct.de)