MPEG-H 3D Audio: Fraunhofer experimentiert mit 3D- und VR-Sound

Im Rahmen des europäischen Forschungsprogramms Orpheus demonstrierten Entwickler auf der Tonmeistertagung in Köln die neuesten Werkzeuge zur Bearbeitung und Ausgabe objektbasierter Audio-Produktionen.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
MPEG-H 3D Audio: Fraunhofer und IRT zeigen neue Tools für 3D- und VR-Sound

(Bild: BBC)

Lesezeit: 7 Min.
Inhaltsverzeichnis

Bei der Auswahl an Surround-Anlagen kann man schon mal den Überblick verlieren: Die Spannweite reicht von 5.1 bis 22.2, nimmt man noch Spezialinstallationen in Theatern hinzu, können es auch schon mal über 60 Kanäle werden. Mit bisherigen Produktionsmethoden aus dem Audio-Bereich wäre es quasi unmöglich, alle diese Plattformen zu bedienen, denn für jede Lautsprecher-Anordnung müsste ein eigener Mix erstellt werden.

Deshalb lösen sich 3D-Audio-Produktionen davon, ihre Werke für eine bestimmte Anzahl von Ausgabe-Kanälen zu rendern. Statt dessen platzieren sie eine nahezu beliebige Anzahl von Klängen als virtuelle Audio-Objekte frei im Raum, und ordnen über Metadaten jedem dieser Objekte eine Lautstärke und Raumposition zu, die sich auch dynamisch ändern können.

Gespeichert werden diese Audio-Streams samt ihrer Metadaten beispielsweise im Format MPEG-H 3D Audio, das vom Fraunhofer IIS gemeinsam mit Technicolor/Orange Labs entwickelt wurde. Abspielgeräte, die einen Datenstrom in MPEG-H 3D Audio empfangen, müssen die Audio-Objekte anhand der Positionsdaten dann in Echtzeit für ihr jeweiliges Lautsprecher-Setup rendern. Alternativ ist auch eine binaurale Ausgabe für Stereo-Kopfhörer möglich.

Objektbasierte Audio-Produktion (8 Bilder)

So stellen sich die Forscher im Orpheus-Projekt das neue Produktions-Schema einer Fernseh- und Radiostation vor, wenn sie auf eine objektbasierte Verarbeitung umgestellt wurde.
(Bild: Fraunhofer IIS)

Auf der Tonmeistertagung in Köln stellte das Fraunhover IIS das europäische Forschungsprojekt Orpheus vor, in dem rund ein Dutzend Firmen aus allen Bereichen der Audio-Produktion nach Konzepten suchen, wie künftig objektbasierte Produktionen für den Bereich der Rundfunk- und Fernsehübertragung, aber auch für Internet-Angebote genutzt werden können.

Während 3D-Audio-Formate wie Dolby Atmos und DTS:X im Bereich der Filmproduktion bereits etabliert sind, übertragen Rundfunk und Fernsehern oft live und haben keine Zeit für eine aufwendige Vorproduktion. Zudem müssen für den MPEG-H-Empfang auch die Endgeräte nachgerüstet werden, denn sie müssen die Audio-Daten nicht nur empfangen und dekodieren, sondern auch für ihr Lautsprecher-Setup rendern. Zum Probebetrieb hat die BBC bereits ein Test-Studio mit der nötigen Technik für die Verarbeitung objektbasierter Audio-Daten umgestellt (siehe Titelbild). Statt über analoge Audio-Kabel werden die Daten dabei nur noch über IP-Netzwerke übertragen. Viel Zeit bleibt den Sendern für die Umstellung nicht, denn bereits die Olympischen Winterspiele 2018 in Pyeongchang (Südkorea) sollen in MPEG-H übertragen werden.

Doch MPEG-H ist ist nicht nur für 3D-Audio vorgesehen, sondern soll Zuschauern und Zuhörern eine größere Flexibilität bieten, was beispielsweise die Auswahl der Kommentatoren angeht. So soll man aus einem Stream verschiedene Sprachen wählen oder die Lautstärke des Kommentars im Vergleich zu den Umgebungsgeräuschen lauter oder leiser drehen können.

Am leichtesten wird sich dies wohl mit MPEG-H-fähgen Abspielprogrammen für Browser umsetzen lassen. So hat das Institut für Rundfunktechnik (IRT) bereits einen auf HTML5 basierenden Open-Source-Renderer veröffentlicht, der den Ton von 360-Grad-Videos mit MPEG-H-3D-Sound ausgeben kann und in Verbindung mit Smartphone-VR-Geräten auf Head Tracking reagiert.

Da beim Rendering für die binaurale Kopfhörer-Ausgabe jedoch die Audio-Quellen mit einem HRTF-Algoritmus gerendert werden müssen, benötigt der Player etwas mehr Ressourcen. Für eine möglichst reibungslose Wiedergabe empfiehlt Entwickler Michael Weitnauer vom IRT einen Firefox-Browser.

Alternativ dazu zeigte das Fraunhofer IIS seinen Audio-Renderer Cingo, der ebenfalls aus MPEG-H-Audio-Daten binaurale Kopfhörermixe rendern kann und bereits auf Smartphones wie dem Google Nexus, Samsungs Gear, LGs 360 VR HMD oder in der Hulu VR-App zum Einsatz kommt.

In Köln demonstrierte das Fraunhofer IIS den dazu passenden Surround-Mixer Cingo Composer, mit dem sich 3D-Audiostreams für diese mobilen Geräte erstellen lassen. Das Cingo-VST-Plug-in kann man dazu in beliebige DAWs einbinden. Um die Rechenlast für mobile Geräte im Zaum zu halten, unterstützt der Cingo Composer derzeit nur 16 Audio-Objekte. Diese lassen sich auf verschiedene statische virtuelle Lautsprecher-Setups (beispielsweise 5.1 oder 7.1 mit 4 Höhenlautsprechern) sowie weitere dynamisch bewegbare Objekte verteilen. Das System ließe sich aber auch für große Festinstallationen nutzen. Die Zahl der Audio-Objekte und Ausgangskanäle könne man dazu leicht anpassen. Derzeit befindet sich das Plug-in in der Beta-Phase. Ob es vom Fraunhofer IIS irgendwann frei verfügbar oder an andere Hersteller lizenziert wird, steht noch nicht fest.

Der deutsche Hersteller Magix gab in Köln einen Ausblick auf die kommende Version seiner DAW Sequoia, die hauptsächlich im Broadcasting zum Einsatz kommt und sich bereits seit fast 20 Jahren auf die Verarbeitung von Audio-Objekten versteht. Derzeit arbeitet Magix an einer Alpha-Version von Sequoia 14, welches Audio-Streams und Metadaten der Objekte in MPEG-H verarbeiten und auf integrierte Renderer ausgeben soll.

Weniger für Rundfunkanstalten als für Theater, Openhäuser und Planetarien vorgesehen ist derweil der Spatial Sound Wave Mixer des Fraunhofer IDMT. Ebenfalls objektbasiert lassen sich mit ihm beliebig viele virtuelle Sound-Quellen und Lautsprecher-Setups für Sourround-Anlagen mit Höhenlautsprechern oder aber Installationen zur Wellenfeld-Synthese einsetzen. Letztere hat das Fraunhofer IDMT beispielsweise in einen Audi Q7 eingebaut, der den Innenraum mit 62 Lautsprechern beschallt. Der Vorteil der Wellenfeld-Synthese ist dabei, dass es keines Sweet-Spots bedarf, in dem man die Sourround-Klänge besonders gut wahrnehmen kann, sondern alle Insassen auf ihren Plätzen in den Genuss des dreidimensionalen Rundumklangs kommen. Bislang ist der Audio Q7 noch ein Prototyp und Mitarbeiter des Fraunhofer Instituts gaben keine Auskünfte, ob und wann ein Autohersteller ihr System in einem Verkaufsmodell anbieten wird.

Die Spatial Sound Wave Mixer wird derweil nicht von Fraunhofer direkt verkauft, sondern fließt in Produkte anderer Hersteller ein. Einer der ersten Anbieter ist beispielsweise Astro Spatial Audio, die den Mixer zur Steuerung von Großinstallatione für Planetarien und Festspielhäuser vermarkten.

Bei der Vorführung all dieser objektbasierten Surround-Systeme stellte sich bei einigen Tonmeistern in Köln die Frage, wieviel Kontrolle sie über den Endmix abgeben, da dieser ja erst auf dem Abspielsystem gerendert wird. So ist für die räumliche Wiedergabe auch stets ein künstlicher Hallraum nötig, in dem die virtuellen Objekte platziert werden. Dazu bot Fraunhofer in ersten Ansätzen noch eigene verschiedene Standard-Reverb-Algoritmen an, die dann auf dem Endgerät gerendert wurden. Mittlerweile sehen sie jedoch davon ab, weil die meisten Produzenten lieber ihre eigenen Reverb-Plug-ins nutzen, die sie bereits aus dem Produktionsalltag kennen. Diese vorproduzierten Reverb-Klänge werden dann über virtuelle Lautsprecher zugemischt.

Zwar sollen die Ausgabegeräte auch den Frequenzgang eines MPEG-H-Mixes auf die jeweiligen Lautsprecher optimieren. Ob das am Ende jedoch besser klingt, als wenn ein Mix auf konkrete Kanalkonfigurationen gemastert wird, muss sich erst noch zeigen. Dazu werden Produzenten noch Erfahrungen mit den neuen Produktionswerkzeugen sammeln, Veranstaltungshäuser müssen ihre Beschallungssysteme anpassen und Endverbraucher sich neue Abspielgeräte anschaffen – ein weiter Weg also. (hag)