LIPS-Projekt lässt Musiker online zusammenspielen

Sie sitzen 500 Kilometer von­einander entfernt und musizieren zusammen. Das Abschlusskonzert des Projekts LIPS demonstriert, wie Bands online auf­treten können.

In Pocket speichern vorlesen Druckansicht 77 Kommentare lesen

Dank LIPS spielte eine fünfköpfige Jazzband in München und Hannover über Bildschirm und Kopfhörer zusammen, als stünden die Musiker auf derselben Bühne.

(Bild: c't)

Lesezeit: 4 Min.

Konzerte lassen sich zwar problemlos online an Zuhörer streamen. Aber damit Musiker getrennt voneinander gemeinsam auftreten und dabei im Takt spielen können, sollten die Signale möglichst verzugsfrei (latenzarm) übertragen werden, damit Musiker intuitiv darauf einrasten können. Einige Softwarefirmen haben bereits interessante Ansätze entwickelt, doch so richtig reibungslos funktionierte bisher keine Implementierung.

Um die Probleme zu überwinden, arbeitete ein Konsortium aus sieben Firmen, Instituten und Universitäten aus Deutschland seit April 2018 am LIPS-Projekt (Live Interactive PMSE Services). Das Ziel war, zwei getrennte Räume über Kameras, Bildschirme, Mikrofone und Lautsprecher so zu verbinden, dass die Personen in den Räumen das Gefühl haben, sie seien nur durch eine Glasscheibe getrennt.

Für die latenzarme Audioübertragung entwickelte Sennheiser eine Übertragungsbox namens ANT (Audio Network Transmission). Die ANT-Box wandelt vier analoge Audiokanäle mithilfe eines FPGA und eines ARM-SoC in einen Datenstrom und speist diesen per Ethernet ins Internet ein. Für die A/D- und anschließende D/A-Wandlung mit 48 kHz benötigen zwei ANT-Boxen als Sender und Empfänger lediglich 800 µs. "Wir mussten ein neues Protokoll entwickeln, da herkömmliche Methoden wie Dante oder AVB ungeeignet sind", erklärte ANT-Entwickler Dr. Jan Dürre gegenüber c’t.

Der Großteil der Gesamtlatenz entfällt aber auf das Internet. Über eine herkömmliche Internetverbindung erzielte Dürre immerhin Latenzen von rund 20 ms pro Richtung. Das wäre für Musiker noch im akzeptablen Bereich, der laut Dürre zwischen 8 und 25 ms liegt. Allerdings schwankt im Internet die Signallaufzeit je nach Auslastung der Strecke (Jitter) und überlasteten Routern können einzelne Pakete auch schon mal durchrutschen. Den Jitter kann man prinzipiell mit größeren Empfangspuffern ausbügeln, aber dann nimmt die Latenz zu und sprengt das Zeitbudget von 25 ms.

Deshalb mietete Sennheiser für LIPS eine Glasfaserleitung der Telekom, die symmetrisch, also in Sende- und Empfangsrichtung 1 GBit/s befördert. Allein der Einrichtungspreis betrug 7000 Euro, hinzu kam eine monatliche Gebühr von 1800 Euro. Allerdings lieferte sie auf der Strecke von Hannover nach München sehr gute Signallaufzeiten von 5 ms. Die Laufzeitschwankung (Jitter) betrug im Mittel nur 1 ms. Für das Konzert wurden Musiker in Hannover und München über je ein X32-Digitalmischpult von Behringer miteinander verkabelt, das weitere 850 µs Latenz erzeugte. Insgesamt konnten sich die Musiker so mit einer Verzögerung von nur 8,5 Millisekunden gegenseitig hören.

Die Bildinformationen zeichneten zwei Spezialkameras von ARRI auf. Eine Belichtungskontrolle sorgte für den Weißabgleich und passte die Beleuchtung für eine natürliche HDR-Wiedergabe auf einem OLED-Display an. Zur Übertragung wählte Arri den ProRes-Videocodec von Apple, der bei 50 fps in Full-HD eine Bandbreite von 650 MBit/s benötigt.

Die Video-Latenzen sind deutlich höher als die von Audiosignalen. Sie betrugen bis zu 150 Millisekunden. Das genügt für Absprachen der Musiker zwischen zwei Stücken. Wenn sie jedoch miteinander spielen und in einem Jazz-Solo spontan interagieren, dürfen sie sich nur an der Tonübertragung orientieren. "Ich kann nicht wie bei einer echten Live-Session auf die Bewegungen des Schlagzeugers schauen, sondern muss mich allein auf mein Gehör verlassen", erklärte eines der Bandmitglieder nach dem gelungenen Konzert mit vier Kollegen in München und Hannover.

Ob die ANT-Box von Sennheiser und das Kamerasystem von ARRI in Produktion gehen, wollten die Forscher nicht verraten. Derweil arbeitet ein Team um Marcel Nophut und Robert Hupke am Institut für Kommunikationstechnik der Uni Hannover bereits an der nächsten Stufe: Sie wollen zwei getrennte Räume über Ambisonics-Mikrofone dritter Ordnung und ein Array aus 16 Lautsprechern mit 3D-Sound verknüpfen, bei dem die gesamte Raumakustik realistisch übertragen wird.

Da eine Videoübertragung zu langsam wäre, setzen Nophut und Hupke auf Motion-Capturing-Kameras, die Bewegungen der Personen erfassen und auf digitale Avatare in der Unreal-Engine übertragen. Anschließend projizieren Beamer die Bilder auf wandfüllende Leinwände. Die Wissenschaftler wollen so Begegnungen in einer virtuellen Realität ermöglichen, für die man keine lästigen VR-Helme benötigt.

Mehr Infos

c't 24/2020

Dieser Artikel stammt aus c’t 24/2020. Darin liefert die c't-Redaktion eine ausführliche PC-Kaufberatung und Bauvorschlägen für den optimalen PC. Sie hat Partnerbörsen getestet und deckt die Tricks von Parship & Co. ebenso auf wie die Sicherheitslücke im online-Rettungssystem IVENA. c't 24/2020 ist ab sofort im Heise-Shop und am gut sortierten Zeitschriftenkiosk erhältlich.

(hag)