Nvidia: Bessere Videokonferenzen dank KI

Nvidias Maxine-Plattform verspricht eine höhere Auflösung, bessere Bilder und intelligente Zusatzdienste bei niedrigerer Bandbreite.

12

Das Gesicht wird aus wenigen Schlüsselpunkten zurückgerechnet.

(Bild: Nvidia)

06.10.2020, 15:00 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Dr. Oliver Diedrich

Nvidia will mit KI-Funktionen Videokonferenzen besser machen. Die Maxine-Plattform, die in der Cloud auf Nvidia-GPUs läuft, bietet den Entwicklern von Videodiensten dazu zahlreiche Optionen. So soll es möglich sein, den Bandbreitenbedarf eines Videostreams auf bis zu ein Zehntel von H.264 zu verringern.

Dazu reduziert die KI-Software die Gesichter im Video auf einzelne Schlüsselpunkte und überträgt diese zum Client, wo daraus dann wieder die ursprünglichen Gesichter errechnet werden. Umgekehrt kann die KI ein einen angelieferten Videostream mit geringer Auflösung hochrechnen und so für bessere Bildqualität sorgen.

Blickkorrekturen und animierte Avatare

Ein anderer Dienst der Maxine-Plattform korrigiert die Ausrichtung des Gesichts und die Blickrichtung, sodass sich die Gespärchspartner direkt anzusehen scheinen. Das verhindert den üblichen Effekt, dass die Teilnehmer aneinander vorbeischauen, weil sie während der Videokonferenz auf den Monitor sehen, statt in die Kamera über oder unter dem Display zu blicken. Animierte Avatare können lippensynchron die echten Gesichter ersetzen und sollen sogar den passenden Gesichtsausdruck aufsetzen können, indem die emotionale Tönung des Gesprochenen erkannt wird.

Von konkreterem Nutzen ist es, wenn das Videobild einem sich bewegenden Sprecher automatisch folgt oder Hintergrundgeräusche ausgeblendet werden. Ebenso hilfreich für den Alltag sind Funktionen zum simultanen Transkribieren und Übersetzen des Gesprochenen

.

Skalierung

Laut Nvidia sind die KI-Funktionen als Microservices in einem Kubernetes-Cluster implementiert, sodass sie sich nahezu beliebig skalieren lassen, wenn in einer Konferenz mal mehr Personen zusammenkommen als erwartet.

Entrwickler können die KI-Funktionen über verschiedene Schnittstellen nutzen: Nvidia Jarvis ist ein Framework für Sprachverarbeitung, Nvidias DeepStream SDK kümmert sich um Bilder und das TensorRT SDK ist für Deep Learning zuständig.