So funktioniert Ciscos neuer Webex AI Codec

Ist die Verbindung nicht optimal, litt bei Webex bislang die Gesprächsqualität arg. Jetzt schließt Cisco mit einem neuen KI-Codec zu Microsoft und Google auf.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Ein Schnurtelefon von der Seite, ein Arm im weißem Hemd hält den Hörer hoch.

(Bild: Gajus/Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Benjamin Pfister

Echtzeitapplikationen wie Telefonie und Webmeetings mit Audio- und Videoübertragungen haben spezielle Anforderungen an die Datenübertragung. Gerade in zunehmend hybriden Arbeitsumgebungen von unterschiedlichen Standorten oder auch unterwegs führen schwierige Netzwerkbedingungen oft zu einer schlechten Audioqualität. Hierfür hat Cisco jetzt einen KI-Audiocodec veröffentlicht, der mit extrem geringen Bandbreiten und auch bei hohen Paketverlustraten noch gute Gesprächsqualität ermöglichen soll. Er ist ab sofort in Webex Meetings und Webex Calling offiziell verfügbar.

Abgehackter Ton und unverständliche Sprache durch Verzerrungen sind die Auswirkungen von hohen Paketverlustraten, hohem Jitter oder zu starker Verzögerung der Datenübertragung. Aktuelle Audiotechniken, etwa die Verschleierung von Paketverlusten, gehen nicht ausreichend auf Szenarien mit hohen Paketverlusten ein. KI-Algorithmen sollen dies nun laut Cisco verbessern.

Der Begriff Codec kombiniert die Worte Kodierer und Dekodierer: Der Kodierer komprimiert die analoge Audiowellenform auf eine bestimmte Bitrate, während der Decoder die Wellenform auf der Empfangsseite rekonstruiert. Das Ziel der Audiokodierung ist die Komprimierung von Audiodaten innerhalb eines bestimmten Bitratenbudgets, die über ein Mikrofon aufgenommen wurden, sowie die Rekonstruktion auf der Empfangsseite, die den originären Audiodaten so nahe wie möglich kommt.

In Echtzeit-Kommunikationssystemen wird das aufgenommene Audio typischerweise in Frames unterteilt. Im Nachgang werden diese vom Codec komprimiert und vor der Übertragung über eine Netzwerkverbindung paketiert. Bei typischen Audiocodecs wie G.711a-Law geschieht dies alle 20 Millisekunden. Die Übertragung erfolgt über das ungesicherte UDP und die erfolgreiche Übermittlung dieser Audiopakete hängt von der Stabilität und Zuverlässigkeit der Netzverbindung ab, die nicht immer garantiert werden kann.

Bisher erfolgte für den Fall von verlorenen Paketen in einigen Fällen noch ein Packet Loss Concealment (PLC), also eine Maskierung von Paketverlusten – konkret durch Wiederholung der Audiodaten der letzten erfolgreich empfangenen Pakete, das Ersetzen verlorener Pakete durch Stille oder Rekonstruktion von plausiblem Füll-Audio auf der Grundlage typischer Sprachmuster. Eine Wiederholung ist bei Echtzeit-Übertragungen jedoch nicht sinnvoll, da die Latenz dann zu hoch ist.

Bei schlechter Netzwerkqualität mit einem Paketverlust von über 30 Prozent soll gemäß Ciscos Aussagen die Webex-App auf dem Desktop oder Mobiltelefon automatisch den Webex AI Codec zuschalten, um die Qualität zu erhöhen. Die Grundidee ist die Codierung der Sprachdaten mit einer sehr niedrigen Bitrate (6 Kbit/s), sowie Übertragung der Kopien von vorherigen Frames, die mit noch niedrigerer Bitrate (1 Kbit/s) stattfinden.

Die Vektorquantisierung beschreibt ein Verfahren zur Identifikation von Datensätzen, die wiederum in Merkmalsvektoren zusammengefasst werden. Selbstlernende Vektorquantisierung ist ein Verfahren aus dem Bereich der künstlichen neuronalen Netze. Eine mehrstufige VQ (Residual VQ) verwendet mehrere VQ-Schichten, von denen jede das Restsignal aus der vorherigen Schicht aufnimmt, um es sequenziell weiter zu quantisieren. Im Webex AI Codec verwendet Cisco nach eigenen Aussagen eine mehrstufige VQ, um die Sprachdaten vor der Übertragung noch weiter zu komprimieren und folglich Inhalte mit minimalen Bitraten zu übertragen.

Um das neuronale Codec-System zu trainieren, injizierte Cisco nach eigenen Angaben verschiedene Artefakte in saubere Sprachsignale, darunter Hintergrundrauschen, Nachhall, Bandbegrenzung, Paketverluste und andere Besonderheiten. Es kamen wohl mehr als 10.000 Stunden sauberer Sprach- und Rauschproben für das Training zum Einsatz. Das soll eine breite Basis für das Modell bieten. Der Audio-Encoder soll wiederum ein tiefes neuronales Netzwerk nutzen, um einen umfassenden Satz von Merkmalen zu extrahieren, etwa komplexe Merkmale von Sprache und Hintergrundgeräuschen gemeinsam oder getrennt. Die extrahierten Sprachmerkmale sollen Attribute wie Lautstärke, Tonhöhenmodulation und Akzente enthalten. Der neuronale Encoder lernt und verfeinert seine Merkmalsextraktion anhand umfangreicher und vielfältiger Datensätze, was die Darstellung verbessern soll. Der Codec soll das aus Webex Meetings bekannte Feature zur Hintergrundgeräuschunterdrückung ergänzen.

Mehr technische Details zum Webex AI Codec finden sich in einem Whitepaper von Cisco.

(fo)