KI-Headset ermöglicht gezieltes Zuhören einer Person

Sich bei einem Gespräch auf eine einzelne Stimme zu konzentrieren, kann in lauten Umgebungen schwierig sein. Eine KI in einem Headset kann dabei helfen.

47

Das KI-Headset der University of Washington kann eine einzelne Stimme aus einem Gesprächswirrwar heraushören.

(Bild: Kiyomi Taguchi / University of Washington)

27.05.2024, 16:54 Uhr

Lesezeit: 3 Min.

Von

Oliver Bünte

Ein Wissenschaftsteam der University of Washington (UW) hat ein Headset mit einem KI-basierten System aufgerüstet, um damit einer Person in einer Menschenmenge gezielt zuhören zu können. Das funktioniert in Echtzeit, in Bewegung und in lauten Umgebungen.

Das Headset beschreiben die Wissenschaftler in der Studie "Look Once to Hear: Target Speech Hearing with Noisy Examples", die sie in Proceedings of the CHI Conference on Human Factors in Computing Systems veröffentlichten. Es soll der KI ermöglichen, einer sprechenden Person für etwa drei bis fünf Sekunden lang zuzuhören, um deren Stimme registrieren zu können. Danach würde das System mit der Bezeichnung Target Speech Hearing (TSH) alle anderen Geräusche in der Umgebung ausblenden und lediglich die Stimme des geloggten Menschen in Echtzeit wiedergeben. Dabei spielt es nach Angaben der Forscher keine Rolle, ob sich der Mensch bewegt, noch zu sehen ist und ob die Umgebung laut ist.

"Mit unseren Geräten kann man nun einen einzelnen Sprecher klar und deutlich hören, auch wenn man sich in einer lauten Umgebung befindet, in der viele andere Menschen sprechen", sagt Shyam Gollakota, Professor an der Paul G. Allen School of Computer Science & Engineering.

KI lernt Erkennen einer Stimme

Zur Nutzung muss eine Person das Headset lediglich tragen und ihren Kopf auf eine sprechende Person ausrichten. Dann reicht es aus, einen Knopf zu drücken, damit sich das KI-System auf den Sprecher konzentrieren und ihn erkennen kann. Das System basiert darauf, dass die Schallwellen der Stimme des Sprechers die Mikrofone auf beiden Seiten des Kopfhörers gleichzeitig erreichen. Zulässig ist dabei eine Fehlertoleranz von 16 Grad. Das aufgefangene Audiosignal sendet das Headset an einen integrierten Computer. Mittels maschinellen Lernens analysiert eine Software das Stimmmuster des angepeilten Sprechers und kann sich dadurch dessen Stimme merken.

Die Stimme gibt das System dann über den Kopfhörer in Echtzeit wieder. Das soll nach Angaben der Forscher auch dann ein gut verständliches Ergebnis liefern, wenn sich der Sprecher oder der Zuhörer bewegen. Die Erkennungsleistung verbessert sich, je länger das System dem registrierten Sprecher zuhören und dabei Trainingsdaten sammeln kann.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das Video zeigt die Funktion des "Target Speech Hearing"-Headsets.

Die Forscher testeten das System mit insgesamt 21 Probanden. Sie bewerteten jeweils die Klarheit der Stimme des Sprechers durchschnittlich doppelt so gut wie die ungefilterten Audiodaten.

Einige kleinere Probleme habe das System aber noch, räumen die Forscher ein: So könne es nur einen einzelnen Sprecher registrieren und auch nur dann, wenn aus der gleichen Richtung keine andere laute Stimme kommt. Es sei aber möglich, eine erneute Registrierung durchzuführen, um etwa die Klangqualität zu verbessern.

Das Forschungsteam will die Ergebnisse nun dazu nutzen, um sie auf Hörgeräte anzuwenden. Die Wissenschaftler versprechen sich dadurch, dass hörbeeinträchtigte Menschen gezielter einzelnen Sprechern zuhören können.

Lesen Sie auch

AirPods Pro 2 als Hörhilfe konfigurieren

(olb)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}