Entscheiden, welche Geräusche man hören möchte – dank neuer Kopfhörer

Die Entwickler trainierten ein neuronales Netz mit vielen Geräuschen. Damit wurde ihr Prototyp eines Kopfhörers mit Noise Cancelling und einer App möglich.

20

Kopfhörer, die täglichen Begleiter.

(Bild: dpa, Martin Gerten)

16.11.2023, 08:00 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Rhiannon Williams

Beim semantischen Hören geht es darum zu erkennen, was jemand sagt und nicht, wie jemand etwas sagt. Dieser Ansatz könnte den Weg für intelligentere Hörgeräte und Kopfhörer ebnen, die es dem Träger ermöglichen, bestimmte Geräusche herauszufiltern und andere zu verstärken. So könnten etwa das Weinen von Babys, Vogelgezwitscher oder Weckerklingeln für den Träger solcher neuartigen Kopfhörer hörbar gemacht werden. Einen Prototyp für ein solches System haben Forscher der University of Washington entwickelt. Auf dem ACM Symposium stellten sie es kürzlich vor.

Das System funktioniert, indem handelsübliche Kopfhörer mit Geräuschunterdrückung mit einer Smartphone-App verbunden werden. Die in diesen Kopfhörern eingebauten Mikrofone, die zur Geräuschunterdrückung dienen, werden umfunktioniert, um auch die Geräusche in der Umgebung des Trägers zu erfassen. Diese Umgebungsgeräusche werden dann einem neuronalen Netzwerk auf dem Smartphone vorgespielt, das bestimmte Geräusche in Echtzeit verstärkt oder unterdrückt, je nach den Vorlieben des Nutzers.

Das Team trainierte das Netzwerk mit Tausenden von Audiobeispielen aus Online-Datensätzen und Geräuschen, die in verschiedenen lauten Umgebungen gesammelt wurden. Dann brachten sie ihm bei, 20 alltägliche Klassen von Geräuschen zu erkennen, z. B. ein Gewitter, eine Toilettenspülung oder das Zerbrechen von Glas. Aus diesen 20 Geräuschklassen können per Sprachbefehl oder über die verbundene App auf dem Smartphone die Geräusche gewählt werden, die trotz Geräuschunterdrückung über die Kopfhörer in Echtzeit ausgespielt werden sollen.

Die Forschende testeten ihren Prototypen an neun Teilnehmern, die sich in Büros, Parks und auf Straßen bewegten. Im Ergebnis konnte ihr System Geräusche gut dämpfen und die gewünschten Geräusche verstärken – sogar in Situationen, für die es nicht trainiert worden war. Leichte Schwierigkeiten hatte es allerdings damit, menschliche Sprache von Hintergrundmusik, insbesondere Rap-Musik, zu unterscheiden.

Menschliche Fähigkeiten imitieren

Forscher versuchen seit langem, das "Cocktail-Party-Problem" zu lösen, d. h. einen Computer dazu zu bringen, sich auf eine einzelne Stimme in einem überfüllten Raum zu konzentrieren, wie es Menschen tun können. Diese neue Methode stellt einen bedeutenden Schritt nach vorn dar und zeigt das Potenzial der Technologie, sagt Marc Delcroix, ein leitender Forscher bei NTT Communication Science Laboratories in Kyoto, der sich mit Sprachverbesserung und -erkennung beschäftigt und nicht an dem Projekt beteiligt war.

"Diese Errungenschaft ist sehr hilfreich für das Fachgebiet", sagt er. "Ähnliche Ideen gab es bereits, vor allem auf dem Gebiet der Sprachseparation, aber sie sind die ersten, die ein komplettes binaurales Echtzeit-Zielgeräuschextraktionssystem vorschlagen."

"Heutige Headsets mit Geräuschunterdrückung ermöglichen, Musik abzuspielen, auch wenn die Geräuschunterdrückung eingeschaltet ist", sagt Shyam Gollakota, Assistenzprofessor an der University of Washington, der an dem Projekt mitgearbeitet hat. "Anstatt Musik abzuspielen, geben wir die tatsächlich interessanten Geräusche aus der Umgebung wieder, die wir mit Hilfe unserer Algorithmen des maschinellen Lernens extrahiert haben."

Gollakota ist begeistert von dem Potenzial der Technologie, Menschen mit Hörverlust zu helfen, da Hörgeräte in lauten Umgebungen nur von begrenztem Nutzen sein können. "Es ist eine einzigartige Gelegenheit, die Zukunft intelligenter Hörgeräte durch verbessertes Hören zu gestalten", sagt er.

Die Fähigkeit, selektiver entscheiden zu können, was wir hören und was nicht, könnte auch Menschen zugutekommen, die für ihre Arbeit konzentriertes Hören benötigen, zum Beispiel im Gesundheitswesen, beim Militär und in der Technik, oder für Fabrik- oder Bauarbeiter, die ihr Gehör schützen und trotzdem kommunizieren wollen.

Die Welt herausfiltern

Diese Art von System könnte uns zum ersten Mal ein gewisses Maß an Kontrolle über die Geräusche geben, die uns umgeben – im Guten wie im Schlechten, sagt Mack Hagood, außerordentlicher Professor für Medien und Kommunikation an der Miami University in Ohio und Autor von Hush: Media and Sonic Self-Control, der nicht an dem Projekt mitgearbeitet hat.

"Das ist der Traum – ich habe gesehen, wie die Leute lange Zeit davon geträumt haben", sagt er. "Wir können im Grunde ein Kästchen ankreuzen, ob wir diese Geräusche hören wollen oder nicht, und es könnte Zeiten geben, in denen diese Einschränkung der Wahrnehmung wirklich vorteilhaft ist – etwas, das wir wirklich tun sollten und das zu einer besseren Kommunikation beitragen könnte."

Aber immer, wenn wir uns für Kontrolle und Wahlmöglichkeiten entscheiden, schieben wir den Zufall und glückliche Zufälle beiseite, sagt er. "Wir legen im Voraus fest, was wir hören wollen und was nicht", fügt er hinzu. "Und das gibt uns nicht die Möglichkeit zu wissen, ob wir etwas wirklich gerne gehört hätten."