Lippenlesende Algorithmen von Intel

Die Intel-Forschungsabteilung hat eine Quellcode-Bibliothek vorgestellt, mit der optische und akustische Spracherkennung kombiniert wird.

vorlesen Druckansicht 43 Kommentare lesen
Lesezeit: 1 Min.
Von
  • Wolfgang Stieler

Die Intel-Forschungsabteilung hat eine Quellcode-Bibliothek vorgestellt, die Computern das Lippenlesen beibringen soll. Die erste Version der "Audio Visual Speech Recognition" (ASVR) ist im Rahmen einer Open-Source-Lizenz für Entwickler veröffentlicht worden.

Die ASVR-Software ist Teil der Intel Open Computer Vision Library (OpenCV). Das System wertet Daten einer Videokamera aus, führt eine Gesichtserkennung durch, sucht nach dem Mund des Sprechers und analysiert dessen Mundbewegungen. Mit einem gekoppelten Hidden-Markow-Modell synchronisiert das Paket die Analyse der Video- und Audiodaten -- so können Phoneme, die relativ ähnlich klingen, aber beim Sprechen eine völlig verschiedene Mundstellung erfordern, leicht voneinander unterschieden werden.

Nach Angaben von Intel macht die Kombination eine deutlich genauere Spracherkennung möglich. In einem Paper beschreiben die Autoren die technischen Einzelheiten. Zahlreiche Forschungsgruppen, darunter auch IBM, arbeiten ebenfalls an der Kombination von optischer und akustischer Spracherkennung. (wst)