Apples HomePod und Künstliche Intelligenz: Wie Siri (fast) alles versteht

Wer auf dem HomePod Siri nutzt, fragt sich bestimmt: Warum funktioniert die Spracherkennung hier so viel besser als auf meinem iPhone? Wir liefern Einblicke.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Apples Siri, HomePod und KI: Alles verstehen

(Bild: iFixIt)

Lesezeit: 11 Min.
Von
  • Kai Schwirzke
Inhaltsverzeichnis

Digitale Sprachassistenten haben mit vielfältigen Schwierigkeiten zu kämpfen: Sie müssen gesprochenen Text von anderen Geräuschen unterscheiden, mit völlig unterschiedlichen Stimmfarben und Betonungen zurechtkommen und dürfen auch bei Mundarten nicht gleich die Segel streichen. Besonders knifflig wird all das, sobald die Assistenten in besonders lauter oder geräuschhafter Umgebung arbeiten.

Es liegt auf der Hand, dass smarte Lautsprecher wie Apples HomePod von diesen störenden Einflüssen besonders betroffen sind. Schließlich besteht die Hauptaufgabe dieser Geräte darin, Musik abzuspielen – gerne auch mal etwas lauter. Je lauter aber die Musik, desto stärker strahlt sie in die Mikrofone, und um so schwerer wird es für die Spracherkennung, an Siri gerichtete Befehle zu erkennen und auszuwerten. Das lässt sich gut mit einem Schlagzeuger vergleichen, der beim Trommeln versuchen soll, einer Unterhaltung zu folgen.

Außerdem stehen HomePod und Co oft mehrere Meter vom Zuhörer entfernt, sodass es bei Sprachbefehlen zu Echo- und Halleffekten kommt. Der menschliche Hörsinn filtert solche Effekte bis zu einem gewissen Grad aus; erst in stark halligen Räumen, etwa einem Wohnzimmer mit gefliestem Fußboden und wenigen Möbeln, wird es schwierig, einer Unterhaltung zu folgen. Bei der computerbasierten Spracherkennung vereiteln hingegen schon deutlich geringere Raumartefakte das fehlerfreie Erfassen von Befehlen. Eine weitere, nicht zu unterschätzende Herausforderung verbirgt sich hinter einer eigentlich alltäglichen Situation: Mehrere Menschen sprechen gleichzeitig. Die Fähigkeit des menschlichen Gehirns, sich zum Beispiel in einer Kneipe auf einen Sprecher zu konzentrieren und andere Stimmen auszublenden, muss ein Computer erst mühsam erlernen.