Mit welchen Verständnisproblemen Sprachassistenzsysteme kämpfen
Spracheingabe kann praktisch sein – aber auch nervtötend, wenn sie nicht funktioniert. Warum Geräte nach wie vor mit dem Verstehen von Dialekten kämpfen.
"Entschuldigung, das habe ich nicht verstanden." Wer diese Antwort vom eigenen Sprachassistenten bekommt, verdreht spätestens beim dritten Versuch die Augen – und greift mitunter doch selbst zum Bildschirm. Um Missverständnisse – oder Unverständnis – zu vermeiden, durchlaufen Sprachassistenten Testzyklen, die Fehler aufdecken und das System verfeinern sollen. Jahre nach den ersten Geräten hat die Technologie hinter Siri, Alexa, Google und Co. zwar Fortschritte gemacht, das Training der Systeme ist für Firmen und Testanbieter aber trotz Künstlicher Intelligenz nach wie vor eine Herausforderung.
Bei der Entwicklung und auch Weiterentwicklung gebe es nicht nur verschiedene Sprachen und regionale Unterschiede zu beachten, erklärt Jan Wolter, Head of Product und Geschäftsführer von Applause EU, einer Firma, die unter anderem Sprachassistenzsysteme vor und nach der Markteinführung testet. Es gebe eine Vielzahl von Faktoren, die entscheiden, ob mein Gerät mich versteht oder nicht. Sprachunterschiede gebe es nicht nur innerhalb eines Landes, abhängig von Regionen, sondern auch in weicheren Faktoren, sagt Wolter. "Dazu gehören das Alter, das Geschlecht, die soziale Herkunft: Die Leute sprechen sehr unterschiedlich."
Sprache entwickelt sich
Schon über eine Generation hinaus verändert sich die Sprachgewohnheit. In verschiedenen Altersklassen würden andere Worte gebraucht, etwa in der Jugendsprache. So besetzen junge Menschen alte Worte mitunter mit neuen Bedeutungen, neue Wörter kommen hinzu. Die kontinuierliche Weiterentwicklung von Sprachgewohnheiten sorgt für einen immer größeren Datensatz, mit dem die Geräte zurechtkommen müssen.
Akzente oder eine falsche Aussprache verändern den Klang eines Wortes teils extrem. "Das System muss erwarten, dass ein Wort falsch ausgesprochen werden könnte", sagt Wolter und nennt als Beispiel Markennamen. Diese würden teils sehr unterschiedlich ausgesprochen – nicht umsonst gibt es zahlreiche Listicles im Internet, die sich mit genau diesem Thema befassen.
Kontext hilft bei der Einordnung
Um dieses Problem zu lösen, müssten Systeme den Kontext erfassen, meint Wolter: "Das System muss den Kontext verstehen und darüber identifizieren, um welche Sprache oder welchen Dialekt es sich handelt." Nicht alle Sprachphänomene lassen sich dabei über Synonyme lösen. So haben viele Menschen im westlichen Deutschland etwa beim Wort "Pfannkuchen" etwas völlig anderes vor Augen als Berliner. Versierte User könnten mit den Systemen oft gut arbeiten, weil sie ihnen viel Kontext liefern. Doch das könne man nicht voraussetzen. "Wir arbeiten mit einer Testcommunity von weltweit rund 1,5 Millionen Personen, denen wir eine Zielvorgabe machen, aber keinen Weg", sagt Wolter. "Ob ein System einen vorgegebenen Befehl versteht, hilft im Alltag nicht, wenn die User einen eigenen Weg haben, um das Ziel zu erfüllen." Hinzu komme, dass Sprache sich stets verändere. "Man kann nicht etwas fertigstellen und es dann zehn Jahre liegen lassen."
Die Vielfalt der gesprochenen Sprache stellt die Entwicklung vor Herausforderungen. Aufgrund der rasanten Entwicklung und der besonderen Vielfalt brauche es mitunter Datensätze, die nur schwer zu beschaffen sind. Das gelte etwa auch für das Feld der Inklusion. Stottere der User oder habe Tourette, müsse das System auch damit umgehen können. "Hier ist das Problem vor allem, gute Daten zu erheben, die das System füttern können", sagt Wolter. Das gestalte sich als ausgesprochen schwierig, da eine Online-Erhebung oft die gleichen Menschen erreiche. "Umso wichtiger ist es auch für unsere Kundschaft, dass das Thema mehr in den Fokus rückt."
Entwicklungsbedarf sieht Wolter vor allem darin, dass Sprachassistenten nicht nur Sprache gut verstehen, sondern sich auch auf die Person einstellen – und ggf. Sprachgewohnheiten aufgreifen. "Ich weiß nicht, ob jeder Sprachassistent Jugendsprache sprechen muss, aber dass er proaktiv erkennt, dass eine Ausgabe in leichter Sprache erfolgen sollte, da gibt es noch Handlungsbedarf."
(are)