Hört aufs Wort

Durch Dateneingabe per Sprache soll die Benutzung von Navigationsgeräten einfacher und sicherer werden. Die Bedienfreundlichkeit hängt vor allem davon ab, wie die Mensch-Maschine-Dialoge realisiert sind.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 19 Min.
Von
  • Dorothee Wiegand
Inhaltsverzeichnis

Durch Dateneingabe per Sprache soll die Benutzung von Navigationsgeräten einfacher und sicherer werden. Die Bedienfreundlichkeit hängt dabei jedoch längst nicht nur von der Qualität der Spracherkennung selbst ab, sondern vor allem davon, wie die Mensch-Maschine-Dialoge realisiert sind.

Untersuchungen zeigen, dass Autofahrer ihre Navigationsgeräte häufig erst unterwegs programmieren. Sie ändern während der Fahrt die Geräteeinstellungen oder die geplante Route. Eine sprachgesteuerte Zieleingabe oder auch die Gerätesteuerung per Sprache ist dann nicht nur bequemer als eine Eingabe per Tastatur, sondern soll auch die visuelle Ablenkung des Fahrers verringern. Hinzu kommt, dass Sprache generell ein sehr naheliegendes Mittel der Kommunikation ist. "Menschen machen eigentlich nichts lieber, als sich zu unterhalten", meint dazu Professor Mark Vollrath von der TU Braunschweig. "Hier liegt die große Chance, aber auch die große Herausforderung", so der Verkehrspsychologe. "Wenn wir das auch im Mensch-Maschine-Dialog erreichen, haben wir ein System, das Spaß macht und hoffentlich genauso wenig ablenkt wie der Beifahrer, der entspannt während der Fahrt mit dem Fahrer plaudert."

Bei vier gängigen Navigationsgeräten haben wir die Spracherkennung einem kurzen Praxistest unterzogen, um zu prüfen, ob sprachgesteuerte Navis wirklich halten, was sie versprechen. Obwohl in allen vier Geräten exakt der gleiche Spracherkenner – die Software VoCon 3200 der Firma Nuance – steckt, unterscheiden sich die Geräte in der Bedienung deutlich voneinander.

Die Zieleingabe ist ohne Zweifel die aufwendigste Aufgabe, das heißt diejenige, die bei Bedienung per Tasten die meisten Knopfdrücke erfordert. Im Sinne eines einheitlichen Bedienkonzeptes sollten sich aber auch alle anderen Funktionen per Sprache nutzen lassen, etwa die Änderung von Geräte-Einstellungen, das Ansteuern von Sonderzielen, aber auch die Benutzung von Bluetooth-Telefon, Musikanlage oder Reiseführer.

Das Vokabular der Zieleingabe besteht aus hunderttausenden von Straßen- und Städtenamen und häufig weicht die Aussprache von der Schreibweise ab. So wird Grevenbroich von Ortskundigen wie "Grevenbrooch" gesprochen, und die korrekte Aussprache der Lützowstraße klingt eher wie "Lüzostraße". Es reicht also nicht, Orts- und Straßennamen automatisch phonetisch zu transkribieren, das heißt, die orthografische Schreibweise nach festen Regeln in eine Art Lautschrift umzuwandeln. Um die Erkennungsgenauigkeit zu verbessern, werden vielmehr optimierte Transkriptionen verwendet, die von Navigationsdaten-Anbietern wie NAVTEQ oder TeleAtlas bereitgestellt werden und für jeden Namen eine oder mehrere überprüfte Aussprachevarianten enthalten.

Doch selbst wenn gewährleistet ist, dass ein System die Aussprache von Städte- und Straßennamen korrekt erkennt, kann es noch schwierig werden: Gerade längere Straßennamen sprechen Benutzer nicht immer so ins Mikrofon, wie sie die zugrunde liegende Datenbank beschreibt – da wird eine "Johann-Sebastian-Bach-Straße" schon mal zur "Bach-Straße" verkürzt und der "Melatener Weg" als "Melatener Straße" bezeichnet. Die Spracherkennung sollte auf eine solche Nennung einzelner Bestandteile eines Straßennamens ähnlich flexibel reagieren, wie es bei der Eingabe über die Tastatur bereits der Fall ist.

Da Deutschland an immerhin neun Nachbarländer grenzt, stellt die Eingabe von Zielen im Ausland eine weitere Schwierigkeit dar. Die meisten gängigen Geräte schalten gegenwärtig für die Erkennung der Städte- und Straßennamen auf die Sprache des Ziellandes um, behalten jedoch die deutsche Spracherkennung für alle übrigen Kommandos und auch für Zahlangaben bei. Solche Systeme kennen die deutschen Namensvarianten einer ausländischen Stadt nicht, zudem enthält etwa die französische Spracherkennung eines eigentlich deutschen Systems nicht alle Phoneme (Laute) der deutschen Sprache. "Nizza" versteht ein solches Navi also nicht, sondern wartet auf "Nice". Das Gleiche gilt in Italien: Selbst wenn Deutsch als Bediensprache gewählt ist, können heutige Systeme mit der Ansage "Mailand" nichts anfangen, sondern nur mit "Milano". Der Fahrer muss also nicht nur wissen, wie der Zielort in der Landessprache heißt, sondern auch, wie man ihn ausspricht – den wenigsten Deutschen gelingt das allerdings bei Ortsnamen wie "Nijmegen" auf Anhieb korrekt. Eine weniger verbreitete Möglichkeit, diesen Problemen zu begegnen, ist das Buchstabieren von Zielen im Ausland.

Damit man ein sprachgesteuertes System intuitiv bedienen kann und schnell zum Ergebnis kommt, benötigt es flexible Dialogverläufe. Weder möchte ein Benutzer eine lange Liste von Kommandos auswendig lernen, noch will er umständliche, lange Dialoge mit dem Gerät führen. "Betrachtet man einige sprachgesteuerte Navigationsgeräte, gewinnt man allerdings den Eindruck, dass die Entwickler selber der Spracherkennung noch nicht ganz vertrauen", meint Mark Vollrath. "Häufig muss der Nutzer im Dialog eine erkannte Eingabe, beispielsweise den Straßennamen, lesen und bestätigen. Dadurch geht natürlich ein Teil des Nutzens verloren – der Fahrer muss dann doch wieder kleine Schriften im Display während der Fahrt entziffern. Außerdem werden dadurch die Dialoge wieder länger, der Fahrer wird ungeduldig – das System erscheint weniger effizient."

Gängige Systeme mit Zieleingabe per Sprache fordern den Benutzer auf, nacheinander den Namen der Stadt, der Straße und die Hausnummer einzugeben. In der Regel muss der Benutzer jede dieser Eingaben einzeln bestätigen, indem er den richtigen Eintrag aus einer Liste auswählt. Dies erspart ihm zwar die manuelle Eingabe, führt jedoch zu vielen Dialogschritten und zwingt dazu, mehrmals zur Kontrolle auf das Display zu schauen. Bequemer und kürzer wird es, wenn Dialogdesigner auf die mehrmaligen Rückfragen verzichten und lediglich am Ende der Eingabe eine einmalige Bestätigung der vollständigen Adresse vorsehen.

Da Einstellungsänderungen sehr häufig während der Fahrt notwendig sind – etwa Zoomen, Ändern des Darstellungsmodus oder ein Wechsel von der schnellsten zur kürzesten Route – gehen Navigationshersteller mehr und mehr dazu über, auch die sprachgesteuerte Einstellung der Geräte anzubieten. Aufgrund der relativ kleinen Displays muss man sich dabei häufig durch mehrere Menüebenen hindurcharbeiten. Je nach Gestaltung der Menüs ist der gewünschte Eintrag dabei mehr oder weniger gut zu finden.

Auch die Hardware hat einen Einfluss auf die Spracherkennung eines Navigationsgeräts. Die sogenannte Audiokette – bestehend aus Mikrofon, Codec und Filtern – kann die Ergebnisse der Spracherkennung und damit die Zufriedenheit mit dem System gravierend beeinflussen. Erkennungsprobleme aufgrund eines ungeeigneten Mikrofons fallen frühzeitig auf und werden in der Regel während der Entwicklung eines Navigationsgeräts behoben. Schwierig wird es, wenn die Audio-Hardware sehr unterschiedliche Anforderungen erfüllen soll, etwa wenn der Spracherkenner die Audiodaten in einer anderen Frequenzbandbreite benötigt als eine Telefonfreisprecheinrichtung.

Viel wichtiger ist es aber, dass der ressourcenintensiven Spracherkennung genug Rechenleistung zur Verfügung steht, da es andernfalls zu Verzögerungen kommt. Während eine verzögerte Antwort den Benutzer zwar verärgert, jedoch nicht notwendigerweise mit schlechten Erkennungsergebnissen einhergeht, kann eine Verzögerung beim Aktivieren des Spracherkenners zu Fehlern führen: Falls der Fahrer versehentlich zu früh mit dem Sprechen beginnt, hört das System nicht die komplette Äußerung.

Um einen Eindruck vom gegenwärtigen Stand der Technik zu bekommen, testeten wir die Spracheingabe bei den Navigationsgeräten Medion GoPal P4425, Falk N240L, TomTom GO 730 und Navigon 8110. Außer zehn kniffligen deutschen Adressen sollten sie möglichst auch je eine Zieleingabe in den Niederlanden, Frankreich, Großbritannien, Italien und Tschechien verstehen, außerdem prüften wir die Erkennung von zwölf zwei- bis vierstelligen Zahlen und sechs Sonderzielen.

Zahlen erkannten alle Navis ordentlich bis gut. Das Erkennungsergebnis bei den deutschen Adressen war ebenfalls recht ähnlich und überwiegend gut. Probleme machten nicht etwa knifflige Straßennamen wie die Doventorscontrescarpe in Bremen, die Girondelle in Bochum oder der Gardeschützenweg in Berlin. Vielmehr patzte die Spracherkennung bei kurzen Ortsnamen wie "Bonn", das oft etwa als Ulm, Wulm, Goren oder Buhlen missverstanden wurde. Eine "Hasselstraße" in Bonn kannte keines der Geräte, nach korrekter Eingabe "Ulrich-von-Hassell-Str." funktionierte die Erkennung jedoch einwandfrei. Lediglich bei der gerade erst umbenannten Straße "An der Börse" in Hannover mussten alle vier Testgeräte passen. Größere Unterschiede gab es bei der Erkennung der Sonderziele sowie bei den ausländischen Zielangaben.

Mit dem GoPal P4410 brachte Medion das erste Gerät mit Adresseingabe per Sprache auf den deutschen Markt. Es akzeptierte anstelle von Ortsangaben auch gesprochene Postleitzahlen und verstand bereits Ganzzahlen statt Einzelziffern. Allerdings erforderte jede Spracheingabe bei diesem Modell noch eine abschließende Bestätigung von Hand.

Beim Nachfolger GoPal P4425, dem wir unsere Testadressen vorsprachen, verzichtete der Hersteller auf diese manuelle Bestätigung. Das Gerät unterstützt nicht nur die vollständige Adresseingabe, sondern erlaubt auch die sprachgesteuerte Auswahl von Sonderzielen und häufig genutzten Funktionen.

Um mit dem GoPal ins Gespräch zu kommen, braucht es zunächst detektivischen Spürsinn. Zur Aktivierung der Sprachfunktion dient nämlich eine winzige Taste mit der Bezeichnung "P", die sich an der rechten oberen Ecke des Gehäuses versteckt. Erst wenn die normalerweise durch Antippen zu bedienenden Schaltflächen nach Drücken der P-Taste das Aussehen einer Sprechblase angenommen haben, kann es losgehen.

Positiv fällt auf, dass beim GoPal P4425 nahezu alle für die Navigation wichtigen Eingaben per Sprache möglich sind. Das Design der Dialoge zur Adresseingabe gefiel uns dagegen weniger: Unnötig viele Rückfragen – speziell die Ortsangabe benötigt bei Großstädten meist zwei Bestätigungen – ziehen die Zieleingabe nicht nur in die Länge, sondern zwingen den Fahrer zwischendurch auch immer wieder, aus einer Liste von Vorschlägen den gewünschten durch Sprechen einer laufenden Nummer auszuwählen.

Ein typischer Dialog mit dem P4425:

"Wollen Sie einen Ort oder eine Postleitzahl eingeben?"
"Ort"
"Nennen Sie bitte den Ort!"
"Hannover"
"Die Nummer des Eintrags bitte!"
"eins"
"Hannover ist mehrdeutig. Die Nummer des Eintrags bitte!"
"eins"
"Hannover - die Straße bitte!"
"Ungerstraße"
"Die Nummer des Eintrags bitte!"
"eins"
"Ungerstraße - die Hausnummer bitte!"
"siebenundzwanzig"
"Die Nummer des Eintrags bitte!"
"eins"
"Hausnummer 27"

Zahlen verstand das P4425 im Test perfekt, und falls eine Hausnummer in der genannten Straße nicht existiert, so fragt die freundliche Frauenstimme nach, ob sie den Anwender ersatzweise zur nächstgelegenen Hausnummer geleiten soll. Die Erkennung von "Hotel", "Tankstelle" und "Restaurant" gelangen dem Navi sicher und auf die Eingabe "Werkstatt" reagierte es reproduzierbar mit einer Übersicht von nahe gelegenen Tankstellen. Bei "Pizzeria" und "Raststätte" musste das GoPal allerdings passen.

Positiv ist hier die Möglichkeit, wahlweise den Ortsnamen oder die Postleitzahl zu sprechen. Zur Erkennung von Zielen im Ausland ist auch die Länderauswahl sprachgesteuert möglich. Diese Funktion überzeugte dennoch nicht ganz: Während die Orte in den Niederlanden und Italien gut erkannt wurden, verstand das Gerät "Marseille" und "Birmingham" erst nach etlichen mühevollen Anläufen. Nach der Auswahl von Tschechien als Zielland erschien gar die Meldung "Spracherkennung unterstützt das ausgewählte Land nicht".

Die Erkennung der deutschen Adressen meisterte das Navi von Falk ordentlich, lediglich die gesprochene Eingabe von "Nürnberg" – auch für die anderen Geräte ein harter Brocken – misslang völlig. Sehr komfortabel ist das Ansteuern von Zielen, nach denen der Anwender kürzlich schon einmal gesucht hat: Diese Orte sind in der nummerierten Liste "letzte Ziele" abgelegt, die man ebenso wie Trefferlisten per Sprache ansteuern kann.

Ein typischer Dialog mit dem Falk N240L:

"Wählen Sie eine Eingabemöglichkeit!"
"Adresse"
"Sprechen Sie den Ortsnamen!"
"Bochum"
"Wählen Sie eine Zeilennummer!"
"eins"
"Sprechen Sie den Straßennamen!"
"Girondelle"
"Wählen Sie eine Zeilennummer!"
"eins"
"Sprechen Sie eine Hausnummer!"
"achtundsiebzig"
"Wählen Sie eine Zeilennummer!"
"eins"

Während die Erkennung von Zahlen bis 1000 perfekt funktionierte, erkannte das Navi nur einen Teil unserer ausländischen Testziele korrekt. Die französische Adresse machte keinerlei Probleme, aber "Birmingham" erschien erst beim dritten, "Bristol Road" beim zweiten Versuch richtig auf dem Bildschirm. Bei "Bologna" verstand das System hartnäckig Bahnhof, nachdem wir die italienische Stadt von Hand eingetippt hatten, akzeptierte es "Piazza Re Enzo" jedoch auf Anhieb. Für Ziele in den Niederlanden und Tschechien bietet das N240L keine Spracherkennung.

Bei den Sonderzielen musste das Falk-Navi nur bei "Pizzeria" passen. Anders als bei der manuellen Eingabe können bei aktivierter Spracherkennung im Rahmen der Adresseingabe keine Sonderziele gesucht werden. Ebenso wenig unterstützt die Spracherkennung die Eingabe einer Postleitzahl.

Die am weitesten verbreiteten Navigationsgeräte mit Spracherkennung sind die Modelle der TomTom-GO-Serie. Beim GO 730 hat der Benutzer die Wahl zwischen dem Eingabemodus "Gesprochene Adresse" und "Gesprochene Adresse (Dialog)". Option eins bedeutet, dass die Eingabe von Ort und Straße per Sprache erfolgt, wobei das System keine akustische Rückmeldung gibt und bei der Angabe der Hausnummer in jedem Fall eine Stifteingabe erwartet. Wählt man stattdessen den Dialog, so antwortet das System auf die gesprochenen Eingaben des Benutzers mit akustischen Bestätigungen. Dadurch, dass es dabei vereinzelt Wortanfänge oder -enden verschluckt, klingt das Ganze mitunter wie die Zwiesprache mit einem kleinen Kind, etwa wenn das Navi die Ortsangabe "Hannover" mit einem fragenden "Nover?" pariert.

Ein typischer Dialog mit dem TomTom GO 730:

"Bitte nennen Sie die Stadt!"
"Berlin"
"Berlin?"
"eins"
"Berlin, bitte nennen Sie die Straß!"
"Gardeschützenweg"
"Gardeschützenweg?"
"eins"
"Gardeschützenweg, bitte Hausnummer vorsagen!"
"sieben"
"sieben?"
"fertig"

Bei der Hausnummernangabe verstand das GO 730 Zahlen ordentlich, patzte dagegen häufiger bei der Ansage "eins" während der Auswahl eines Eintrags aus einer Trefferliste. Generell erkannte die Sprachfunktion deutsche Adressen sicher. Auch die schnelle Aktivierung der Spracherkennung fällt beim TomTom-Navi positiv auf. Zur Suche nach Sonderzielen sowie für die Zieleingabe im Ausland steht die Funktion nicht zur Verfügung.

Mit dem neuen Navigon 8110 ist der Hersteller einen großen Schritt weitergegangen auf dem Weg zu einer benutzerfreundlichen Zieleingabe per Sprache. Das Modell verzichtet als erstes Gerät auf überflüssige Bestätigungsschritte. Erst nach Eingabe aller erforderlichen Informationen wird der Benutzer einmal gefragt, ob die verstandene Adresse korrekt ist.

Ein typischer Dialog mit dem Navigon 8110:

"Den Ort bitte!"
"Hamburg"
"Die Straße bitte!"
"Am Alten Posthaus"
"Die Hausnummer bitte!"
"sieben"
"Ist Hamburg, Am Alten Posthaus 7 korrekt?"
"ja"
"Die Navigation wird gestartet"

Dank dieser Dialoggestaltung kann man die Hamburger Beispieladresse per Sprache eingeben, ohne ein einziges Mal auf den Bildschirm des Geräts zu blicken. Zum Vergleich: Während der Eingabe derselben Adresse beim TomTom GO 730 muss der Anwender dreimal auf das Display schauen, beim Falk N240L viermal und beim Medion GoPal P4425 sogar fünfmal.

So viel Vertrauen in die eigenen Fähigkeiten kann natürlich auch ins Auge gehen – der Versuch, die Testadresse in England einzugeben, führte zu folgendem Wortwechsel mit dem Navigon 8110:

"In welchem Land liegt Ihr Ziel?"
"Großbritannien"
"Ist Vereinigtes Königreich korrekt?"
"Ja"
"Den Ort bitte!"
"Birmingham"
"Die Straße bitte!"
"Bristol Road"
"Die Hausnummer bitte!"
"hundertdreiundzwanzig"
"Ist Highnam, Westfield 123 korrekt?"
"nein"
"Wählen Sie eine Adresse oder sagen Sie "Korrektur"!"

Nachdem Birmingham als Ort im zweiten Versuch richtig verstanden wurde, klappte auch die Erkennung von "Bristol Road" auf Anhieb. Die bereits korrekt erkannte Hausnummer 123 muss nicht noch einmal eingegeben werden: Sobald die Missverständnisse bei Ort und Straße geklärt waren, fragte das System nach, ob die Hausnummer 123 stimmt. Das zeigt: Selbst wenn das System nicht alle Angaben richtig versteht, liefert dieses Dialog-Design bessere, weil knappere und bequemere Eingaben ohne lästige Bestätigungsschritte nach jedem Adressteil. So wird die Eingabe per Sprache schneller und die Ablenkung des Fahrers reduziert sich deutlich, da er kaum auf das Display schauen muss.

Schade, dass beim Navigon-Gerät die sehr gute Bedienung per Sprache nur für die Zieleingabe vorgesehen ist. Die Bedienung könnte noch einfacher sein, wenn auch die Auswahl von Sonderzielen und die Steuerung häufig genutzter Funktionen auf Wunsch sprachgesteuert möglich wäre.

Einfachere Bedienung, weniger Ablenkung und mehr Sicherheit beim Fahren werden auch weiterhin wichtige Kriterien sein, nach denen die Navigationshersteller die Bedienkonzepte gestalten. Sprachbedienung wird hier eine zunehmend wichtige Rolle spielen, wenn es den Herstellern gelingt, Sprach-Interfaces zu entwickeln, die sich intuitiv ansprechen lassen und zuverlässig funktionieren.

Für Fahrten ins Ausland wäre es ideal, wenn ein Navigationsgerät die Zielangabe unabhängig davon verstünde, ob sie in der Landessprache oder auf Deutsch ausgesprochen wird. Das Ziel der Hersteller ist es daher, mehrere Sprachen zu kombinieren, sodass künftige Geräte sowohl "Venedig" als auch "Venezia" verstehen.

Zu dem im Navigon 8110 realisierten neue Ansatz ohne einzelne Bestätigungsschritte für Ort, Straße und Hausnummer, auch Single Confirmation Address Entry (SCAE) genannt, meint Alfred Wiesen, Sprachexperte beim Sprachtechnologiehersteller Nuance: "Das Schöne an dieser Methode ist, dass der Benutzer nicht nur schneller zum Ergebnis kommt, sondern sie außerdem in der Regel auch bessere Ergebnisse liefert. Sie wertet für die Bestimmung der zu erkennenden Adresse mehrere Informationen aus und schließt ungültige Alternativen von vornherein aus. Dabei benötigt sie nicht mehr Rechenleistung als herkömmliche Systeme."

Noch mehr Flexibilität würde das so genannte Natural Language Understanding (NLU) bieten, das aus Benutzersicht eine Weiterentwicklung des SCAE-Verfahrens darstellt und natürliche, flexible und vor allem kurze Dialoge zum Ziel hat. Sprachtechnologiehersteller wie Nuance arbeiten mit Hochdruck an Verfahren dieser Art, die es etwa ermöglichen sollen, Adressen in einer einzelnen Äußerung einzugeben, zum Beispiel "Berlin, Unter den Linden 1". Diese als One-Shot-Destination-Entry bezeichnete Eingabeweise wird bereits von einigen Navi-Herstellern erprobt.

Auch bei der Auswahl von Sonderzielen ist Flexibilität bei der Eingabe ein wichtiges Kriterium für die Bedienfreundlichkeit. Wer mit fast leerem Tank auf der Autobahn fährt, möchte schlicht schnell tanken – hier sollten möglichst die Eingaben "Tankstelle auf der Autobahn", "Autobahntankstelle" oder "Autobahnraststätte mit Tankstelle" gleichermaßen zum Erfolg führen. Und wer in einer fremden Stadt Hunger verspürt, sucht vermutlich einfach "das nächste Restaurant" und möchte nicht durch ein mehrstufiges Menü geführt werden, während er versucht, sich auf den Verkehr zu konzentrieren.

Für die sprachgesteuerte Verwaltung der Geräteeinstellungen gibt es verschiedene Ansätze: Einerseits der grafischen Bedienoberfläche folgend alle Funktionen, die auf dem Display erscheinen, auch per Sprache auswählbar anzubieten. Das kann für den Benutzer bereits eine Erleichterung darstellen, erspart ihm jedoch nicht zu wissen, unter welchem Menüpunkt er die gewünschte Einstellung findet. Künftig soll es NLU-Technik dem Benutzer erlauben, frei gewählte Kommandos zu verwenden, ohne sich an eine vorgegebene Menüstruktur oder Wortwahl halten zu müssen. Statt "Einstellungen – Display – Zoom" soll es dann möglich sein, einfach "näher heranzoomen" zu sagen.

Nach Aussage von Fatima Vital, Senior Marketing Manager Automotive bei Nuance Communications, könnten schon im Laufe des nächsten Jahres Navigationsgeräte auf den Markt kommen, die sich natürlichsprachlich bedienen lassen. Sie ist überzeugt, dass sich intelligente Systeme immer mehr durchsetzen werden, mit denen der Benutzer fast schon im Plauderton sprechen kann, ohne sich an eine bestimmte Wortwahl, Reihenfolge oder Menüführung halten zu müssen. Und dann vielleicht ähnlich wie ein aufmerksamer Beifahrer auf den Satz: "Ich möchte keine Tempolimitwarnungen mehr hören" keine Widerworte geben. (dwi) (ll)