KI von Hand

Intelligente Assistenten hören immer genauer zu. Sie können jetzt auch schon über etwas lachen – allerdings noch nicht an der richtigen Stelle.

14.06.2019, 06:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Peter Glaser

Im Juli 2015 sorgte die Eröffnung des ersten Roboter-Hotels in Japan für weltweite Aufmerksamkeit. Das Hotel Henn-na ("Das seltsame Hotel"), Teil eines holländisch inspirierten Themenparks in der Präfektur Nagasaki, wartete mit rund 250 Robotern auf, die Gäste einchecken und ihnen rundum dienstbar sein sollen. Transportroboter schaffen das Gepäck aufs Zimmer, wo auf dem Nachttisch Churi wartet, eine Puppe mit Tulpenkopf, die dem Gast bei der Steuerung seiner Unterkunft helfen soll.

Churi – ein Wortspiel mit Churippu, dem japanischen Wort für Tulpe – reagiert auf Sprachbefehle, mit denen sich das Licht ein- und ausschalten oder die Temperatur regulieren läßt. "Natürlich können die Roboter den Menschen nicht ganz ersetzen", schränkte Hoteldirektor Hideo Sawada gleich am Eröffnungstag ein, "aber ihre Manieren und ihre Freundlichkeit sind einfach unschlagbar."

Weniger Euphorie löste in der Folgezeit die Spracherkennungsfähigkeit der Hotelroboter aus. Ein Gast war von Churi mehrfach aus dem Schlaf gefreundlicht worden, da der Roboter sein Schnarchen als Weckwort verstanden hatte und sich jedesmal frohgemut meldete.

Ein anderer Gast, der mit seinen Fragen an die niedliche Maschine nicht weiterkam, wollte die Rezeption anrufen, aber es gibt kein Telefon auf den Zimmern – für Fragen und Hilfe ist Churi zuständig. Im Januar 2019 wurde bekannt, dass mehr als die Hälfte der 250 Hotelroboter inzwischen ihren Job verloren haben. "Es ist einfacher geworden, seit wir nicht mehr so oft von Gästen – per Mobiltelefon – angerufen werden, um bei Problemen mit den Robotern zu helfen", sagt einer der verbliebenen humanoiden Angestellten.

Dass künstliche Intelligenz manchmal auf Zuarbeit angewiesen ist, die auf natürlicher Intelligenz beruht, wurde einer breiten Öffentlichkeit gerade erst wieder vor Augen geführt. Der Nachrichtendienst Bloomberg berichtete, dass tausende Amazon-Mitarbeiter aufgezeichnete Dialoge zwischen Alexa und ihren Nutzern abhören und niederschreiben müssen, um Verständnisfehler zu erkennen und die Qualität der Spracherkennung zu verbessern. Was viele nicht wissen, ist, dass das auch bei anderen Herstellern gängige Praxis ist.

Um etwa Apples Siri eine neue Sprache beizubringen, werden zunächst Textpassagen in verschiedenen Akzenten und Dialekten eingesprochen und anschließend von Hand transkribiert, um daraus ein akustisches Modell zu errechnen, mit dem der Computer Wortfolgen vorherzusagen versucht. Nutzt ein Anwender danach den Diktiermodus, erfasst Apple einen gewissen Prozentsatz dieser Audiodaten und anonymisiert sie, um sie im Anschluß wieder von Menschen verschriftlichen zu lassen, wodurch sich die Fehlerquote bei der Spracherkennung um gut die Hälfte reduzieren lässt.

Immerhin müssen sich Amazon-Kunden nicht mehr von Alexa auslachen lassen. Wie das Unternehmen bestätigte, war die Sprachassistentin verschiedentlich in unmotiviertes Lachen ausgebrochen. Ein betroffener Nutzer berichtete auf Twitter, wie er gerade ein vertrauliches Bürogespräch führte "und Alexa hat einfach nur gelacht. Es war haarsträubend".

Ein Amazon-Sprecher erklärte, dass sich die Spracherkennung unter bestimmten Umständen einbilden würde, jemand habe "Alexa, lache!" gesagt. Der entsprechende Befehl wurde nunmehr in das absichtlich etwas umständlichere "Alexa, kannst Du lachen?" geändert. Technik ist nicht dazu da, das Leben einfacher zu machen, sondern interessanter.

(bsc)