Besser als Google?

Bei der Entwicklung von Sprachassistenten schien Google die Nase vorn zu haben. Doch zuletzt präsentierte Alibaba einen Agenten, der längst im Live-Betrieb ist – und überzeugende Leistungen zeigt.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Besser als Google?

(Bild: "Bike parking" / leighklotz / cc-by-2.0)

Lesezeit: 5 Min.
Von
  • Karen Hao
Inhaltsverzeichnis

Mit der Vorstellung von Duplex, seines beängstigend menschichen Sprachassistenten, der unter anderem Restaurants reservieren oder Friseurtermine vereinbaren kann, sorgte Google im Frühjahr 2018 für Aufsehen. Er schien ein neuer Meilenstein bei Sprachgenerierung und -verarbeitung zu sein und gab einen Ausblick darauf, wie Interaktionen zwischen Mensch und künstlicher Intelligenz (KI) aussehen könnten.

Mehr Infos

Doch während Google die Funktion nur nach und nach öffentlich einführt, leistet der Sprachassistent von Alibaba bereits Überstunden. Ende 2018 stellte das Unternehmen bei einer Konferenz zu KI-Forschung den Kundenservice-Agenten für seine Logistiktochter Cainiao vor. Laut Jin Rong, Leiter des Machine Intelligence and Technology Lab von Alibaba, bearbeitet er pro Tag bereits Millionen von Kundenanfragen.

In der aufgezeichneten Demonstration fragte der Agent einen Kunden, wohin ein Paket geliefert werden soll. Bei dem Austausch kam der Agent mit mehreren Gesprächselementen zurecht, die erkennen lassen, wie weit seine Fähigkeiten im Bereich natürlicher Sprache entwickelt sind.

Ein (aus Mandarin übersetztes) Beispiel:

Agent: Hallo, ich bin der Sprachassistent von Cainiao. Ich bin...

Kunde: Hallo.

Agent: Ja, hallo. Ihnen soll morgens ein Paket an die Adresse 588 Culture West Road geliefert werden. Können Sie es annehmen?

Kunde: Wer sind Sie?

Agent: Ich bin der Sprachassistent von Cainiao. Ich würde gern ihre Morgenlieferung nach 588 Culture West Road bestätigen. Ist das in Ordnung für Sie?

Kunde: Ich bin morgens nicht zuhause.

Agent: Können Sie uns dann eine andere Adresse geben, an die wir liefern sollen?

Innerhalb von 30 Sekunden hat der Agent drei verbreitete und schwierige Elemente von Gesprächen gemeistert: Unterbrechung, nichtlineare Konversation und implizite Absichten. Was Unterbrechung bedeutet, ist klar. Der Agent konnte darauf reagieren und weiterhin relevante Informationen liefern, ohne auszusetzen oder von vorn anzufangen.

Zu nichtlinearer Konversation kommt es, als der Kunde „wer sind Sie?“ fragt. Dabei muss der Agent erkennen, dass der Kunde nicht auf seine vorige Frage antwortet, sondern selbst eine stellt. Als Reaktion darauf stellt sich der Agent erneut vor, um dann zur ursprünglichen Frage zurückzukommen.

Implizite Absicht tritt auf, als der Kunde antwortet „ich bin morgens nicht zuhause“. Was er eigentlich meint, sagt er nicht – dass eine Lieferung zu ihm nach Hause nicht möglich ist. Aber der Agent kann zwischen den Zeilen lesen und sinnvoll weiterfragen.

Bei Gesprächen zwischen Menschen mögen diese Elemente sehr verbreitet sein, Maschinen aber tun sich oft schwer damit. Dass es beim Sprachassistenten von Alibaba anders ist, könnte bedeuten, dass er höher entwickelt ist als der von Google – dafür sprechen ähnliche Demo-Anrufe von Google. Ein Vergleich echter Konversationen, die nicht zu Vorführungszwecken entstanden, könnte allerdings andere Ergebnisse bringen.

Derzeit wird der Alibaba-Agent nur für das Absprechen von Lieferungen eingesetzt, doch laut Jin könnte er für andere Themen erweitert werden. Wie der Assistent trainiert wurde, wollte er nicht genau erklären. Er deutete aber an, dass neben anderen Ressourcen die hohe Zahl an aufgezeichneten Anrufen genutzt wurde, über die das Unternehmen verfügt. An einem typischen Tag erhält es 50.000 Kundenanrufe, hieß es in der Präsentation – und am Single's Day, dem umsatzstärksten Tag des Jahres, fünfmal so viele.

Zugleich entwickelt Alibaba Sprachassistenten für andere Aspekte seines Geschäfts. Dazu zählen ein Agent, der in lauten Restaurants und Geschäften Bestellungen annehmen kann, ein menschenähnlicher virtueller Avatar, der Fragen zu Alibaba-Produkten beantworten kann, und ein Avatar für Preisverhandlungen, der schon von 20 Prozent der Verkäufer auf der Resale-Plattform Xianyu eingesetzt wird.

In ihrem Kern werden alle diese Assistenten durch eine Engine für Spracherkennung und -verarbeitung namens AliMe ermöglicht, entwickelt von Jins Machine Intelligence and Technology Lab. Anschließend werden sie für unterschiedliche Geschäftsbereiche verpackt und angepasst.

Alibabas großer Vorteil dabei ist die enorme Menge an Daten, die dem Unternehmen für das Trainieren seiner KI zur Verfügung stehen. Weil die Assistenten damit intensiv üben können, haben sie Erfahrung mit sehr unterschiedlichen Situationen. Zudem gibt es einen riesigen geschäftlichen Anreiz, diese Systeme rasch einzuführen: Alibaba bekommt nicht nur viele Support-Anrufe, sondern liefert pro Tag eine Milliarde Pakete aus. Bestimmte Aufgaben dabei KI zu überlassen, trägt dazu bei, Menschen zu entlasten und das Geschäft am Laufen zu halten.

(sma)