Trickreiche Chatbots

Forscher bei Facebook haben künstlich intelligente Bots programmiert, die dann eigenständig die Fähigkeit entwickelten, bei Verhandlungen ihre wahren Absichten zu verschleiern. Zugleich wurde die Software ein wenig stur.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Lesezeit: 5 Min.
Von
  • Sascha Mattke

Zu verteilen sind vier Bücher, zwei Hüte und ein Ball: „Du bekommst den Ball, wenn ich alles andere bekomme.“ „Nein, das geht nicht, mit dem Ball kann ich nichts anfangen.“ „Dann nehme ich die Hüte, und du kannst den Rest haben.“ „Abgemacht!“ „Super, danke!“

Was sich anhört wie eine kurze Verhandlung unter Menschen, ist in Wirklichkeit ein Experiment mit Künstlicher Intelligenz: Forscher bei Facebook haben Bots entwickelt, die in natürlicher Sprache mit Menschen über die Verteilung von Gegenständen – Bälle, Hüte und Bücher mit zufällig zugewiesenen Werten – verhandeln können. Wie sich dabei zeigte, kommt es mit den Bots als Partner häufiger zu einem insgesamt optimalen Ergebnis. Und vielleicht noch interessanter: Ohne explizite Anleitung lernte die Software zu tricksen, also das menschliche Gegenüber über ihre wahren Interessen zu täuschen.

In dem oben dargestellten Beispiel etwa wollte der Bot die Bücher in Wirklichkeit gar nicht haben, denn für sie hatte er in dieser Runde einen Wert von 0 vorgegeben bekommen. Doch indem er Interesse daran vortäuschte, verbesserte er seine Verhandlungsposition, weil er im weiteren Austausch auf etwas verzichten konnte, ohne wirklich Punkte zu verlieren – tatsächlich stimmte der menschliche Partner dem zweiten Vorschlag ja zu.

„Täuschung kann eine effektive Verhandlungstaktik sein. Es gab viele Fälle, in denen unsere Modelle zunächst Interesse an einem wertlosen Gegenstand vortäuschten, nur um dann in einem 'Kompromiss' darauf verzichten zu können“, schreiben die Forscher.

Damit die Bots so raffiniert werden konnten, mussten sie mehrere Trainingsphasen durchlaufen. Zunächst wurden sie mit 5808 schriftlichen Verhandlungsdialogen von Menschen gefüttert. Dadurch konnten sie überwacht die nötigen Formulierungen und ihre Bedeutung erlernen, was bereits reichte, um relativ gute Ergebnisse zu erzielen: In mehr als drei Viertel der Versuche gab es eine Einigung mit durchschnittlich 6,2 von höchstens 10 möglichen Punkten für den Bot und 7,6 für das menschliche Gegenüber.

Allerdings, so die Forscher, gaben sich die Bots in diesen Tests zu schnell zufrieden, weil sie nur die Einigungswahrscheinlichkeit, nicht aber die Punktzahl maximierten. Also entwickelten sie ein weiteres, neuartiges Trainingsmodell, das sie Dialog-“Rollout“ nannten: Die Chatbots sollten – ähnlich wie zum Beispiel beim Schachspiel – mehrere Schritte im Voraus durchrechnen, wie ihr Verhandlungspartner auf unterschiedliche Äußerungen reagieren dürfte, und dann diejenige wählen, die nach mehreren Schritten das optimale Ergebnis versprach. Hier erreichten sie 6,4 gegenüber 7,5 Punkten.

Am besten – und eben trickreichsten – aber wurden die Bots durch das so genannte Verstärkungslernen. In vielen Runden spielte dafür zunächst Bot gegen Bot, und diejenigen Strategien, die am meisten Erfolg brachten, wurden gespeichert. Bei erfolgreichen Verhandlungen mit Menschen kamen die Bots anschließend auf durchschnittlich 7,1 Punkte. In Kombination mit dem Rollout-Verfahren wurden durch das Verstärkungslernen sogar 8,0 Punkte erreicht.

In 82,4 Prozent der Fälle war dieses Ergebnis zudem pareto-optimal – keine Seite hätte sich also einen höheren Wert sichern können, ohne der anderen per Saldo Punkte wegzunehmen. Bei Verhandlungen unter Menschen wurde das nur bei 76,9 Prozent der Dialoge erreicht. Die Bots verhandelten also effizienter, als es Menschen untereinander schafften.

Allerdings zeigte sich auch: Wenn die Bots raffinierter wurden, kam es seltener überhaupt zu einer Einigung mit dem menschlichen Gegenüber. Bei der Kombination Rollout und Verstärkungslernen fanden nur noch 57,2 Prozent der Verhandlungen ein einvernehmliches Ende (nach maximal 10 zulässigen Runden). Menschen untereinander dagegen einigten sich in vier von fünf Fällen, Menschen und das einfachste Modell fast ebenso häufig.

Die Unterschiede könnten laut den Forschern damit zusammenhängen, dass die Bots durch Verstärkungslernen nicht nur geschickt wurden, sondern auch etwas stur: Häufig gingen sie nicht näher auf ein Gegenangebot ein, sondern wiederholten einfach ihre erste Forderung. In Trainingsverhandlungen mit emotionslosen anderen Bots hatten sie offenbar gelernt, dass das funktioniert, Menschen aber fanden dieses Vorgehen ärgerlich und waren nicht zu einer Einigung bereit, auch wenn dann beide Seiten 0 Punkte bekamen.

Die Forschungsergebnisse dürften sich als hilfreich bei der Entwicklung von digitalen Assistenten erweisen – sowohl Facebook als auch andere IT-Größen wie Amazon und Apple arbeiten intensiv daran, sie nützlicher zu machen. Ein etwas verstörender Nebenaspekt der Studie: Die menschlichen Probanden merkten in der überwiegenden Zahl der Fälle nicht, dass sie es mit einem Computer zu tun hatten. Dazu mussten die Forscher beim Verstärkungstraining allerdings gelegentlich eingreifen: Wenn sie die Modelle zu lange nur untereinander trainieren ließen, begannen die Bots, in einer für Menschen nicht verständlichen Sprache zu kommunizieren.

(sma)