KI-System als Verhandlungskünstler: Metas Cicero gewinnt in Diplomacy

Cicero schlägt sich überdurchschnittlich gut in dem Brettspiel Diplomacy, das geschickte Verhandlungen mit den Mitspielern erfordert.

(Bild: NicoElNino / shutterstock.com)

25.11.2022, 16:47 Uhr

Lesezeit: 8 Min.

Developer

Von

Rainald Menge-Sonnentag

KI-System als Verhandlungskünstler: Metas Cicero gewinnt in Diplomacy

Meta hat einen KI-Agenten vorgestellt, der darauf ausgelegt ist, mit Menschen zu verhandeln. Das System trägt den Namen des bekannten römischen Redners Cicero. Seine Verhandlungsfähigkeit hat das System im Brettspiel Diplomacy gezeigt. Laut Meta hat der KI-Agent im Schnitt über 40 anonyme Online-Partien deutlich besser abgeschnitten als menschliche Spielerinnen und Spieler.

Ein Spiel zum Verhandeln

Diplomacy entstand in den 50er-Jahren. Ziel des Spiels ist es, die Hoheit über Europa zu erlangen, indem man die meisten Versorgungszentren besetzt. Das klassische Spielfeld stellt eine Karte Europas vor dem Ersten Weltkrieg dar. Eine vollwertige Partie benötigt sieben Spieler für England, Frankreich, das Deutsche Reich, Österreich-Ungarn, Italien, das Russische und das Osmanische Reich.

Videos by heise

Wie der Name des Spiels andeutet, ist es nicht mit strategischem Geschick getan, sondern ein Sieg ist nur möglich, indem man mit anderen Bündnisse aushandelt. Diese dürfen auch gebrochen werden, denn am Ende kann es nur einen Sieger geben. Wer gewinnen will, muss somit nicht nur seine Spielsteine geschickt platzieren, sondern auch andere von der Zusammenarbeit und der eigenen Bündnistreue überzeugen. Spielglück durch Würfel oder Karten gibt es in Diplomacy nicht.

Cicero hat laut dem KI-Blog bei Meta bei der Onlinevariante des Brettspiels webDiplomacy nach 40 Partien eine doppelt so hohe Wertung erreicht wie durchschnittliche menschliche Spieler und ist in den oberen zehn Prozent derjenigen gelandet, die mehr als eine Onlinepartie gespielt haben.

Neue Herausforderung für die KI

Die Dialoge mit den anderen Spielern stellt andere Herausforderungen an Machine Learning als Spiele wie Schach oder Go. Big Blue II hat den Schachweltmeister Garrri Kasparow bereits vor 25 Jahren im Schach geschlagen. Es dauerte fast zehn Jahre, bis ein KI-Agent das komplexe Spiel Go gegen einen der stärksten Spieler der Welt gewinnen konnte: AlphaGo setzte 2016 auf tiefe neuronale Netze und trainierte zuvor mit Reinforcement Learning, indem er unzählige Partien gegen sich selbst spielte. Auch das KI-Sytem Liberatus, das 2017 vier professionelle Pokerspieler besiegte, setzte auf Reinforcement Learning und verzichtete dabei auf ein Deep Neural Network.

Einen Durchbruch in der Auswertung von Sprache erzielte IBM mit Watson, der 2011 die Quizshow Jeopardy gegen menschliche Gegner gewann. Allerdings musste er dabei nur für sich agieren und Weltwissen anwenden, aber nicht mit anderen verhandeln.

Herausforderung Mensch

Laut Meta galt es lange Zeit als fast unmöglich, dass ein KI-System das Spiel Diplomacy meistern könne. Um zu gewinnen, muss man die Pläne und Perspektiven der anderen verstehen und seine Strategie anpassen. Ein Sieg ist nur möglich, wenn man andere davon überzeugen kann, zusammenzuarbeiten. Wie beim Poker muss das System erkennen, wenn jemand blufft. Gleichzeitig muss es verhindern, dass Bündnispartner ein bestimmtes Vorgehen als zu aggressiv werten und sich daher abwenden.

Der menschliche Faktor ist eine besondere Herausforderung, die sich bei Diplomacy für einen KI-Agenten ergibt. Während beispielsweise AlphaGo vor allem durch Spielen gegen sich selbst gelernt hat, muss Cicero erkennen, wie Menschen in einer bestimmten Situation reagieren könnten und dabei den bisherigen Dialogverlauf auswerten. In Diplomacy sind Aktionen und Reaktionen vielfältig, sodass ein Training mit einer reinen Kopie von sich selbst, die dieselben Voraussetzungen mitbringt und ebenfalls einen optimalen Verlauf anstrebt, wenig hilfreich ist.

Zwei Felder zusammengeführt

Cicero kombiniert eine Engine, die ähnlich wie die von Pluribus und AlphaGo auf strategisches Denken ausgelegt ist, mit einem NLP-Modell (Natural Language Processing). Letzteres ist an den BART-Transformer (Bidirectional and Auto-Regressive Transformers) angelehnt, der seinerseits Techniken aus dem Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) und dem Transformer GPT-2 kombiniert.

Lesen Sie auch

Wer, wie, was: Textanalyse über Natural Language Processing mit BERT

Passende Antwort: Neuronale Suche und Question Answering

Meta hat das NLP-Modell mit Texten aus dem Internet trainiert und 40.000 Partien mit Dialogen von webDiplomacy für das Feintuning eingespeist. Das System wurde unter anderem darauf trainiert, einen Zusammenhang zwischen Nachrichten und geplanten Aktionen herzustellen, damit es Aussagen erkennen und selbst Bündnisanfragen in der Form "Hi England! Are you willing to support me into Burgundy this turn?" machen kann.

Cicero betrachtet zu Beginn jedes Zuges sowohl den aktuellen Stand und den Verlauf auf dem Spielbrett als auch die seit Spielstart geführten Dialoge. Anschließend simuliert die Engine mögliche Spielverläufe, um eigene Handlungsmöglichkeiten zu erarbeiten und gleichzeitig die Intention der anderen Spielerinnen und Spieler zu erahnen.

Anhand der bisherigen Aktionen und Dialoge versucht Cicero die für ihn günstigste Aktion zu erkennen.

(Bild: Meta)

Anschließend erstellt die NLP-Komponente Nachrichten, die einige Filter abschließend bereinigen. Sie sollen dafür sorgen, dass die Aussagen zur Intention passen und konsistent zu den bisherigen Dialogen sind.

Ein rein auf Supervised Learning aufbauender Ansatz für die Strategie, bei dem das System mit gelabelten Daten aus zahlreichen Partien lernt, war keine Option. Jemand, der den Ansatz kennt oder erkennt, kann das durch Training gelernte Verhalten ausnutzen. So könnte beispielsweise die Aussage "Ich bin froh, dass wir uns darauf geeinigt haben, dass du deine Einheiten aus Paris herausziehst" dazu führen, dass der KI-Agent tatsächlich seinen Spielstein aus der französischen Hauptstadt wegnimmt, da das Verhalten zu der Aussage passt.

Daher verwendet Cicero zusätzlich einen eigens entwickelten Algorithmus, der KL Divergenz (Kullback-Leibler) nutzt und piKL heißt. Er passt seine Vorhersagen laufend an und soll dabei möglichst nah an der menschlichen Spielweise bleiben.

Cicero versucht andere davon zu überzeugen, dass beide von einer Kooperation profitieren.

(Bild: Meta)

Cicero nutzt unterschiedliche Strategien, um potenzielle Bündnisparter zu überzeugen, von einfachen Ansagen bis zu Überzeugungsarbeit, warum beide einen Vorteil aus einer Kooperation ziehen. Auch längerfristige Planungen für künftige Züge vermittelt das System.

Trotz der Filter und Anpassungen ist das System nicht perfekt und widerspricht sich teilweise noch. Der Blogbeitrag zeigt ein Beispiel, in dem Cicero einem Mitspieler zunächst einen Zug nach Venedig vorschlägt, um kurz darauf zu sagen, dass er es für keine gute Idee hält, dass der Mitspieler dorthin zieht.

Gelegentlich macht Cicero widersprüchliche Vorschläge für dieselben Mitspieler.

(Bild: Meta)

Kein Spielzeug

Das langfristige Ziel ist, dass KI-Systeme sich besser auf die Kommunikation mit Menschen einstellen und ihr Vorgehen anpassen. Diplomacy dient dabei als Umgebung, in der die Data Scientists das Verhalten der KI studieren können und dabei auch Strategien im Umgang mit Menschen lernt. So soll das System unter anderem in der Lage sein, auf direkte Vorteile zu verzichten, um sich langfristig die Unterstützung von anderen zu sichern.

Auf dem Weg, KI-Agenten für den sinnvollen Einsatz in realen Anwendungen zu schicken, gibt es aus Metas Sicht noch zahlreiche Herausforderungen zu überwinden. Das ist auch die erklärte Motivation für die Open-Source-Legung von Cicero. Meta sieht viele Anwendungsfelder für die Technik hinter dem KI-Agenten, der derzeit nur auf das Brettspiel ausgelegt ist. Unter anderem könnten Chatbots oder digitale Assistenten sich besser auf die Menschen einstellen. Bleibt die Frage, ob es reine Unterstellung ist, dass Firmen wie das ehemals als Facebook geführte Meta mit solchen Agenten Menschen besser davon überzeugen könnten, Geld oder Daten dazulassen.

Weitere Details lassen sich dem Facebook-KI-Blog entnehmen, und einen tieferen Einblick bietet ein Artikel des Teams im Science-Magazin. Meta wechselt in unterschiedlichen Beiträgen zwischen der regulären Schreibweise Cicero und Versalschrift als CICERO. Der Code des KI-Agenten findet sich auf GitHub. Dort liegen auch Daten mit den Dialogen aus Partien, die Cicero gespielt hat.

(rme)