Wie gut GPT-4 in der Kriegsplanung ist

US-Forscher haben GPT-4 für die Gefechtsplanung in einem Wargame eingesetzt. Das Modell schlug sich besser als bisher veröffentlichte militärische KIs.

34

(Bild: ThalesAntonio/Shutterstock.com)

13.03.2024, 11:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Zwei Forscher des Army Research Laboratory, dem zentralen Forschungslabor der US-Armee für Grundlagenforschung, haben ein speziell angepasstes Sprachmodell entwickelt, das militärische Einsatzpläne entwickelt. In simulierten Militäreinsätzen schlugen sich die Sprachmodelle besser als Künstliche Intelligenz (KI), die mit Hilfe von Verstärkungslernen trainiert wurden. Technische Einzelheiten beschreiben Vinicius G. Goecks und Nicholas Waytowich in einem Paper, das sie auf der Preprint-Plattform arXiv veröffentlichten.

Weltweit erhoffen sich Militärs von KI mehr Geschwindigkeit und Präzision auf dem Schlachtfeld. So hatte das US-Militär erst kürzlich dem Unternehmen Palantir einen Auftrag über 178 Millionen Dollar für die Entwicklung einer automatisierter Zielerfassung mithilfe von KI erteilt.

GPT-4 gibt die Befehle

Da scheint es nur naheliegend, KI auch direkt in die Kommandostruktur einzubinden – und zwar mit Hilfe großer Sprachmodelle. In ihrem Experiment gaben die Militärforscher zwei Versionen von GPT-4 daher Beispiele und Kontext-Informationen vor, die die Modelle befähigen sollten, Einsatzpläne für eine kleine Anzahl von Militäreinheiten zu entwickeln. Dann gaben sie ihren KI-Assistenten den Auftrag, in einem vorgegebenen Szenario alle feindlichen Kräfte zu vernichten und einen Zielpunkt einzunehmen.

Um zu prüfen, wie gut die Einsatzpläne funktionieren, ließen sie das COA-GPT (Course of Action) die Simulationen auf der Grundlage von Starcraft II durchspielen. Die Simulations-Plattform dafür hatten die Forscher bereits 2017 entwickelt, um KI-Agenten für simulierten Starcraft-Schlachten zu trainieren, bei denen die militärischen Eigenschaften der Spielfiguren auf reale militärische Einheiten und historische Szenarien abgebildet wurden. Die "feindlichen" Kräfte werden dabei durch die im Spiel eingebauten Bots gesteuert, die im Wesentlichen auf Skripten basieren.

Im Test schnitt COA-GPT tatsächlich besser ab als die bislang besten Programme. Die Effizienz konnte noch weiter gesteigert werden, wenn die Forscher für eine zweite, verbesserte Planungsrunde das Feedback menschlicher Experten einholten. Die Ergebnisse waren jedoch keineswegs perfekt. Die Sprachmodelle erlitten beispielsweise mehr Verluste als die anderen KI-Agenten. Die Autoren sehen in ihrem Modell aber "einen transformativen Ansatz in militärischen C2-Operationen (Command and Control), die eine schnellere, agilere Entscheidungsfindung ermöglichen und daher in modernen Kriegen einen strategischen Vorteil bieten".

Eine Frage der Planung

Mit mehr Präzision und Geschwindigkeit bewirbt auch Palantir eine KI-Plattform für militärische Einsätze. Veröffentlicht hat das Unternehmen allerdings bisher nur ein Video, aus dem sich die Funktion der Plattform nicht wirklich erschließen lässt. Wie gut große Sprachmodelle wirklich planen können, ist innerhalb der Forschung jedoch umstritten. Zumindest ein Teil der Experten geht davon aus, dass große Sprachmodelle weder wirklich logische Schlüsse ziehen, noch planen können, sondern lediglich mit Versatzstücken aus ihrem Trainingsmaterial hantieren, so dass es so aussieht, als würden sie tatsächlich planen.

Forscher des Georgia Institute of Technology, der Stanford University, der Northeastern University und der Hoover Wargaming and Crisis Simulation Initiative haben zudem erst kürzlich festgestellt, dass das "Eskalations-Risiko‟ erheblich steigt, wenn große Sprachmodelle militärische und diplomatische Entscheidungen treffen würden. Zumindest in fiktiven Krisenszenarien schreckten die Sprachmodelle auch vor dem Einsatz von Atombomben nicht zurück.