Microsoft veröffentlicht Evaluations-Tool für Copilot-Agenten

Mit dem Tool Microsoft 365 Copilot Agent Evaluations CLI lassen sich Copilot‑Agenten systematisch testen und verbessern. Derzeit geht das kostenlos.

1

(Bild: IB Photography / Shutterstock.com)

12:10 Uhr

Lesezeit: 2 Min.

Developer

Von

Manuel Masiero

Microsoft hat das Microsoft 365 Copilot Agent Evaluations CLI vorgestellt. Das seit dem 8. Mai als kostenlose Vorschauversion verfügbare Kommandozeilentool ermöglicht es Nutzerinnen und Nutzern, die Qualität von KI‑Agenten zu testen und zu verbessern. Dazu sendet das Agent Evaluations CLI Fragen an einen Agenten und bewertet dessen Antworten mithilfe von Azure-OpenAI-Modellen.

Das Agent Evaluations CLI ist ein Teil der Microsoft-365-Copilot-Extensibility-Plattform, einer zentralen Microsoft-Plattform zur Verwaltung von KI-Agenten. Das Evaluations-CLI steht dort über das Admin Center zur Verfügung und fungiert als eigenständiges Developer-Tool zur Qualitätsmessung.

Bei einem Test sendet das CLI-Tool Prompts an einen innerhalb von Microsoft 365 bereitgestellten Agenten. Dabei unterstützt es mit JSON-Datensätzen, interaktiven Eingaben und Inline-Prompts wie --prompts "Frage 1" "Frage 2" drei Eingabearten, womit es strukturierte Tests genauso abbilden kann wie Live-Dialoge. Die Evaluierungsfunktion lässt sich auch beim Vibe Coding einsetzen.

Videos by heise

Checkliste für Agenten-Bewertung

Vom Agenten gelieferte Antworten bewertet das CLI anhand von sieben Metriken. In die Wertung fließt unter anderem mit ein, wie es um das Kontextverständnis bei Einzel‑ oder Mehrfachdialogen bestellt ist und wie gut der Agent Folgefragen verarbeiten kann. Getestet wird auch, ob der Agent End‑to‑End‑Aufgaben so ausführt, als würde er sich in einem echten Nutzerdialog befinden.

Das Microsoft 365 Copilot Agent Evaluations Tool zeigt eine Agenten-Bewertung im Balkendiagramm-Format — Das Testergebnis als HTML-Report: Das Agent Evaluations Tool hat einen KI-Agenten bewertet.

(Bild: Microsoft)

Die Testberichte im HTML‑, JSON‑ oder CSV‑Format können Entwicklerinnen und Entwickler in ihren eigenen Entwicklungszyklen, Code‑Reviews oder CI/CD‑Pipelines nutzen. Langfristig sollen solche systematischen und wiederholbaren Evaluierungen zu einem Standardbestandteil bei der Softwareentwicklung mit Microsoft 365 Copilot heranwachsen, wie Microsoft in seinem Developer-Blog schreibt.

Während der Testphase, deren Dauer Microsoft nicht konkretisiert, können Programmiererinnen und Programmierer das Microsoft 365 Copilot Agent Evaluations CLI kostenlos nutzen. Dazu benötigen sie eine Microsoft-365-Copilot‑Lizenz, Node.js 24.12.0 oder höher, einen im Tenant bereitgestellten Agenten samt Administratorzustimmung, diesen dort ausführen zu dürfen, sowie einen Azure-OpenAI-Endpunkt für die LLM-Bewertungen (standardmäßig gpt-4o-mini). Aktuell unterstützt das Tool ausschließlich Windows-Entwicklungsumgebungen; Support für macOS und Linux ist angekündigt.

(mro)