Anthropic stellt Claude Opus 4.6 mit Agent Teams vor
Das neue KI-Modell Claude Opus 4.6 bringt verbesserte Coding-Fähigkeiten, ein größeres Kontextfenster und erstmals eine „Agent-Teams“-Funktion.
(Bild: Anthropic)
Anthropic hat das neue KI-Modell Opus 4.6 vorgestellt, das primär beim Programmieren deutlich besser abschneiden soll als der Vorgänger. Opus 4.6 ist die erste Version der Opus-Klasse mit einem Kontextfenster von einer Million Token – allerdings noch als Beta-Funktion. Weitere Neuerungen: Agentische Coding-Teams sollen komplexe Aufgaben parallel bearbeiten, Claude passt die Nachdenkzeit automatisch der Fragestellung an und die maximale Ausgabelänge verdoppelt sich. Leistungsfähiger wird die neue Opus-Version obendrein.
Mehrere KI-Instanzen koordinieren
Eine zentrale Neuerung ist die Agent-Teams-Funktion in Claude Code, die sich aktuell in einer Research Preview befindet. Damit lassen sich mehrere Claude-Code-Instanzen parallel ausführen und koordinieren – ähnlich wie bei der kürzlich vorgestellten Codex-App von OpenAI. Eine federführende Session koordiniert dabei die Arbeit, weist Tasks zu und fasst Ergebnisse zusammen. Kurz nach der Veröffentlichung von Opus 4.6 hat OpenAI eine aktualisierte Version GPT-5.3 Codex veröffentlicht. Sie soll GPT-5.2 und GPT-5.2 Codex zusammenführen sowie 25 Prozent schneller sein als die Vorversion.
Die einzelnen Team-Mitglieder sind unabhängige Sessions mit eigenem Kontextfenster. Sie können direkt miteinander kommunizieren und greifen auf eine gemeinsame Task-Liste zu. Die Team-Mitglieder können sich Tasks selbst zuweisen oder zugewiesen bekommen und arbeiten parallel an verschiedenen Problemen. Aktiviert wird die Funktion über die Umgebungsvariable CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1. Agent Teams verursachen höhere Token-Kosten, weil jede Instanz separat abgerechnet wird. Sie sind für komplexe Zusammenarbeit gedacht, bei der mehrere Perspektiven oder parallele Lösungsansätze gefragt sind.
Im Gegensatz zu den agentischen Teams arbeiten Subagents innerhalb einer einzelnen Session und liefern ihre Ergebnisse nur an den beauftragenden Agenten zurück. Anthropic sieht diese Unteragenten eher für fokussierte Einzelaufgaben vor.
Opus 4.6 bringt weitere neue Funktionen: „Context Compaction“ fasst alte Kontextinformationen zusammen, um Platz für neue Eingaben zu schaffen. „Adaptive Thinking“ verlängert automatisch die Denkzeit des Modells, wenn komplexe Aufgaben dies erfordern. Entwickler können zudem zwischen vier Effort-Levels wählen (low, medium, high, max), um den Rechenaufwand zu steuern. Die maximale Ausgabelänge wurde auf 128.000 Token erhöht.
Benchmark-Anführer
Opus 4.6 führt laut Anthropic diverse der obligatorischen Benchmarks an: Auf Terminal-Bench 2.0, das agentenbasiertes Programmieren testet, erreicht Opus 4.6 laut Anthropic die höchste Punktzahl aller Modelle. Beim Reasoning-Benchmark „Humanity's Last Exam“ liege es ebenfalls vorn. Besonders deutlich sei der Vorsprung im GDPval-AA-Test, der prüft, wie gut KI‑Modelle wirtschaftlich relevante Arbeitsaufgaben erledigen können. Hier übertrifft Opus 4.6 OpenAIs GPT-5.2 um 144 Elo-Punkte und den direkten Vorgänger Opus 4.5 um 190 Elo-Punkte.
Bei der Verarbeitung langer Kontexte zeigt sich ein erheblicher Fortschritt gegenüber dem Vorgänger: Im MRCR v2 8-needle 1M-Test erreicht Opus 4.6 eine Erfolgsquote von 76 Prozent, während Sonnet 4.5 nur auf 18,5 Prozent kommt. Der BigLaw Bench attestiert dem Modell mit 90,2 Prozent den höchsten Score, den bisher ein Claude-Modell erreicht hat – 40 Prozent der Antworten waren perfekt, 84 Prozent erreichten eine Bewertung von mindestens 0,8.
Beim Thema Sicherheit liegt Opus 4.6 laut der veröffentlichten System Card auf dem Niveau anderer Frontier-Modelle. Die Rate fehlausgerichteten Verhaltens wie Täuschung oder übermäßige Anpassung an Nutzerwünsche sei gering. Das Modell zeige die gleiche Ausrichtung wie Opus 4.5, das zuvor als am besten ausgerichtet galt, habe aber niedrigere Over-Refusal-Raten. Für Cybersecurity hat Anthropic sechs neue Testszenarien entwickelt. Das Modell erfüllt den ASL-3-Standard von Anthropic.
Die Preise liegen bei 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token. Für Premium-Anfragen mit mehr als 200.000 Token erhöhen sich die Preise auf 10 respektive 37,50 US-Dollar. Künftig müssen Kunden zudem zehn Prozent Aufschlag zahlen, wenn die Inferenz ausschließlich in den USA laufen soll.
Hinweis auf die Veröffentlichung von OpenAI GPT-5.3 Codex ergänzt.
(vza)