Konfrontation mit der Realität: Neuer KI-Benchmark OfficeQA

Databricks stellt OfficeQA vor: Ein Open-Source-Benchmark, der KI-Agenten in realitätsnahen Unternehmensszenarien testet.

vorlesen Druckansicht 2 Kommentare lesen
PC mit Gehirn drin, oranger Hintergrund

(Bild: heise medien)

Lesezeit: 2 Min.
Von
  • Prof. Jonas Härtfelder
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Mit OfficeQA stellt Databricks einen neuen Open-Source-Benchmark vor, der eine Lücke in der bisherigen Bewertung großer Sprachmodelle und KI-Agenten schließen soll. Anders als populäre Tests wie ARC-AGI-2, Humanity’s Last Exam oder GDPval zielt OfficeQA nicht auf abstrakte Denkaufgaben, sondern auf realitätsnahe Szenarien aus dem Unternehmensalltag – dort, wo Fehler teuer werden.

Im Fokus steht sogenanntes Grounded Reasoning: KI-Systeme müssen Fragen auf Basis großer, heterogener und teils unstrukturierter Dokumentbestände beantworten. Databricks greift dafür auf die U.S. Treasury Bulletins zurück – fast 89.000 Seiten mit Tabellen, Revisionen und historischen Daten von über acht Jahrzehnten. Der Benchmark umfasst 246 Fragen mit eindeutig prüfbaren Antworten, unterteilt in „leicht“ und „schwer“, je nachdem, wie gut aktuelle Frontier-Modelle abschneiden.

Anthropics Claude Opus 4.5 Agent löste 37,4 Prozent, während OpenAI’s GPT-5.1 Agent auf dem gesamten Datensatz 43,1 Prozent erreichte. Auf OfficeQA-Hard, einem Teilset mit 113 besonders schwierigen Beispielen, erzielte Claude Opus 4.5 Agent 21,1 Prozent und GPT-5.1 Agent 24,8 Prozent.

(Bild: Databricks)

Die Ergebnisse fallen niedrig aus. Ohne Zugriff auf den Dokumentenkorpus beantworten getestete Agenten – darunter ein GPT-5.1-Agent sowie ein Claude-Opus-4.5-Agent – nur rund zwei Prozent der Fragen korrekt. Selbst mit bereitgestellten PDFs liegt die Trefferquote unter 45 Prozent, bei besonders schwierigen Fragen sogar unter 25 Prozent. Die Ergebnisse legen nahe, dass starke Leistungen bei akademischen Benchmarks wenig über die Einsatzreife im Unternehmen aussagen.

Videos by heise

Die Analyse der Fehler offenbart bekannte, aber ungelöste Probleme: Parsing-Fehler bei komplexen Tabellen, unzureichender Umgang mit mehrfach überarbeiteten Finanzdaten und Defizite beim visuellen Verständnis von Diagrammen. Kritisch ist dabei weniger die Existenz dieser Schwächen als ihre Tragweite: In Unternehmenskontexten reicht „fast richtig“ nicht aus – falsche Kennzahlen oder veraltete Werte können gravierende Folgen haben.

Testfrage zur visuellen Interpretation: KI-Agenten scheitern daran, die Anzahl lokaler Maxima in den Liniendiagrammen auf Seite 5 des US Treasury Monthly Bulletin (September 1990) korrekt zu bestimmen.

(Bild: Databricks)

OfficeQA versteht sich damit weniger als Leistungsschau, sondern vielmehr als Diagnoseinstrument. Auffällig ist die konsequente Ausrichtung auf realitätsnahe Dokumente und eindeutig, automatisiert überprüfbare Antworten. Zugleich bleibt die Frage offen, wie repräsentativ ein einzelner – wenn auch umfangreicher – Datenkorpus für die Vielfalt unternehmensinterner Informationsquellen ist. Hier muss sich der neue Benchmark in weiteren Szenarien erst bewähren. Genau dafür ruft Databricks den Grounded Reasoning Cup 2026 ins Leben: Forscher und Industriepartner sollen OfficeQA über das Treasury-Beispiel hinaus erproben und so zu einer breiteren Akzeptanz und Weiterentwicklung des Ansatzes beitragen.

Der von Databricks entwickelte OfficeQA-Benchmark wird als Open-Source-Projekt frei für die Forschungsgemeinschaft bereitgestellt und ist über das öffentliche GitHub-Repository abrufbar.

(fo)