MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

MM-ToolBench führt die geschlossene multimodale Verifikation als Evaluierungsstandard ein: Agenten führen Aufgaben aus, prüfen die resultierenden Artefakte und korrigieren sich selbst, bevor sie bewertet werden — womit Selbstberichte durch tatsächliche Artefaktergebnisse ersetzt werden. Über 100 Aufgaben in den Bereichen Kundendienst und Intelligente Erstellung, 27 MCP-Server und 324 Tools hinweg erreicht Claude Opus 4.6 eine Aufgabenerfolgsquote von 32,0 % gegenüber einer menschlichen Baseline von 94,0 %.

Warum das wichtig ist

Die Lücke von 62 Prozentpunkten unter geschlossener Verifikation ist ein ehrlicheres Maß für die aktuelle Leistungsfähigkeit von Agenten als Leaderboard-Selbstberichte. Sie quantifiziert den verbleibenden Entwicklungsraum für Tool-nutzende Agenten und etabliert einen konkreten externen Benchmark für die Evaluation von MCP-Toolchains.