MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

MM-ToolBench ist ein neuer omnimodaler Tool-Nutzungs-Benchmark mit 100 ausführbaren Aufgaben, 27 MCP-Servern und 324 Tools in den Bereichen Kundendienst und Intelligente Erstellung, unter Verwendung geschlossener multimodaler Verifikation. Claude Opus 4.6 erreicht 32,0 % Aufgabenerfolg gegenüber einer menschlichen Baseline von 94,0 % – gemessen durch tatsächliche Ausführung mittels geschlossener Artefaktprüfung, nicht durch Selbstbericht.

1 Min. Lesezeit|agenticonsult Intelligence

MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

MM-ToolBench führt die geschlossene multimodale Verifikation als Evaluierungsstandard ein: Agenten führen Aufgaben aus, prüfen die resultierenden Artefakte und korrigieren sich selbst, bevor sie bewertet werden — womit Selbstberichte durch tatsächliche Artefaktergebnisse ersetzt werden. Über 100 Aufgaben in den Bereichen Kundendienst und Intelligente Erstellung, 27 MCP-Server und 324 Tools hinweg erreicht Claude Opus 4.6 eine Aufgabenerfolgsquote von 32,0 % gegenüber einer menschlichen Baseline von 94,0 %.

Warum das wichtig ist

Die Lücke von 62 Prozentpunkten unter geschlossener Verifikation ist ein ehrlicheres Maß für die aktuelle Leistungsfähigkeit von Agenten als Leaderboard-Selbstberichte. Sie quantifiziert den verbleibenden Entwicklungsraum für Tool-nutzende Agenten und etabliert einen konkreten externen Benchmark für die Evaluation von MCP-Toolchains.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

Warum das wichtig ist

Live News Feed