MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline
MM-ToolBench zeigt Claude Opus 4.6 bei 32 % Task-Erfolgsquote gegenüber 94 % für Menschen – gemessen durch geschlossene multimodale Verifikation über 27 MCP-Server und 324 Tools.