FinAI-Studie: Gleiches Modell, anderes Framework — bis zu dreifacher Genauigkeitsunterschied

Ein von 13 Institutionen getragener, von NVIDIA geförderter Benchmark, der am 13. Mai veröffentlicht wurde, setzte vier Frontier-LLMs in fünf Agent-Frameworks auf Finanzaufgaben an — darunter Trading, Hedging, Marktanalyse und Wirtschaftsprüfung. Die zentrale Erkenntnis: Claude Sonnet 4.6 erreichte unter Claude Code oder OpenClaw eine Prüfungsgenauigkeit von 66,15 %, brach unter ReAct bei identischem Modell-Backend jedoch auf 20 % ein — ein dreifacher Unterschied, der allein durch die Framework-Wahl entsteht. Keine Konfiguration bewahrte ihre Performance, als das Live-Bewertungsregime von einem bärischen in ein bullisches Marktumfeld wechselte.

Einordnung

Die Framework-Wahl ist mittlerweile ein messbares Geschäftsrisiko für agentische Deployments. Die dreifache Genauigkeitsschwankung durch die Harness-Wahl macht die Modellauswahl zur sekundären Variable — Unternehmen, die ausschließlich auf Modell-Benchmarks optimieren, optimieren die falsche Dimension.