FinAI-Studie: Gleiches Modell, anderes Framework — bis zu dreifacher Genauigkeitsunterschied

Ein von NVIDIA geförderter Benchmark über vier Frontier-Modelle und fünf Agent-Frameworks ergab, dass allein die Framework-Wahl bei identischen Modellen Genauigkeitsschwankungen von bis zum Dreifachen erzeugt — Claude Sonnet 4.6 erreicht 66 % unter Claude Code, unter ReAct bei derselben Prüfungsaufgabe jedoch nur 20 %.

1 Min. Lesezeit|agenticonsult Intelligence

FinAI-Studie: Gleiches Modell, anderes Framework — bis zu dreifacher Genauigkeitsunterschied

Ein von 13 Institutionen getragener, von NVIDIA geförderter Benchmark, der am 13. Mai veröffentlicht wurde, setzte vier Frontier-LLMs in fünf Agent-Frameworks auf Finanzaufgaben an — darunter Trading, Hedging, Marktanalyse und Wirtschaftsprüfung. Die zentrale Erkenntnis: Claude Sonnet 4.6 erreichte unter Claude Code oder OpenClaw eine Prüfungsgenauigkeit von 66,15 %, brach unter ReAct bei identischem Modell-Backend jedoch auf 20 % ein — ein dreifacher Unterschied, der allein durch die Framework-Wahl entsteht. Keine Konfiguration bewahrte ihre Performance, als das Live-Bewertungsregime von einem bärischen in ein bullisches Marktumfeld wechselte.

Einordnung

Die Framework-Wahl ist mittlerweile ein messbares Geschäftsrisiko für agentische Deployments. Die dreifache Genauigkeitsschwankung durch die Harness-Wahl macht die Modellauswahl zur sekundären Variable — Unternehmen, die ausschließlich auf Modell-Benchmarks optimieren, optimieren die falsche Dimension.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

FinAI-Studie: Gleiches Modell, anderes Framework — bis zu dreifacher Genauigkeitsunterschied

FinAI-Studie: Gleiches Modell, anderes Framework — bis zu dreifacher Genauigkeitsunterschied

Einordnung

Live News Feed