7 Artikel

#benchmarks

MM-ToolBench: Claude Opus 4.6 erreicht nur 32 % Task-Erfolg gegenüber 94 % menschlicher Baseline

MM-ToolBench zeigt Claude Opus 4.6 bei 32 % Task-Erfolgsquote gegenüber 94 % für Menschen – gemessen durch geschlossene multimodale Verifikation über 27 MCP-Server und 324 Tools.

20. Mai 20261 Min. Lesezeit

Toolsbreaking

LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung

LangChains DeepAgents Harness Profiles liefern 10–20 Punkte tau2-bench-Verbesserung durch modellspezifische System-Prompt- und Middleware-Overrides.

7. Mai 20261 Min. Lesezeit

Forschungbreaking

Alibabas AgenticQwen-30B (3B aktiv) erreicht Qwen3-235B-Niveau beim Tool-Einsatz

AgenticQwen-30B-A3B erreicht 50,2 Punkte auf Tool-Use-Benchmarks und entspricht damit Qwen3-235B. RL-Trainingsschleifen kehren die Kostenkurve um.

4. Mai 20261 Min. Lesezeit

Forschungbreaking

Harness-Engineering schlägt Modell-Upgrades: AHE-Framework und 20 % Terminal-Bench-Gewinne

AHE-Framework hebt Pass@1 von 69,7 % auf 77,0 %; harness-seitige Änderungen bringen 13–20 % Terminal-Bench-Gewinn ohne Modell-Update.

4. Mai 20261 Min. Lesezeit

Forschungbreaking

Anthropics BioMysteryBench: Claude löst 30 % der expertenresistenten Bioinformatik-Rätsel

Anthropics BioMysteryBench testete Claude an 99 Bioinformatik-Problemen; neueste Modelle lösten rund 30 % der expertenresistenten Fälle in offener Forschung.

30. April 20261 Min. Lesezeit

Technologiebreaking

Sakana AI lanciert Fugu Beta: Multi-Agenten-System erreicht SOTA auf drei Benchmarks

Sakana AIs Fugu Beta erreicht SOTA auf SWE-Pro, GPQA-D und ALE-Bench durch dynamische Frontier-Model-Orchestrierung via OpenAI-kompatibler API.

24. April 20261 Min. Lesezeit

Forschungreport

Open-Source LLM Landschaft Q1 2026: Leistung, Lizenzierung und Deployment-Oekonomie

Eine vergleichende Analyse des Open-Source-LLM-Oekosystems zu Beginn von Q2 2026 — Performance-Benchmarking gegen proprietaere Alternativen, Lizenzlandschaft und Gesamtbetriebskosten fuer Self-Hosted-Deployments.

15. März 202616 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.