ParseBench auf der CVPR 2026: Erste KI-Agenten-Dokumentenbenchmark
ParseBench auf der CVPR 2026: Die erste KI-Agenten-Dokumentenbenchmark — 2.000+ verifizierte Seiten, 167.000+ Testregeln, 5 Dimensionen. Open Source auf HuggingFace und GitHub.
ParseBench auf der CVPR 2026: Die erste KI-Agenten-Dokumentenbenchmark — 2.000+ verifizierte Seiten, 167.000+ Testregeln, 5 Dimensionen. Open Source auf HuggingFace und GitHub.
Claude Mythos erreichte METRs 3-Stunden-6-Minuten-Horizont für autonome Aufgaben im Mai — das mittlere Superforecaster-Ziel für Ende 2026, Monate früher als erwartet.
Datacurves DeepSWE-Benchmark — kontaminationsfrei, 0,3 % Prüffehler — setzt GPT-5.5 auf 70 % und deckt ein Claude-Opus-Schlupfloch auf.

DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.
Cursor Composer 2.5 erzielt nahezu Frontier-Benchmark-Scores bei 0,50 $/Aufgabe und übertrifft Gemini 3.5 Flash um 15 Punkte bei viermal niedrigerem Preis.
NanoGPT-Bench zeigt: Coding-Agenten wie Codex und Claude Code erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts – sie optimieren Hyperparameter, verpassen aber algorithmische Durchbrüche.
physics-intern Multi-Agenten-Framework: Gemini 3.1 Pro von 17,7 % auf 31,4 % auf CritPt-Benchmark gesteigert, neuer SOTA. Spezialisierte Teams korrigieren sich selbst.
GLM 5.1 führt den Artificial Analysis Intelligence Index vor allen geschlossenen Modellen an. Chinesisches Open-Weights-Modell führt SWE-Bench Pro an. Indexwachstum übertrifft Mooresches Gesetz.
Turings Open MM-RL: PhD-Niveau-MINT-Benchmark mit 100 % verifizierbaren Antworten, Platz 1 auf HuggingFace. Jede Aufgabe doppelt von PhD-Spezialisten geprüft. 3.000 weitere Aufgaben folgen.
DeepSeek v4 Flash Thinking schlägt Gemini 3.1 Flash Lite in allen drei Runden eines wissenschaftlichen Reasoning-Benchmarks, einschließlich Selbstverifizierungsstabilität.
METR-Evaluation zu Claude Mythos Preview ergibt 16+ Stunden autonomen Aufgabenhorizont bei 50 % Erfolgsrate — doppelt so weit wie das nächstbeste Modell.
DeepMinds KI-Mathematiker erzielt 48 % auf FrontierMath Tier 4 und setzt damit einen neuen KI-Rekord auf dem anspruchsvollsten formalen Mathematik-Benchmark.
LangChain und Harvey veröffentlichen LAB, einen Open-Source-Benchmark für KI-Agenten bei komplexen juristischen Aufgaben wie Recherche, Analyse und Vertragsentwurf.
APEX-Agents-Benchmark für Berater-, Anwalts- und Banker-Niveau hat jetzt ein Hugging Face Leaderboard für Open-Source-Modell-Evaluation.
GPT-5.5 erzielt 71,4 % vs. Mythos Previews 68,6 % in agentischen Benchmarks; GPT-5.5 erledigte eine 12-Stunden-Expertenaufgabe in 11 Minuten.

Ein wissenschaftlicher AlphaZero-Benchmark und ein globaler Hackathon bestätigen übereinstimmend Claude Opus 4.7 als aktuellen Frontier in agentic Coding.
Memori erreicht 81,95% LoCoMo-Genauigkeit bei nur 1.294 Token/Anfrage – 67% kleinere Prompts als Zep, 20-fach günstiger als Full-Context.
LlamaIndexs ParseBench auf Kaggle: 2.000 Unternehmensseiten, 167.000+ Testregeln, 5 Dimensionen – Gemini 3 Flash führt aktuell das Leaderboard.
OpenAI stellt ChatGPT für verifizierte US-Mediziner kostenlos bereit und veröffentlicht HealthBench Professional — ein offenes Benchmark, bei dem GPT-5.4 Ärzte übertrifft.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.