19 Artikel

#benchmark

ParseBench auf der CVPR 2026: Erste KI-Agenten-Dokumentenbenchmark

ParseBench auf der CVPR 2026: Die erste KI-Agenten-Dokumentenbenchmark — 2.000+ verifizierte Seiten, 167.000+ Testregeln, 5 Dimensionen. Open Source auf HuggingFace und GitHub.

7. Juni 20261 Min. Lesezeit

Technologiebreaking

Claude Mythos erreicht 3-Stunden-Horizont für autonome Aufgaben

Claude Mythos erreichte METRs 3-Stunden-6-Minuten-Horizont für autonome Aufgaben im Mai — das mittlere Superforecaster-Ziel für Ende 2026, Monate früher als erwartet.

7. Juni 20261 Min. Lesezeit

Forschungbreaking

DeepSWE-Benchmark kürt GPT-5.5 mit 70 % und deckt Claude-Opus-Schlupfloch auf

Datacurves DeepSWE-Benchmark — kontaminationsfrei, 0,3 % Prüffehler — setzt GPT-5.5 auf 70 % und deckt ein Claude-Opus-Schlupfloch auf.

29. Mai 20261 Min. Lesezeit

Schwebende KI-Benchmark-Rangliste mit GPT-5.5 an der Spitze bei 70 % und einem Terminal mit git-log-Ausgabe, das den Claude Opus Benchmark-Loophole symbolisiert

ForschungBedeutsam

DeepSWE neu sortiert: GPT-5.5 führt mit 70%, Claude-Loophole enthüllt

DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.

29. Mai 20262 Min. Lesezeit

Technologiebreaking

Cursor Composer 2.5 setzt neuen Preis-Leistungs-Maßstab bei 0,50 $/Aufgabe

Cursor Composer 2.5 erzielt nahezu Frontier-Benchmark-Scores bei 0,50 $/Aufgabe und übertrifft Gemini 3.5 Flash um 15 Punkte bei viermal niedrigerem Preis.

27. Mai 20261 Min. Lesezeit

Forschungbreaking

NanoGPT-Bench: Coding-Agenten erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts

NanoGPT-Bench zeigt: Coding-Agenten wie Codex und Claude Code erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts – sie optimieren Hyperparameter, verpassen aber algorithmische Durchbrüche.

20. Mai 20261 Min. Lesezeit

Forschungbreaking

physics-intern Multi-Agenten-Framework verdoppelt Gemini 3.1 Pro-Score auf CritPt

physics-intern Multi-Agenten-Framework: Gemini 3.1 Pro von 17,7 % auf 31,4 % auf CritPt-Benchmark gesteigert, neuer SOTA. Spezialisierte Teams korrigieren sich selbst.

14. Mai 20261 Min. Lesezeit

Technologiebreaking

GLM 5.1 führt jetzt den Artificial Analysis Intelligence Index vor allen geschlossenen Modellen an

GLM 5.1 führt den Artificial Analysis Intelligence Index vor allen geschlossenen Modellen an. Chinesisches Open-Weights-Modell führt SWE-Bench Pro an. Indexwachstum übertrifft Mooresches Gesetz.

14. Mai 20261 Min. Lesezeit

Forschungbreaking

Turings Open MM-RL erreicht Platz 1 auf HuggingFace mit PhD-Niveau MINT-Benchmark

Turings Open MM-RL: PhD-Niveau-MINT-Benchmark mit 100 % verifizierbaren Antworten, Platz 1 auf HuggingFace. Jede Aufgabe doppelt von PhD-Spezialisten geprüft. 3.000 weitere Aufgaben folgen.

14. Mai 20261 Min. Lesezeit

Technologiebreaking

DeepSeek v4 Flash Thinking schlägt Gemini Flash deutlich beim wissenschaftlichen Denken

DeepSeek v4 Flash Thinking schlägt Gemini 3.1 Flash Lite in allen drei Runden eines wissenschaftlichen Reasoning-Benchmarks, einschließlich Selbstverifizierungsstabilität.

10. Mai 20261 Min. Lesezeit

Forschungbreaking

METR-Evaluation: Claude Mythos Preview erreicht 16-Stunden autonomen Aufgabenhorizont

METR-Evaluation zu Claude Mythos Preview ergibt 16+ Stunden autonomen Aufgabenhorizont bei 50 % Erfolgsrate — doppelt so weit wie das nächstbeste Modell.

9. Mai 20261 Min. Lesezeit

Forschungbreaking

DeepMind-KI-Mathematiker erzielt 48 % auf FrontierMath Tier 4 — neuer KI-Rekord

DeepMinds KI-Mathematiker erzielt 48 % auf FrontierMath Tier 4 und setzt damit einen neuen KI-Rekord auf dem anspruchsvollsten formalen Mathematik-Benchmark.

9. Mai 20261 Min. Lesezeit

Toolsbreaking

LangChain und Harvey veröffentlichen Open-Source-Benchmark für juristische KI-Agenten

LangChain und Harvey veröffentlichen LAB, einen Open-Source-Benchmark für KI-Agenten bei komplexen juristischen Aufgaben wie Recherche, Analyse und Vertragsentwurf.

7. Mai 20261 Min. Lesezeit

Forschungbreaking

Mercors APEX-Agents-Benchmark erhält Hugging Face Leaderboard für Open-Source-Modelle

APEX-Agents-Benchmark für Berater-, Anwalts- und Banker-Niveau hat jetzt ein Hugging Face Leaderboard für Open-Source-Modell-Evaluation.

1. Mai 20261 Min. Lesezeit

Forschungbreaking

GPT-5.5 erreicht nahezu Parität mit Claude Mythos Preview: 71,4 % vs. 68,6 %

GPT-5.5 erzielt 71,4 % vs. Mythos Previews 68,6 % in agentischen Benchmarks; GPT-5.5 erledigte eine 12-Stunden-Expertenaufgabe in 11 Minuten.

1. Mai 20261 Min. Lesezeit

Dominantes KI-Token über einem Wettbewerbsraster mit sechs Hackathon-Gewinner-Icons im Hintergrund

TechnologieBemerkenswert

Claude Opus 4.7 dominiert Coding-Benchmark und gewinnt Hackathon mit sechs Projekten

Ein wissenschaftlicher AlphaZero-Benchmark und ein globaler Hackathon bestätigen übereinstimmend Claude Opus 4.7 als aktuellen Frontier in agentic Coding.

30. April 20262 Min. Lesezeit

Toolsbreaking

Memori erreicht 81,95% LoCoMo-Genauigkeit bei nur 4,97% der Full-Context-Token

Memori erreicht 81,95% LoCoMo-Genauigkeit bei nur 1.294 Token/Anfrage – 67% kleinere Prompts als Zep, 20-fach günstiger als Full-Context.

27. April 20261 Min. Lesezeit

Toolsbreaking

LlamaIndex launcht ParseBench: Unternehmens-Dokument-OCR-Benchmark auf Kaggle

LlamaIndexs ParseBench auf Kaggle: 2.000 Unternehmensseiten, 167.000+ Testregeln, 5 Dimensionen – Gemini 3 Flash führt aktuell das Leaderboard.

24. April 20261 Min. Lesezeit

Branche

OpenAI bietet US-Klinikern kostenloses ChatGPT an und veröffentlicht HealthBench

OpenAI stellt ChatGPT für verifizierte US-Mediziner kostenlos bereit und veröffentlicht HealthBench Professional — ein offenes Benchmark, bei dem GPT-5.4 Ärzte übertrifft.

23. April 20262 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.