7 Artikel

#swe-bench

Schwebende KI-Benchmark-Rangliste mit GPT-5.5 an der Spitze bei 70 % und einem Terminal mit git-log-Ausgabe, das den Claude Opus Benchmark-Loophole symbolisiert

DeepSWE neu sortiert: GPT-5.5 führt mit 70%, Claude-Loophole enthüllt

DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.

29. Mai 20262 Min. Lesezeit

Technologiebreaking

Cursor Composer 2.5 erreicht 79,8 % SWE-Bench – für unter 1 US-Dollar pro Aufgabe

Cursor Composer 2.5 erreicht 79,8 % auf SWE-Bench Multilingual für unter 1 USD pro Task – 11-mal günstiger als Wettbewerber bei vergleichbarer Benchmark-Performance.

20. Mai 20261 Min. Lesezeit

Zwei vertikale Kostenbalken zeigen 1 $/Aufgabe vs. 11 $/Aufgabe bei gleicher SWE-Bench-Genauigkeit von 79,8 %

ToolsBemerkenswert

Cursor Composer 2.5: 79,8 % SWE-Bench für unter 1 $/Aufgabe

Cursors Composer 2.5 erreicht 79,8 % SWE-Bench Multilingual für unter 1 $/Aufgabe – 11× günstiger als Konkurrenten dank 25× mehr synthetischer Trainingsaufgaben.

19. Mai 20262 Min. Lesezeit

Forschungbreaking

Google Research veröffentlicht ReasoningBank: Agenten-Gedächtnis aus Fehlern und Erfolgen

Googles ReasoningBank trennt Erfolgs- und Misserfolgs-Trajektorien für Agenten-Gedächtnis: +8,3 Punkte auf WebArena, 57,4 % SWE-Bench bei nur +4,3 % Token-Overhead.

3. Mai 20261 Min. Lesezeit

Technologiebreaking

Poolside AI veröffentlicht erste öffentliche Modelle: Laguna M.1 & XS.2

Poolside AIs Laguna XS.2, ein 33B-MoE-Coding-Agent-Modell, startet unter Apache 2.0 und belegt Platz 12 auf SWE-Bench Pro.

29. April 20261 Min. Lesezeit

Forschungbreaking

TACO Framework reduziert agentischen Token-Overhead um ~10% auf SWE-Bench

TACO reduziert agentischen Token-Overhead bei Terminal-Agenten um ~10% auf SWE-Bench durch aus Trajektorien erlernte Kompressionsregeln.

24. April 20261 Min. Lesezeit

Technologie

Qwen3.6-27B übertrifft ein 397B-Modell bei Coding-Benchmarks

Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.

23. April 20262 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.