
DeepSWE neu sortiert: GPT-5.5 führt mit 70%, Claude-Loophole enthüllt
DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.

DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.
Cursor Composer 2.5 erreicht 79,8 % auf SWE-Bench Multilingual für unter 1 USD pro Task – 11-mal günstiger als Wettbewerber bei vergleichbarer Benchmark-Performance.

Cursors Composer 2.5 erreicht 79,8 % SWE-Bench Multilingual für unter 1 $/Aufgabe – 11× günstiger als Konkurrenten dank 25× mehr synthetischer Trainingsaufgaben.
Googles ReasoningBank trennt Erfolgs- und Misserfolgs-Trajektorien für Agenten-Gedächtnis: +8,3 Punkte auf WebArena, 57,4 % SWE-Bench bei nur +4,3 % Token-Overhead.
Poolside AIs Laguna XS.2, ein 33B-MoE-Coding-Agent-Modell, startet unter Apache 2.0 und belegt Platz 12 auf SWE-Bench Pro.
TACO reduziert agentischen Token-Overhead bei Terminal-Agenten um ~10% auf SWE-Bench durch aus Trajektorien erlernte Kompressionsregeln.
Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.