Cursor Composer 2.5: 79,8 % SWE-Bench bei unter 1 US-Dollar pro Aufgabe
Cursor hat Composer 2.5 ausgeliefert: 79,8 % auf SWE-Bench Multilingual bei rund 1 USD pro Task – gegenüber etwa 11 USD für vergleichbare Konkurrenten. Das Modell nutzt als Basis das offene Kimi K2.5, trainiert auf 25-fach mehr synthetischen Tasks mit Mid-Task-Feedback statt ausschließlicher Belohnung auf Basis des finalen Outputs. Ausschließlich in der IDE verfügbar, keine öffentliche API. Cursor trainiert separat ein von Grund auf neu entwickeltes Modell auf dem Colossus-Cluster von SpaceXAI (1 Million H100-äquivalente GPUs).
Warum das wichtig ist
Composer 2.5 markiert einen Kosten-Performance-Wendepunkt: Benchmark-Ergebnisse auf Frontier-Niveau zu Commodity-Kosten. Das von Grund auf neu trainierte Modell auf SpaceXAI-Hardware signalisiert Cursors Absicht, den eigenen Modell-Stack aufzubauen – statt langfristig von den APIs der Foundation-Labs abhängig zu bleiben.