Cursor Composer 2.5 erreicht 79,8 % SWE-Bench – für unter 1 US-Dollar pro Aufgabe

Cursor veröffentlicht Composer 2.5 mit 79,8 % auf SWE-Bench Multilingual bei unter 1 USD pro Task gegenüber ca. 11 USD für vergleichbare Konkurrenten – aufgebaut auf Kimi K2.5 mit 25-fach mehr synthetischem Training und Mid-Task-Feedback. Cursor trainiert darüber hinaus ein von Grund auf neu entwickeltes Modell auf SpaceXAIs Colossus-Cluster mit 1 Million H100-äquivalenten GPUs.

Cursor Composer 2.5: 79,8 % SWE-Bench bei unter 1 US-Dollar pro Aufgabe

Cursor hat Composer 2.5 ausgeliefert: 79,8 % auf SWE-Bench Multilingual bei rund 1 USD pro Task – gegenüber etwa 11 USD für vergleichbare Konkurrenten. Das Modell nutzt als Basis das offene Kimi K2.5, trainiert auf 25-fach mehr synthetischen Tasks mit Mid-Task-Feedback statt ausschließlicher Belohnung auf Basis des finalen Outputs. Ausschließlich in der IDE verfügbar, keine öffentliche API. Cursor trainiert separat ein von Grund auf neu entwickeltes Modell auf dem Colossus-Cluster von SpaceXAI (1 Million H100-äquivalente GPUs).

Warum das wichtig ist

Composer 2.5 markiert einen Kosten-Performance-Wendepunkt: Benchmark-Ergebnisse auf Frontier-Niveau zu Commodity-Kosten. Das von Grund auf neu trainierte Modell auf SpaceXAI-Hardware signalisiert Cursors Absicht, den eigenen Modell-Stack aufzubauen – statt langfristig von den APIs der Foundation-Labs abhängig zu bleiben.