Cursor Composer 2.5: 79,8 % SWE-Bench für unter 1 $/Aufgabe

Cursor hat Composer 2.5 veröffentlicht — sein erstes intern trainiertes Coding-Modell — mit 79,8 % auf SWE-Bench Multilingual, auf Augenhöhe mit Claude Opus 4.7 und GPT-5.5, für unter 1 $ pro Aufgabe gegenüber bis zu 11 $ bei vergleichbaren Modellen. Der Leistungsgewinn entsteht nicht durch einen Basismodellwechsel, sondern durch das Training des quelloffenen Kimi K2.5 auf 25-mal mehr synthetischen Aufgaben mit Zwischen-Feedback-Schleifen; parallel befindet sich ein komplett neu aufgebautes Modell im Training auf SpaceXAIs Colossus-Cluster.

Was die Quelle tatsächlich sagt

AlphaSignals Newsletter vom 19. Mai beschreibt die technischen Mechanismen: Composer 2.5 startet mit derselben quelloffenen Kimi-K2.5-Basis, die Cursor bisher eingesetzt hat, ergänzt um das 25-fache Volumen synthetischer Trainingsaufgaben und einen Zwischen-Feedback-Mechanismus, der dem Modell ermöglicht, aus Zwischenfehlern zu lernen statt nur aus Endergebnissen — vergleichbar einem Schüler, der detailliertes Feedback zu jedem Arbeitsschritt erhält, nicht nur eine Abschlussnote. Das messbare Ergebnis: Der SWE-Bench-Multilingual-Score steigt von 73,7 % auf 79,8 %, Benchmark-Parität mit Claude Opus 4.7 und GPT-5.5, spürbar stärkere Leistung bei langen Multi-Datei-Aufgaben und komplexen mehrstufigen Anweisungen sowie eine Kostenuntergrenze von unter 1 $ pro Aufgabe, während Konkurrenzmodelle bis zu 11 $ berechnen. Für eine Woche nach dem Launch erhalten alle Cursor-Nutzer doppelte Nutzungsguthaben. Das Modell ist ausschließlich in Cursor IDE, CLI und Web verfügbar — keine öffentliche API.

Hugging Face bestätigte die Bedeutung unabhängig: Clément Delangue (CEO von Hugging Face) sieht Composer 2.5 als Beleg dafür, dass „letztlich alle ernsthaften KI-Unternehmen eigene Modelle trainieren wollen, auf Basis von Open Source statt durch API-Auslagerung." Der Launch ist Cursors erstes Modell, das dieser Philosophie folgt. Separat trainiert Cursor ein vollständig neu aufgebautes Modell auf SpaceXAIs Colossus-Cluster — dem Äquivalent von einer Million H100-GPUs — ein Langfristprojekt, das von dieser Feinabstimmungsarbeit getrennt zu betrachten ist.

Strategische Einschätzung

Das hier gezeigte Muster ist direkt übertragbar: eine quelloffene Basis nehmen, vertikal auf einem 25-mal größeren domänenspezifischen Aufgaben-Corpus trainieren, 91 % Kostenreduktion erzielen und dabei Frontier-Genauigkeit auf dem relevanten Benchmark erreichen. SWE-Bench-Parität für 1 $ gegenüber 11 $ ist keine Kuriosität — es ist ein Beschaffungsargument. Teams, die Coding-Agenten evaluieren, sollten Composer 2.5 an ihrer eigenen Aufgabenverteilung messen, bevor sie standardmäßig auf Frontier-API-Preise zurückgreifen.