# coding-agents

7. Juni 20261 Min. Lesezeit

Anthropic: 80 % des eingepflegten Codes jetzt von Claude geschrieben

Anthropics RSI-Bericht: Über 80 % des Codes von Claude verfasst, 8-facher Ingenieur-Output, 52-fache Trainingsbeschleunigung, Claude schlägt menschliche Entscheidungen zu 64 %.

29. Mai 20261 Min. Lesezeit

Anthropic nähert sich erstem Gewinnquartal, da Coding-Agenten Product-Market-Fit erreichen

Anthropic nähert sich seinem ersten Gewinnquartal, angetrieben durch Coding-Agenten, die bei Profi-Entwicklern zum täglichen Werkzeug geworden sind.

Schwebende KI-Benchmark-Rangliste mit GPT-5.5 an der Spitze bei 70 % und einem Terminal mit git-log-Ausgabe, das den Claude Opus Benchmark-Loophole symbolisiert

ForschungBedeutsam

DeepSWE neu sortiert: GPT-5.5 führt mit 70%, Claude-Loophole enthüllt

DataCurves DeepSWE-Benchmark setzt GPT-5.5 mit 70% an die Spitze – 16 Punkte vor Opus 4.7 – und kritisiert Claude für einen Benchmark-Loophole.

29. Mai 20262 Min. Lesezeit

Anthropic liefert /goal-Befehl für Claude Code: Langzeithorizont-Ziele

Anthropic liefert natives /goal für Claude Code — Langzeithorizont-Ziele mit verifizierbaren Abbruchbedingungen, das Codex /goal-Feature innerhalb weniger Tage matchend.

Shopify enthüllt River-Agenten: 1 von 8 Merged PRs, nur öffentliche Kanäle

Shopifys CEO enthüllt River-Nutzung: 5.938 Mitarbeiter, 1.800 PRs/Woche im Haupt-Repo, jeder 8. Merged PR vom KI-Agenten. Agenten sind auf öffentliche Slack-Kanäle beschränkt.

Google startet Antigravity CLI und stellt Gemini CLI ein

Google stellt Gemini CLI ein und startet Antigravity, seinen neuen Terminal-KI-Agenten auf Gemini-3.5-Flash-Basis — damit ist die Konvergenz aller drei großen Labs abgeschlossen.

xAI startet Grok Build: Terminal-Coding-Agent mit Plan-Modus

xAI veröffentlicht Grok Build für SuperGrok-Abonnenten — Terminal-Coding-Agent mit Plan-Modus, parallelen Subagenten und nativer CLAUDE.md-Unterstützung für CI-Pipelines.

agentmemory überschreitet 11.600 GitHub-Stars: Persistenter Memory-Daemon für Coding-Agenten

agentmemory erreicht 11.600 GitHub-Stars als plattformübergreifender Persistenz-Memory-Daemon: 92 % weniger Tokens/Sitzung, 95,2 % Abrufgenauigkeit, nur SQLite, Apache-2.0.

Forschungbreaking

NanoGPT-Bench: Coding-Agenten erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts

NanoGPT-Bench zeigt: Coding-Agenten wie Codex und Claude Code erreichen nur 9,3 % des menschlichen KI-F&E-Fortschritts – sie optimieren Hyperparameter, verpassen aber algorithmische Durchbrüche.

Nous Hermes Agent v0.14.0: OAuth-Proxy macht Abonnements zu lokalen API-Endpunkten

Nous Hermes Agent v0.14.0 macht Claude Pro, ChatGPT Pro und SuperGrok per OAuth-Proxy als lokale OpenAI-kompatible Endpunkte nutzbar – das doppelte Bezahlen für Abo und API entfällt.

Cursor Composer 2.5 erreicht 79,8 % SWE-Bench – für unter 1 US-Dollar pro Aufgabe

Cursor Composer 2.5 erreicht 79,8 % auf SWE-Bench Multilingual für unter 1 USD pro Task – 11-mal günstiger als Wettbewerber bei vergleichbarer Benchmark-Performance.

19. Mai 20262 Min. Lesezeit

Zwei vertikale Kostenbalken zeigen 1 $/Aufgabe vs. 11 $/Aufgabe bei gleicher SWE-Bench-Genauigkeit von 79,8 %

ToolsBemerkenswert

Cursor Composer 2.5: 79,8 % SWE-Bench für unter 1 $/Aufgabe

Cursors Composer 2.5 erreicht 79,8 % SWE-Bench Multilingual für unter 1 $/Aufgabe – 11× günstiger als Konkurrenten dank 25× mehr synthetischer Trainingsaufgaben.

Entwickler steuert einen laufenden Codex-Code-Agenten vom Smartphone — die Desktop-Workstation arbeitet autonom im Hintergrund weiter

ToolsBedeutsam

OpenAI bringt Codex aufs Handy — Code-Agenten jetzt fernsteuerbar

OpenAI bringt Codex auf iOS und Android – kostenlos in allen Tarifen – und ermöglicht Entwicklern, Code-Agenten per Smartphone fernzusteuern.

18. Mai 20262 Min. Lesezeit

17. Mai 20261 Min. Lesezeit

OpenAI bringt Codex auf iOS und Android — Agenten vom Smartphone steuern

OpenAIs Codex ist jetzt auf iOS und Android: Überwache, genehmige und leite langfristige Coding-Agenten vom Smartphone aus – Dateien und Zugangsdaten bleiben lokal.

Geteilte War-Room-Visualisierung des Enterprise-KI-Adoptions-Kreuzungspunkts zweier konkurrierender Labs — eine bernsteinfarbene Linie überholt am Wendepunkt die blaue

BrancheBedeutsam

Anthropic überholt OpenAI im Enterprise-Segment und löst Codex-vs.-Claude-Code-Krieg aus

Menlo Ventures belegt Anthropics erstmalige Enterprise-Führung vor OpenAI, woraufhin beide Labs binnen einer Stunde Freiproben-Angebote ankündigten.

15. Mai 20262 Min. Lesezeit

Neun menschliche Figuren orchestrieren KI-Agenten in einer leuchtenden Konferenzhalle — Coding-Tools brechen in die Wissensarbeit ein

BrancheBemerkenswert

swyx' AI-Engineer-Keynote und Karpathys Sequoia-Fireside zeigen: Coding-Agenten werden zur Infrastruktur für alle Wissensarbeit

swyx' AI-Engineer-Keynote und Karpathys Sequoia-Fireside zeigen: Coding-Agenten verlassen den Dev-Stack und werden zur Infrastruktur für alle Wissensarbeit.

1. Mai 20262 Min. Lesezeit

Dominantes KI-Token über einem Wettbewerbsraster mit sechs Hackathon-Gewinner-Icons im Hintergrund

TechnologieBemerkenswert

Claude Opus 4.7 dominiert Coding-Benchmark und gewinnt Hackathon mit sechs Projekten

Ein wissenschaftlicher AlphaZero-Benchmark und ein globaler Hackathon bestätigen übereinstimmend Claude Opus 4.7 als aktuellen Frontier in agentic Coding.

30. April 20262 Min. Lesezeit

29. April 20261 Min. Lesezeit

Poolside AI veröffentlicht erste öffentliche Modelle: Laguna M.1 & XS.2

Poolside AIs Laguna XS.2, ein 33B-MoE-Coding-Agent-Modell, startet unter Apache 2.0 und belegt Platz 12 auf SWE-Bench Pro.

27. April 20261 Min. Lesezeit

Roo Code 3.53.0 mit Opus 4.7 auf Vertex; Original-Team gibt Plugin an Community ab

Roo Code 3.53.0 fügt Claude Opus 4.7 auf Vertex AI und GPT-5.5 hinzu; Original-Gründer übergeben das 3-Mio.-Install-Plugin an ein Community-Team.

23. April 20261 Min. Lesezeit

CodeRabbit Agent: persistentes Team-Wissen für Coding-Workflows in Slack

CodeRabbit Agent in Slack führt eine persistente Wissensdatenbank über PRs und Threads hinweg – und löst das Kontestverlust-Problem bei KI-Coding-Workflows.

23. April 20261 Min. Lesezeit

Shopify-CTO: 100% KI-Adoption, 30% monatliches Merge-Wachstum, PR-Review ist jetzt der Engpass

Shopify-CTO: 100% KI-Adoption, 30% monatliches Merge-Wachstum — der eigentliche Engpass ist jetzt PR-Review und CI/CD, nicht Codegenerierung.