Anthropic RSI-Bericht: Claude schreibt 80 % des eigenen Codes — 52-fache Trainingsbeschleunigung

Anthropic hat am 3. Juni seinen ersten Bericht zur rekursiven Selbstverbesserung (RSI) veröffentlicht. Er offenbart, dass Claude mittlerweile mehr als 80 % des in die eigene Codebasis integrierten Codes verfasst und im April eine 52-fache Beschleunigung des Trainings erzielt hat. Vier X-Accounts, drei YouTube-Kanäle und der NLP Newsletter bestätigten dieselben Zahlen innerhalb von 48 Stunden — fünf unabhängige Batches konvergieren auf eine Geschichte. Der Bericht beschreibt menschliches „Gespür" — das Urteil, das richtige Problem auszuwählen — als letzte verbleibende Grenze und stellt explizit fest, dass auch diese Grenze mit einem Ablaufdatum versehen ist.

Was die Quellen belegen

Die zentralen Daten: Seit Mai 2026 stammen über 80 % des bei Anthropic integrierten Codes von Claude — ein Anstieg von niedrigen einstelligen Prozentzahlen, als Claude Code Anfang 2025 erschien. Typische Entwickler integrieren heute 8-mal so viel Code pro Tag wie 2024, wobei Anthropic darauf hinweist, dass Zeilen pro Code ein schlechter Proxy sind und die tatsächlichen Gewinne niedriger einzuschätzen seien. Der härtere Maßstab ist der Training-Speed-Test: Mit der Aufgabe, eine Trainings-Pipeline zu optimieren, erzielte Mythos Preview (April 2026) eine 52-fache Beschleunigung — eine Aufgabe, für die ein starker menschlicher Forscher allein für 4-fache Beschleunigung 4–8 Stunden benötigt. Claude Opus 4 erreichte im Mai 2025 den 3-fachen Wert. Separat lieferte Claude Code in einem Monat über 100 Fixes, die eine API-Fehlerklasse um das 1.000-Fache reduzierten — ein Arbeitsaufwand, den Anthropic auf etwa vier Jahre menschliche Entwicklerzeit schätzt.

Das wesentlichere Ergebnis ist das „Gespür"-Experiment. An echten Sitzungsmittelpunkten schlug Mythos Preview in 64 % der Fälle den nächstbesseren Schritt vor — gegenüber 51 % bei Opus 4.5 im November. Die Fußnote ist entscheidend: Bei Momenten, in denen der Mensch eine bewusste, starke Entscheidung traf, gewann das Modell nur in 20 % der Fälle — es rettet schwache Züge, übertrifft aber noch keine guten. In dieselbe Richtung weist: Claude-Agenten schlossen eine offene KI-Sicherheitsforschungslücke von 25 % (zwei Menschen, eine Woche) auf 97 %, über ~800 kumulative Rechenstunden für ~18.000 US-Dollar — der Mensch setzte jedoch weiterhin das Ziel und schrieb das Bewertungsschema. METRs Task-Horizon-Benchmark dokumentiert die Entwicklung: Mythos Preview erreicht ~17 autonome Stunden bei 50 % Erfolgsrate, mit einer Verdopplungszeit von etwa vier Monaten.

Strategische Einordnung

Die praktische Verschiebung ist bereits in Gang: Hebelwirkung verlagert sich vom Ausführen der Arbeit hin zu deren präziser Spezifikation und Überprüfung. Anthropics eigene Worte — „die Geschichte, dass Menschen beim Urteil im Prozess bleiben, hat ein Ablaufdatum" — sind kein Starttermin, aber ein Designsignal, das in jedem orchestrierungsintensiven oder agentischen Stack jetzt eingepreist werden sollte, nicht später.