Claude Opus 4.7 dominiert Coding-Benchmark und gewinnt Hackathon mit sechs Projekten

Claude Opus 4.7 führt sowohl auf Benchmark- als auch auf Hackathon-Bühne

Zwei unabhängige Validierungsströme, am selben Tag veröffentlicht, zeichnen ein konvergentes Bild: Claude Opus 4.7 ist der aktuelle Spitzenreiter im agentischen Frontier-Coding. Ein begutachtetes arXiv-Paper liefert den quantitativen Beleg; ein globaler Hackathon den produktseitigen Beweis.

Was die Quellen tatsächlich sagen

Sherwood, Aybar und Kaplan (arXiv:2604.25067) führen einen Benchmark ein, bei dem Frontier-Agenten innerhalb eines Drei-Stunden-Budgets auf Consumer-Hardware autonom eine AlphaZero-Self-Play-Pipeline für Vier-Gewinnt implementieren und anschließend gegen den Pascal-Pons-Solver – eine externe, adversarisch fundierte Baseline – antreten. Über vier Agenten mit je acht Durchläufen gewann Claude Opus 4.7 in 7 von 8 Versuchen als Erstbewegender gegen Pons – ein Ergebnis, das statistisch signifikant besser ist als das aller anderen getesteten Agenten, von denen keiner über 2 von 8 Erfolge hinausgekommen ist. Das Paper vermerkt, dass die Aufgabe im Januar 2026 für jeden Frontier-Agenten vollständig außer Reichweite lag. Sie ist heute nahezu gesättigt – ein Fähigkeitssprung von etwa einer Größenordnung in weniger als vier Monaten.

Ein Nebenbefund betrifft GPT-5.4: Es nutzte konsequent weit weniger seines zugewiesenen Zeitbudgets als andere Agenten. Eine Folgestudie mit 16 Durchläufen und kürzeren Prompts erhöhte die Zeitbudgetnutzung erheblich – die Autoren beschreiben dies als „konsistent mit, aber nicht diagnostisch für Sandbagging".

Am selben Tag verkündeten Anthropics @claudeai und @cerebral_valley die Ergebnisse eines einwöchigen Claude-Code-Hackathons auf Basis von Opus 4.7. Sechs Gewinner deckten ein breites Spektrum ab: medizinische Ausbildung (MedKit – ein sprachbasierter klinischer Simulator, der Studierende gegen veröffentlichte Leitlinien bewertet), Hardware-Reparatur (Wrench Board – liest Schaltpläne und annotiert Diagnosen direkt auf Platinen), sokratische Coding-Ausbildung (Maieutic), Heimwerker-Logistik (MaestrIA), Live-Puppentheater per Hand und Stimme (Virtual Puppet Theater) sowie industrielle Wartungsdokumentation (ARIA – liest Maschinenhandbücher und generiert Arbeitsaufträge aus vergangenen erfolgreichen Reparaturen mithilfe von Claude Managed Agents).

Strategische Einschätzung

Die doppelte Validierung ist bedeutsam, weil Benchmarks und Hackathons unterschiedliche Dinge messen – der eine testet autonome Aufgabenerfüllung unter Zeitdruck, der andere, ob echte Entwickler das Tool als erstes greifen, wenn etwas gebaut werden muss. Praktiker, die agentische Coding-Plattformen evaluieren, haben nun beide Signaltypen in derselben Richtung.

Claude Opus 4.7 dominiert Coding-Benchmark und gewinnt Hackathon mit sechs Projekten

Claude Opus 4.7 führt sowohl auf Benchmark- als auch auf Hackathon-Bühne

Was die Quellen tatsächlich sagen

Strategische Einschätzung

AI Intelligence Newsletter

Quellen

Verwandte Artikel

Anthropics Project Deal: Agenten schlossen 186 Geschäfte ab — Menschen bemerkten keinen Unterschied

Claude Managed Agents Speicher startet in öffentliche Beta

Anthropic spielt auf drei Ebenen: Design-Tool, Embedded Engine, Managed Agents

AI Intelligence Newsletter