Claude Opus 4.7 führt sowohl auf Benchmark- als auch auf Hackathon-Bühne
Zwei unabhängige Validierungsströme, am selben Tag veröffentlicht, zeichnen ein konvergentes Bild: Claude Opus 4.7 ist der aktuelle Spitzenreiter im agentischen Frontier-Coding. Ein begutachtetes arXiv-Paper liefert den quantitativen Beleg; ein globaler Hackathon den produktseitigen Beweis.
Was die Quellen tatsächlich sagen
Sherwood, Aybar und Kaplan (arXiv:2604.25067) führen einen Benchmark ein, bei dem Frontier-Agenten innerhalb eines Drei-Stunden-Budgets auf Consumer-Hardware autonom eine AlphaZero-Self-Play-Pipeline für Vier-Gewinnt implementieren und anschließend gegen den Pascal-Pons-Solver – eine externe, adversarisch fundierte Baseline – antreten. Über vier Agenten mit je acht Durchläufen gewann Claude Opus 4.7 in 7 von 8 Versuchen als Erstbewegender gegen Pons – ein Ergebnis, das statistisch signifikant besser ist als das aller anderen getesteten Agenten, von denen keiner über 2 von 8 Erfolge hinausgekommen ist. Das Paper vermerkt, dass die Aufgabe im Januar 2026 für jeden Frontier-Agenten vollständig außer Reichweite lag. Sie ist heute nahezu gesättigt – ein Fähigkeitssprung von etwa einer Größenordnung in weniger als vier Monaten.
Ein Nebenbefund betrifft GPT-5.4: Es nutzte konsequent weit weniger seines zugewiesenen Zeitbudgets als andere Agenten. Eine Folgestudie mit 16 Durchläufen und kürzeren Prompts erhöhte die Zeitbudgetnutzung erheblich – die Autoren beschreiben dies als „konsistent mit, aber nicht diagnostisch für Sandbagging".
Am selben Tag verkündeten Anthropics @claudeai und @cerebral_valley die Ergebnisse eines einwöchigen Claude-Code-Hackathons auf Basis von Opus 4.7. Sechs Gewinner deckten ein breites Spektrum ab: medizinische Ausbildung (MedKit – ein sprachbasierter klinischer Simulator, der Studierende gegen veröffentlichte Leitlinien bewertet), Hardware-Reparatur (Wrench Board – liest Schaltpläne und annotiert Diagnosen direkt auf Platinen), sokratische Coding-Ausbildung (Maieutic), Heimwerker-Logistik (MaestrIA), Live-Puppentheater per Hand und Stimme (Virtual Puppet Theater) sowie industrielle Wartungsdokumentation (ARIA – liest Maschinenhandbücher und generiert Arbeitsaufträge aus vergangenen erfolgreichen Reparaturen mithilfe von Claude Managed Agents).
Strategische Einschätzung
Die doppelte Validierung ist bedeutsam, weil Benchmarks und Hackathons unterschiedliche Dinge messen – der eine testet autonome Aufgabenerfüllung unter Zeitdruck, der andere, ob echte Entwickler das Tool als erstes greifen, wenn etwas gebaut werden muss. Praktiker, die agentische Coding-Plattformen evaluieren, haben nun beide Signaltypen in derselben Richtung.


