Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Benchmark-Daten zeigen, dass Claude Mythos Preview GPT-5.5 bei allen maßgeblichen Sicherheitsevaluierungen übertrifft: SWE-bench Pro 77,8 % vs. 58,6 %, ExploitBench 18 beliebige Code-Ausführungen vs. 0, UK AISI Cyber Ranges. Gary Marcus warnt, eine vollständige Veröffentlichung 'würde ein enormes Chaos verursachen'.

1 Min. Lesezeit|agenticonsult Intelligence

Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Unabhängige Benchmark-Daten stellen Claude Mythos Preview bei allen maßgeblichen Sicherheitsevaluierungen vor GPT-5.5: SWE-bench Pro (77,8 % vs. 58,6 %), HLE (56,8 % vs. 41,4 %), UK AISI Cyber Ranges (6/10 vs. 3/10) sowie ExploitBench — wo Mythos 18 beliebige Code-Ausführungen erzielte, verglichen mit null bei GPT-5.5. Mythos zeigte zudem eine überlegene Token-Effizienz und fand mehr Exploits pro LLM-Aufruf. Forscher Gary Marcus bezeichnete die Ergebnisse als „einen erheblichen Weckruf in Bezug auf Sicherheit" und argumentierte, eine vollständige Veröffentlichung „würde ein enormes Chaos verursachen" — und stellte Anthropics vorsichtigem Umgang das Risiko gegenüber, das von weniger sorgfältigen Akteuren ausgeht.

Einordnung

Der Abstand zwischen Mythos und GPT-5.5 bei offensiven Sicherheitsaufgaben ist nicht marginal — er stellt einen qualitativen Sprung in der autonomen Schwachstellenausnutzungsfähigkeit dar und wirft dringende Fragen zu Zeitplänen der Fähigkeitsoffenlegung und verbindlichen KI-Vorprüfungen für Modelle dieser Leistungsstufe auf.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Einordnung

Live News Feed