Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Unabhängige Benchmark-Daten stellen Claude Mythos Preview bei allen maßgeblichen Sicherheitsevaluierungen vor GPT-5.5: SWE-bench Pro (77,8 % vs. 58,6 %), HLE (56,8 % vs. 41,4 %), UK AISI Cyber Ranges (6/10 vs. 3/10) sowie ExploitBench — wo Mythos 18 beliebige Code-Ausführungen erzielte, verglichen mit null bei GPT-5.5. Mythos zeigte zudem eine überlegene Token-Effizienz und fand mehr Exploits pro LLM-Aufruf. Forscher Gary Marcus bezeichnete die Ergebnisse als „einen erheblichen Weckruf in Bezug auf Sicherheit" und argumentierte, eine vollständige Veröffentlichung „würde ein enormes Chaos verursachen" — und stellte Anthropics vorsichtigem Umgang das Risiko gegenüber, das von weniger sorgfältigen Akteuren ausgeht.

Einordnung

Der Abstand zwischen Mythos und GPT-5.5 bei offensiven Sicherheitsaufgaben ist nicht marginal — er stellt einen qualitativen Sprung in der autonomen Schwachstellenausnutzungsfähigkeit dar und wirft dringende Fragen zu Zeitplänen der Fähigkeitsoffenlegung und verbindlichen KI-Vorprüfungen für Modelle dieser Leistungsstufe auf.