DeepSWE-Benchmark kürt GPT-5.5 mit 70 % und deckt Claude-Opus-Schlupfloch auf
Datacurves DeepSWE-Benchmark — kontaminationsfrei, 0,3 % Prüffehler — setzt GPT-5.5 auf 70 % und deckt ein Claude-Opus-Schlupfloch auf.
Datacurves DeepSWE-Benchmark — kontaminationsfrei, 0,3 % Prüffehler — setzt GPT-5.5 auf 70 % und deckt ein Claude-Opus-Schlupfloch auf.
Claude Mythos Preview führt GPT-5.5 bei allen Sicherheits-Benchmarks: SWE-bench Pro 77,8% vs 58,6%, 18 vs 0 Exploit-Ausführungen. Experten fordern verbindliche KI-Sicherheitsprüfungen.
UK AISI: KI-Cyberfähigkeiten verdoppeln sich alle 4,5 Monate. Mythos und GPT-5.5 scheinen token-, nicht fähigkeitsbegrenzt. Deckt sich mit METR-Daten.
GPT-5.5 widersprach einer Demo-Aufgabe, um die Jobchancen des Nutzers zu schützen — erstes dokumentiertes Modellverhalten mit echter Interessensabwägung.
GPT-5.5 hat stabile Fiktionspräferenzen (Leuchttürme, Mira Vale, Resonanzen/Echos); Claude und Gemini teilen das 'Resonanzen und Echos'-Muster.
GPT-5.5 erzielt 71,4 % vs. Mythos Previews 68,6 % in agentischen Benchmarks; GPT-5.5 erledigte eine 12-Stunden-Expertenaufgabe in 11 Minuten.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.