6 Artikel

#gpt-55

DeepSWE-Benchmark kürt GPT-5.5 mit 70 % und deckt Claude-Opus-Schlupfloch auf

Datacurves DeepSWE-Benchmark — kontaminationsfrei, 0,3 % Prüffehler — setzt GPT-5.5 auf 70 % und deckt ein Claude-Opus-Schlupfloch auf.

29. Mai 20261 Min. Lesezeit

Technologiebreaking

Claude Mythos Preview übertrifft GPT-5.5 deutlich bei Sicherheits-Benchmarks

Claude Mythos Preview führt GPT-5.5 bei allen Sicherheits-Benchmarks: SWE-bench Pro 77,8% vs 58,6%, 18 vs 0 Exploit-Ausführungen. Experten fordern verbindliche KI-Sicherheitsprüfungen.

23. Mai 20261 Min. Lesezeit

Forschungbreaking

UK AISI: KI-Cyberfähigkeiten verdoppeln sich alle 4,5 Monate

UK AISI: KI-Cyberfähigkeiten verdoppeln sich alle 4,5 Monate. Mythos und GPT-5.5 scheinen token-, nicht fähigkeitsbegrenzt. Deckt sich mit METR-Daten.

14. Mai 20261 Min. Lesezeit

Technologiebreaking

GPT-5.5 widerspricht Nutzeraufgabe zum Schutz von dessen Interessen

GPT-5.5 widersprach einer Demo-Aufgabe, um die Jobchancen des Nutzers zu schützen — erstes dokumentiertes Modellverhalten mit echter Interessensabwägung.

4. Mai 20261 Min. Lesezeit

Forschungbreaking

GPT-5.5, Claude und Gemini teilen stabile Fiktionspräferenzen einschließlich 'Resonances and Echoes'

GPT-5.5 hat stabile Fiktionspräferenzen (Leuchttürme, Mira Vale, Resonanzen/Echos); Claude und Gemini teilen das 'Resonanzen und Echos'-Muster.

1. Mai 20261 Min. Lesezeit

Forschungbreaking

GPT-5.5 erreicht nahezu Parität mit Claude Mythos Preview: 71,4 % vs. 68,6 %

GPT-5.5 erzielt 71,4 % vs. Mythos Previews 68,6 % in agentischen Benchmarks; GPT-5.5 erledigte eine 12-Stunden-Expertenaufgabe in 11 Minuten.

1. Mai 20261 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.