GPT-5.5: Agentic-First-Modell, 82 % Terminal-Bench, Sicherheitsstufe HIGH
OpenAIs GPT-5.5 erscheint sechs Wochen nach 5.4 mit +7 Pkt. Terminal-Bench, verdoppelten Preisen und Cyber/Bio-Sicherheitseinstufungen auf HIGH.
AI-News, Analysen & Einblicke aus kontinuierlichem AI-Branchenmonitoring.
OpenAIs GPT-5.5 erscheint sechs Wochen nach 5.4 mit +7 Pkt. Terminal-Bench, verdoppelten Preisen und Cyber/Bio-Sicherheitseinstufungen auf HIGH.
DeepSeek V4 veröffentlicht zwei Open-Weight-Modelle mit 1M-Token-Kontext ab Werk, CSA+HCA-Hybridattention und V4-Pro zum Siebtel des Opus-4.7-Ausgabepreises.
Drei unabhängige Quellen erfassten GPT-5.5 simultan: Begeisterung der Entwickler, Toolchain-Adoption und eine strukturelle Zuverlässigkeitswarnung.
Google Deep Research Max kostet $4,80/Bericht und nutzt MCP für private Datenquellen. Unabhängige Tests zeigen: Das günstigere Modell gewinnt 5 von 7 Aufgaben.
OpenAI und Anthropic verankerten Reasoning-Logik vor Pixel-, HTML- und OS-Primitiven – ein Sprung, der alle Ausführungsebenen gleichzeitig verschiebt.
GitHub Next demonstriert ACE: eine kollaborative Umgebung für Coding-Agents, in der Team-Alignment – nicht Implementierung – den entscheidenden Engpass bildet.
DeepSeek-V4 (MIT, 1M-Kontext) und Kimi-K2.6 (multimodal, 256K-Kontext) bilden den ersten vollständigen Open-Weights-Stack für KI-Agenten.
Moonshot AIs Kimi K2.6 führt das Open-Source-Ranking mit 300 parallelen Sub-Agenten und einem 12-Stunden-Coding-Marathon an.
DeepSeeks 10-fache KV-Cache-Kompression verändert die KI-Kostenökonomie global und stellt US-Labs vor eine ernste strategische Herausforderung.
Anthropic führte einen Live-zweiseitigen Agenten-Marktplatz mit 69 Mitarbeitern durch: 186 Geschäfte, $4.000+ Volumen — und die Modellqualität (Opus vs. Haiku) blieb für die menschlichen Teilnehmer unsichtbar.
GPT Image 2 erzielt einen 26-Punkte-Vorsprung in Image-Arena-Blindtests — beispiellos für die Kategorie — durch einen Reasoning-Loop vor jedem Pixel-Render.
Matt Pococks zweistündiger AI-Engineer-Workshop argumentiert, dass 30 Jahre alte Software-Grundlagen unter KI wichtiger sind, nicht weniger — und skizziert eine vollständige Methodik als Beweis.
Ein Virginia-Tech-Preprint zeigt, dass modellnative Skills via Sparse Autoencoders menschlich definierte Skill-Dateien bei SFT übertreffen — und 41 % Verbesserung in Mathe durch aktivierungsraumbasierte Datenselektion erzielen.
Anthropic veröffentlicht ein Post-Mortem zu drei Claude Code Harness-Änderungen (März–April), die die Qualität minderten und in v2.1.116+ behoben wurden.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.