GPT-5.5: Pre-Training-Sprung setzt neue Frontier-Maßstäbe

OpenAIs GPT-5.5 (veröffentlicht am 23. April 2026) markiert den ersten klar pre-training-getriebenen Fähigkeitssprung seit langer Zeit — kein Reasoning-Compute-Uplift oder Inferenztrick, sondern ein grundlegend stärkeres Basismodell, das sich auch in alltäglichen Standard-Einstellungen bemerkbar macht. Drei unabhängige Quellen beleuchteten das Thema aus Benchmark-Perspektive, mit roher Modellevaluierung und einer ausführlichen C64-Coding-Session — alle weisen auf dieselbe strukturelle Verschiebung hin.

Was die Quelle tatsächlich beschreibt

Nate B Jones führte drei bewusst fehleranfällige private Evaluierungen gegen 5.5, Opus 4.7, Sonnet 4.7 und Gemini 3.1 Pro durch. Beim Dingo-Test — 23 Lieferartefakte einschließlich einer echten PowerPoint-Präsentation, funktionsfähiger Tabellenkalkulationen mit Formeln und eines Live-Dashboards für ein juristisch heikles fiktives Startup — erzielte 5.5 87,3 gegenüber Opus 4.7s 67,0, Sonnet 4.7s 65,0 und Gemini 3.1 Pros 49,8. Nur 5.5 produzierte genuine Dateitypen (kein als PPTX verkleidetes HTML) und behielt während der gesamten Aufgabe eine juristisch fundierte Haltung bei: Die Import-Tochtergesellschaft wurde als Risikofaktor behandelt, nicht als Vertriebsargument.

Beim Splash-Brothers-Test — 465 unordentliche Dateien eines fiktiven Autowasch-Unternehmens, versehen mit eingepflanzten Fallen — wurde 5.5 zum ersten Frontier-Modell, das sämtliche Fake-Einträge zurückwies: Mickey Mouse, ASDF ASDF, eine gefälschte 25.000-Dollar-Zahlung und alle sieben doppelten Kundenpaare. Beim Backend-Hygiene stolperte es dennoch (Normalisierung des Zahlungsstatus-Enums ließ 29 verschiedene Rohwerte zurück, Service-Code-Konflikte blieben ungelöst) — vollständige One-Shot-Migrationsreife ist also noch nicht gegeben. Artificial Analysis platzierte 5.5 auf seinem Intelligence-Index mit drei Punkten Vorsprung auf Platz eins, während es gleichzeitig weniger Token als 5.4 verbrauchte — smarter und effizienter zugleich.

Eine ausführliche C64-Shoot-em-up-Session (Gian Luca Bailo, GoPubby) bestätigte unabhängig davon sowohl das Tempo als auch die Grenzen: GPT-5.5 entwickelte eigenständig Asset-Generatoren (eigene Sprite-Tools, VIC-Bank-Reorganisation, gemischtes C/Assembly), benötigte jedoch sechs zentrale architekturelle Wendepunkte von einem menschlichen Experten. Mehr Ambition, weniger Autonomie — das Expert-Navigator-Muster in buchstäblicher Ausführung. @sama setzte die Codex-Rate-Limits für alle bezahlten Pläne zurück, um „eine gute Woche" zu feiern — ein Signal, dass die interne Resonanz bei OpenAI der externen Begeisterung entsprach.

Strategische Einschätzung

Komplexe Ausführungsaufgaben und Dirty-Data-Arbeiten an 5.5 in Codex delegieren; Opus 4.7 für konzeptionelle visuelle Gestaltung und Planungskritik behalten. Das Pre-Training-Argument ist für Entwickler relevant: Inferenz-Compute-Gewinne erodieren, wenn Prompts kürzer werden — ein stärkeres Basismodell macht sich jedoch überall bemerkbar, einschließlich der schnellsten und günstigsten täglichen Anfragen.