GPT-5.5 definiert KI-Fortschritt neu: Intelligenz pro Token als Maßstab
Die bestimmende Geschichte des aktuellen KI-Zyklus ist keine Benchmark-Kennzahl — es ist ein Verhältniswert. Auf Terminal Bench erreicht GPT-5.5 einen Score von 39,1 bei 2.165 Output-Tokens; GPT-5.4 kam auf 34,2 bei 4.950 Tokens. Das Modell erzielt höhere Werte und benötigt dafür 57 % weniger Token. OpenAIs Framing ist bewusst gewählt: gleiche Token-Latenz wie 5.4, verdoppelte Preise (5 $/M Input, 30 $/M Output) — doch weniger Token pro Aufgabe bedeuten vergleichbare oder niedrigere Gesamtkosten pro nutzbarem Output.
Was die Quellen tatsächlich besagen
Matthew Bermans zweiwöchige Vorab-Rezension beschreibt die Persönlichkeitsveränderung als gezielten Produktfix — 5.4s ausufernde Erläuterungen waren ein reales UX-Problem; 5.5 antwortet standardmäßig im Modus „genau das, was Sie benötigen". Die visuelle Iterationsschleife innerhalb von Codex — bei der das Modell gerenderten Output inspiziert und sich ohne Nutzeraufforderung selbst korrigiert — bewertet er für autonome Frontend-Arbeit als klar überlegen gegenüber Claude Opus 4.7.
Die zweite prägende Zahl ist OS World: GPT-5.5 erreicht 78,7 % auf dem Computer-Use-Benchmark — über dem menschlichen Baseline-Wert von 72,4 %. OpenAI eröffnete die Ankündigung bewusst mit Codex statt mit dem Modell selbst: Die Codex-Veröffentlichung vom 16. April hatte bereits Computer Use, In-App-Browser, Bildgenerierung, Memory und über 90 Plugins hinzugefügt. Hintergrundagenten laufen, ohne den Mauszeiger des Nutzers zu übernehmen — das ermöglicht praktische parallele Multi-Agenten-Workflows jenseits des Demostadiums. Nate B Jones beschreibt die strategische Trennung präzise: Codex steuert jede GUI, die ein Mensch steuern würde — und umgeht damit Ökosystemabhängigkeiten vollständig.
Die Enterprise-Validierung ist konkret. Das Complex-Work-Evaluation von Box AI stieg von 67 % auf 77 % — mit Zuwächsen in den Bereichen Finanzdienstleistungen (+20 Punkte), Gesundheitswesen (61→78) und öffentlicher Sektor (59→72). OpenAI und NVIDIA haben einen unternehmensweiten Codex-Enterprise-Rollout pilotiert und andere Unternehmen öffentlich eingeladen, das Modell zu replizieren.
Strategische Einschätzung
Intelligenz pro Token ist relevant, weil sie die Wertargumentation von der Listenpreisgestaltung entkoppelt. Produziert ein Modell äquivalenten Output bei halbem Token-Aufwand, kehrt sich die Kostenrechnung pro Aufgabe selbst dann um, wenn der Preis pro Million Token steigt. Unternehmen, die GPT-5.5 evaluieren, sollten die Kosten pro Ergebnis modellieren — nicht die Kosten pro Million Token.