Patrick Debois formalisiert den CI/CD-Moment des Context Engineering

Patrick Debois — der Praktiker, der 2009 den Begriff „DevOps" mitprägte — stellte auf der AI Engineer Europe 2026 den Context Development Lifecycle (CDLC) vor. Seine zentrale These: Die Softwarelieferung hat eine vollständige Verschiebung durchlaufen — Kontext ist das primäre Engineering-Artefakt geworden und verlangt dieselbe Disziplin, die Code unter DevOps erhalten hat. Der Vortrag erscheint zeitgleich mit der Agent Trace Spec v0.1.0 — einem RFC, getragen von Cursor, Cognition, Cloudflare und Vercel — die einen herstellerübergreifenden Standard für Agenten-Ausführungsprotokolle etabliert.

Was die Quelle tatsächlich sagt

Der CDLC ist ein viergliedriger Infinity-Loop nach dem Vorbild des SDLC: Generate (implizites Wissen explizit machen, von einfachen Prompts bis zur Spec-gesteuerten Entwicklung), Evaluate (TDD für Kontext), Distribute (Kontext als versioniertes Paket) und Observe (Lernen aus dem Verhalten von Agenten in der Produktion). Debois stellt klar, dass die DevOps-Analogie kein rhetorisches Ornament ist — „Was wäre, wenn Kontext die Rigorosität von Code hätte?" — und er spricht aus unmittelbarer Erfahrung mit demselben Wendepunkt.

Die Evaluate-Phase enthält die sofort anwendbarsten Details. Debois schlägt eine Kontext-Testleiter vor: Linting prüft die Prompt-Syntax; ein Grammarly-ähnlicher LLM-Reviewer bewertet Lesbarkeit und Vollständigkeit (Tessls Eval-UI benotete einen Terraform-Skill mit 75% Discovery, 2/3 Specificity, 3/3 Completeness); LLM-as-Judge führt unit-style Assertions durch (folgt generierter Code einer CLAUDE.md-Namenskonvention?); und LLM-as-Judge mit Tools führt Live-E2E-Tests aus — der Judge gibt ein reales curl ab, bestätigt HTTP 200 OK und gibt ein PASS-Verdikt zurück. Für nicht-deterministische Evals lautet die pragmatische Empfehlung: mindestens fünf Trials ausführen, Fehlerbudgets statt exakter Pass/Fail-Schwellenwerte definieren und Produktionsfehler als reichste Quelle neuer Testfälle erschließen. „Vendor-Metriken lügen — definieren Sie Ihre eigenen."

Bei der Distribution tritt ein dreistufiger Reifegrad hervor: ein committetes SKILL.md in Git (null Reibung), ein versioniertes installierbares Paket mit gebündelten Evals (tessl install acme/skill@1.2.0) und eine durchsuchbare Registry mit Security-Scanning. Snyk hat bereits einen Skill-Scanner entwickelt, der Prompt-Injection und Probleme beim Credential-Handling über 9 Checks erkennt. Debois ist offen über den Entwicklungsstand öffentlicher Registries — „99,9% der Skills sind Schrott" — und benennt Kontext-Abhängigkeitshölle (Paket-Konflikte analog zu npm) als das nächste aufkommende Problem. Die Observe-Schleife schließt sich über Agenten-Logs: Die Agent Trace Spec liefert ein gemeinsames Format, damit Muster fehlenden Kontexts über Tools hinweg durchsuchbar sind und nicht pro Anbieter isoliert bleiben.

Strategische Einordnung

Das Fehlerbudget-Eval-Modell und die Agent Trace Spec sind die beiden Elemente mit dem größten unmittelbaren Hebel für Teams, die bereits Coding-Agenten betreiben. Definieren Sie Ihre eigenen Eval-Schwellenwerte, bevor Ihr Kontext-Bestand unüberschaubar wird. Mit acht ausgerichteten Unternehmen hinter der Spec wird sie zum Observability-Standard werden — frühzeitige Instrumentierung vermeidet nachträgliche Compliance-Aufwände.