Harness Engineering: Gleiches Modell, 6-fache Leistungsvarianz

Das Orchestrierungs-Wrapper um Ihr LLM treibt heute mehr Leistungsvarianz als das Modell selbst. Zwei komplementäre Papers — Tsinghua University (März 2026) und University of Melbourne (30. April 2026) — formalisieren, was Praktiker bereits beobachten: Dasselbe Frontier-Modell, unterschiedlich eingebettet, erzeugt eine sechsfache Leistungsstreuung. Am selben Tag bestätigte ein arXiv-Benchmark, dass kleine Open-Weight-Modelle GPT-5 bei Routineaufgaben einholen können, während LangChain modellunabhängige Harness-Profile veröffentlichte — Tool-Validierung, die Research und Praxis innerhalb weniger Stunden synchronisierte.

Was die Quellen tatsächlich belegen

Die Aufbereitung der Tsinghua- und Stanford-Papers durch Prompt Engineering liefert die klarsten Zahlen. Tsinghua-Forscherin Pan et al. migrierten die Steuerungslogik von OS-Symphony von nativem Code auf ein Natural-Language-Harness — gleiche Strategie, gleiches Modell, andere Darstellungsform. Die Leistung stieg von 30,4 % auf 47,2 %, die LLM-Aufrufe sanken von 1.200 auf 34, und die Laufzeit fiel von 361 auf 41 Minuten. Stanfords Khattab (DSPy) erweiterte dies um eine Auto-Optimierungsschleife, bei der ein Meta-LLM das Harness aus rohen Fehler-Traces neu schreibt — 10 Millionen Token pro Iteration, 400-fach mehr Feedback als bisherige Methoden. Ein auf Claude Opus 4.6 optimiertes Harness übertrug sich auf fünf weitere Modelle und verbesserte sie alle. Das Ablations-Ergebnis widerlegt gängige Intuition: Verifikationsmechanismen schaden (−8,4 auf OS World), Multi-Kandidaten-Suche schadet (−5,6). Mehr Struktur verschlechtert leistungsfähige Modelle.

Das Paper der University of Melbourne liefert die Evidenz für prozedurale Aufgaben. Mit demselben Claude Sonnet 4.5 unter zwei Bedingungen — LangGraph-Orchestrierung versus einem serialisierten Flussdiagramm im System-Prompt — gewann In-Context-Prompting bei jedem Metric über Reisebuchung, Zoom-Support und Versicherungsansprüche. LangGraph scheiterte bei 24 % der Reisebuchungsläufe an Übergabefehlern; Zoom verzeichnete 18 LangGraph-Fehler gegenüber einem ICL-Fehler. Node-spezifische Templates fragmentieren den globalen Argumentationsbogen des Modells; ICL bewahrt ihn. Vorbehalt: Die Ergebnisse decken simulierte konversationale Abläufe ab — intensiver realer Tool-Einsatz wurde nicht getestet.

AgentFloors 16.542 gewertete Läufe über 16 Open-Weight-Modelle gegen GPT-5 liefern das Routing-Korollar: Das stärkste Open-Weight-Modell entspricht GPT-5 in der Gesamtauswertung; der Frontier-Vorteil bleibt nur bei langfristiger Planung unter persistenten Einschränkungen bestehen. LangChains deepagents-cli-Profile-API operationalisiert dies am selben Tag — modellspezifische Prompt- und Middleware-Bundles für Kimi, Qwen und GLM, die Open-Weight-Modelle zu tragfähigen Agenten-Loop-Treibern zu einem Bruchteil der Closed-Frontier-Kosten machen.

Strategische Einordnung

Die entscheidende Frage hat sich verschoben: nicht „welches Modell?", sondern „welche Harness-Komponenten sollte ich entfernen?" Das von Anthropic geprägte Subtraktionsprinzip — jede Harness-Komponente kodiert eine Annahme, die mit verbesserten Modellen verfällt — ist nun durch vier unabhängige Quellentypen am selben Tag belegt. Prüfen Sie Context Load, ungenutzte Tools, Verifikationsschleifen und Code-versus-Sprache-Steuerungslogik, bevor Sie nach einem Modellwechsel greifen.