LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung
LangChain veröffentlichte Harness Profiles für sein DeepAgents-Framework – anbieter- und modellspezifische Overrides für Basis-System-Prompts, Tool-Namen, Middleware und Verhaltenseinschränkungen. Interne Tests zeigten 10–20 Punkte Verbesserung auf tau2-bench gegenüber Standardkonfigurationen. Vorgefertigte Profile sind für die Modellfamilien OpenAI, Anthropic und Google enthalten. Der Harness wird nun als erstklassiges versioniertes Objekt geführt, das unabhängig von der Modellauswahl in Diffs geprüft, versioniert und ausgetauscht werden kann.
Einordnung
Die Formalisierung des Harness als versionierbares, benchmark-fähiges Objekt wird verändern, wie KI-Agentenleistung veröffentlicht wird: „Ein Modell ohne Angabe des Harness zu benchmarken ist wie ein Chip ohne Compiler-Spezifikation zu benchmarken" – eine Rahmung, die die Berichterstattung über Evaluierungen in der gesamten Branche beeinflussen wird.