LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung

LangChain veröffentlichte Harness Profiles für DeepAgents – modell- und anbieterspezifische Overrides für System-Prompts, Tools und Middleware –, die auf tau2-bench 10–20 Punkte gegenüber der Standard-Konfiguration erbringen; vorgefertigte Profile für OpenAI, Anthropic und Google enthalten.

1 Min. Lesezeit|agenticonsult Intelligence

LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung

LangChain veröffentlichte Harness Profiles für sein DeepAgents-Framework – anbieter- und modellspezifische Overrides für Basis-System-Prompts, Tool-Namen, Middleware und Verhaltenseinschränkungen. Interne Tests zeigten 10–20 Punkte Verbesserung auf tau2-bench gegenüber Standardkonfigurationen. Vorgefertigte Profile sind für die Modellfamilien OpenAI, Anthropic und Google enthalten. Der Harness wird nun als erstklassiges versioniertes Objekt geführt, das unabhängig von der Modellauswahl in Diffs geprüft, versioniert und ausgetauscht werden kann.

Einordnung

Die Formalisierung des Harness als versionierbares, benchmark-fähiges Objekt wird verändern, wie KI-Agentenleistung veröffentlicht wird: „Ein Modell ohne Angabe des Harness zu benchmarken ist wie ein Chip ohne Compiler-Spezifikation zu benchmarken" – eine Rahmung, die die Berichterstattung über Evaluierungen in der gesamten Branche beeinflussen wird.

Primaerquelle

LangChain

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung

LangChain DeepAgents Harness Profiles: 10–20 Punkte Benchmark-Verbesserung

Einordnung

Live News Feed