LangChain und Harvey veröffentlichen quelloffenen juristischen KI-Agenten-Benchmark LAB
LangChain und Harvey AI veröffentlichten gemeinsam LAB (Long Horizon Legal Agent Benchmark) als quelloffenes Evaluierungsframework zur Messung der KI-Agentenleistung bei komplexer juristischer Arbeit. Der Benchmark umfasst mehrstufige Rechercheaufgaben, Fallanalysen und Entwurfsarbeiten, die reale juristische Workflows charakterisieren. Offene Forschungsfragen betreffen die Pareto-Kurve aus Leistung und Kosten für offene und geschlossene Modelle bei juristischen Aufgaben.
Einordnung
Ein Open-Source-Benchmark für juristische Agenten von einem Produktions-Legal-AI-Unternehmen (Harvey) liefert einen gemeinsamen, aufgabenrealistischen Maßstab für die Legal-AI-Kategorie – er ersetzt synthetische Evaluierungen durch Aufgaben mit der Komplexität abrechnungsfähiger Tätigkeiten und setzt einen neuen Ausgangspunkt für die Bewertung von Agenten in regulierten Berufsfeldern.