ParseBench auf der CVPR 2026: Erste KI-Agenten-Dokumenten-Benchmark

LlamaIndex hat ParseBench auf der CVPR 2026 vorgestellt — die erste Dokumentenverständnis-Benchmark, die eigens für KI-Agenten entwickelt wurde. Sie umfasst 2.000+ menschlich verifizierte Seiten realer Unternehmensdokumente, 167.000+ Testregeln und fünf Evaluierungsdimensionen: Tabellen, Diagramme, Treue, Formatierung und Verankerung. Die Leitthese: Dokumentenverständnis sei ein „AGI-vollständiges Problem", weil ein Agent nicht zuverlässig auf einem Dokument agieren kann, das er nicht präzise lesen kann. Das vollständige 30-seitige ArXiv-Paper (2604.08538) und der Datensatz sind Open Source.

Warum das wichtig ist

Frontier-Modelle sind auf Coding und Mathematik optimiert — nicht auf präzise visuelle Dokumenteninterpretation. ParseBench liefert der Forschungsgemeinschaft eine konkrete Messgröße, um die Genauigkeitslücke bei Unternehmensdokumenten zu schließen, die hochriskante agentische Deployments in Recht, Versicherung und Finanzwesen limitiert.