DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung
DeepSeeks Paper „Thinking with Visual Primitives" stellt einen neuen Ansatz für visuelles Reasoning vor: Bounding-Box-Koordinaten und Punkt-Referenzen werden als erstklassige Tokens mitten im Chain-of-Thought emittiert, anstatt räumliche Beziehungen in natürlicher Sprache zu beschreiben. Aufgebaut auf DeepSeek V4 Flash (284B MoE / 13B aktiv) verarbeitet das Modell ein 80×80-Bild zu rund 90 KV-Cache-Einträgen – gegenüber etwa 870 für Sonnet 4.6 und 900 für Gemini 3 Flash, ein Unterschied von einer Größenordnung. Der Vision-Modus begann am 29. April mit einem eingeschränkten Rollout in der DeepSeek-App.
Einordnung
Eine 10-fache Inferenzkostensenkung bei hochdurchsatzfähigen Vision-Pipelines – sofern die Benchmark-Behauptungen in der Produktion standhalten – setzt die Wirtschaftlichkeit für OCR-, Kreativ- und Robotik-Anwendungen in großem Maßstab neu.