DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung

DeepSeeks Paper „Thinking with Visual Primitives” führt Koordinaten-Tokens als erstklassige Chain-of-Thought-Elemente ein und erzielt damit eine rund 10-fache KV-Cache-Komprimierung gegenüber Sonnet 4.6 und Gemini 3 Flash auf denselben Bildern – aufgebaut auf DeepSeek V4 Flash (284B MoE / 13B aktiv).

1 Min. Lesezeit|agenticonsult Intelligence

DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung

DeepSeeks Paper „Thinking with Visual Primitives" stellt einen neuen Ansatz für visuelles Reasoning vor: Bounding-Box-Koordinaten und Punkt-Referenzen werden als erstklassige Tokens mitten im Chain-of-Thought emittiert, anstatt räumliche Beziehungen in natürlicher Sprache zu beschreiben. Aufgebaut auf DeepSeek V4 Flash (284B MoE / 13B aktiv) verarbeitet das Modell ein 80×80-Bild zu rund 90 KV-Cache-Einträgen – gegenüber etwa 870 für Sonnet 4.6 und 900 für Gemini 3 Flash, ein Unterschied von einer Größenordnung. Der Vision-Modus begann am 29. April mit einem eingeschränkten Rollout in der DeepSeek-App.

Einordnung

Eine 10-fache Inferenzkostensenkung bei hochdurchsatzfähigen Vision-Pipelines – sofern die Benchmark-Behauptungen in der Produktion standhalten – setzt die Wirtschaftlichkeit für OCR-, Kreativ- und Robotik-Anwendungen in großem Maßstab neu.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung

DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung

Einordnung

Live News Feed