DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz im Open-Source-Maßstab
DeepSeek V4-Pro wurde heute Morgen auf HuggingFace veröffentlicht und erlangte den #1-Trendingstatus in 43 Minuten — von HuggingFace-CEO Clément Delangue als das Modell beschrieben, das diese Position schneller als jedes zuvor erreicht hat. Die Dynamik spiegelt substanzielle technische Qualität wider: Bei einem Millionen-Token-Kontext benötigt V4-Pro lediglich 27 % der Single-Token-Inferenz-FLOPs von DeepSeek V3.2 und nur 10 % seines KV-Caches.
Was die Quellen tatsächlich besagen
Die technische Implikation ist konkret. Auf einer NVIDIA GB300 mit 176 GB HBM pro GPU erfordert DeepSeek V3.2 bei 1-M-Token-Kontext 35,60 GB KV-Cache — ausreichend für rund 4 parallele Anfragen. V4-Pros 10-fache KV-Cache-Reduktion senkt diesen Wert auf unter 3,6 GB und ermöglicht damit rund 40 parallele Anfragen auf identischer Hardware. Der Durchsatzmultiplikator ist kein Benchmark-Artefakt — er bepreist Inferenz im produktiven Betrieb direkt.
V4-Pro wird mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktiven Parametern unter einer Mixture-of-Experts-Architektur ausgeliefert, ergänzt durch V4-Flash (284 Mrd. Gesamt- / 13 Mrd. aktive Parameter) als schnelle, kosteneffiziente Variante. Beide Modelle verfügen über ein Standard-1-M-Token-Kontextfenster und sind vollständig Open-Weight — technische Berichte wurden gleichzeitig auf HuggingFace veröffentlicht. Der API-Zugang wurde am selben Tag freigeschaltet. Unabhängige Benchmarks zeigen, dass V4-Pro Claude Opus 4.6 auf Terminal Bench übertrifft und in anderen Standardbewertungen eng beieinander liegt.
Huawei bestätigte, dass sein Ascend-950-Supernode V4 vollständig unterstützen wird — ein Signal, dass eine koordinierte Bereitstellung über beide Hardware-Stacks hinweg im Voraus vorbereitet war.
Strategische Einschätzung
Die 10-fache KV-Cache-Reduktion ist die strukturelle Geschichte — nicht die Parameteranzahl. Für Betreiber von Long-Context-Workloads komprimiert V4-Pros Parallelitätsmultiplikator die Kosten pro Anfrage erheblich — und als vollständig offenes Modell entfällt der Anbietereinschluss aus der Kalkulation. Dies ist das erste offene Modell, das Frontier-Labs bei den Durchsatzökonomien im erweiterten Kontext direkt Konkurrenz macht.