DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz als Open-Source-Modell

24. April 20262 Min. Lesezeit|agenticonsult Intelligence

Maschinell aus dem Englischen übersetzt

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz im Open-Source-Maßstab

DeepSeek V4-Pro wurde heute Morgen auf HuggingFace veröffentlicht und erlangte den #1-Trendingstatus in 43 Minuten — von HuggingFace-CEO Clément Delangue als das Modell beschrieben, das diese Position schneller als jedes zuvor erreicht hat. Die Dynamik spiegelt substanzielle technische Qualität wider: Bei einem Millionen-Token-Kontext benötigt V4-Pro lediglich 27 % der Single-Token-Inferenz-FLOPs von DeepSeek V3.2 und nur 10 % seines KV-Caches.

Was die Quellen tatsächlich besagen

Die technische Implikation ist konkret. Auf einer NVIDIA GB300 mit 176 GB HBM pro GPU erfordert DeepSeek V3.2 bei 1-M-Token-Kontext 35,60 GB KV-Cache — ausreichend für rund 4 parallele Anfragen. V4-Pros 10-fache KV-Cache-Reduktion senkt diesen Wert auf unter 3,6 GB und ermöglicht damit rund 40 parallele Anfragen auf identischer Hardware. Der Durchsatzmultiplikator ist kein Benchmark-Artefakt — er bepreist Inferenz im produktiven Betrieb direkt.

V4-Pro wird mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktiven Parametern unter einer Mixture-of-Experts-Architektur ausgeliefert, ergänzt durch V4-Flash (284 Mrd. Gesamt- / 13 Mrd. aktive Parameter) als schnelle, kosteneffiziente Variante. Beide Modelle verfügen über ein Standard-1-M-Token-Kontextfenster und sind vollständig Open-Weight — technische Berichte wurden gleichzeitig auf HuggingFace veröffentlicht. Der API-Zugang wurde am selben Tag freigeschaltet. Unabhängige Benchmarks zeigen, dass V4-Pro Claude Opus 4.6 auf Terminal Bench übertrifft und in anderen Standardbewertungen eng beieinander liegt.

Huawei bestätigte, dass sein Ascend-950-Supernode V4 vollständig unterstützen wird — ein Signal, dass eine koordinierte Bereitstellung über beide Hardware-Stacks hinweg im Voraus vorbereitet war.

Strategische Einschätzung

Die 10-fache KV-Cache-Reduktion ist die strukturelle Geschichte — nicht die Parameteranzahl. Für Betreiber von Long-Context-Workloads komprimiert V4-Pros Parallelitätsmultiplikator die Kosten pro Anfrage erheblich — und als vollständig offenes Modell entfällt der Anbietereinschluss aus der Kalkulation. Dies ist das erste offene Modell, das Frontier-Labs bei den Durchsatzökonomien im erweiterten Kontext direkt Konkurrenz macht.

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.

Dieses Briefing wurde mit AI-Unterstuetzung aus kuratierten Quellen zusammengestellt. Alle Fakten wurden anhand der Originalpublikationen verifiziert.

Diskutieren aufLinkedIn X

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz als Open-Source-Modell

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz im Open-Source-Maßstab

Was die Quellen tatsächlich besagen

Strategische Einschätzung

AI Intelligence Newsletter

Quellen

Verwandte Artikel

DeepSeek V4: Open Weights mit 1M-Token-Kontext ab Werk, zum Siebtel des Opus-4.7-Preises

DeepSeek V4-Pro als Open-Source veröffentlicht – 10x KV-Cache-Reduktion

DeepSeek-V4 und Kimi-K2.6 verschieben die Open-Weights-Basis für KI-Agenten

AI Intelligence Newsletter