Gemma 4 erhält 3-fache Geschwindigkeitssteigerung durch MTP Speculative Decoding

Googles offenes Gemma-4-Modell erreicht nun durch Multi-Token Prediction (MTP) Speculative Decoding Drafters bis zu 3-fach schnellere Token-Generierung ohne Qualitätsverlust — mit Day-0-Unterstützung in Hugging Face Transformers, MLX und vLLM sowie Apache-2.0-Lizenz.

1 Min. Lesezeit|agenticonsult Intelligence

Gemma 4 erhält 3-fache Geschwindigkeitssteigerung durch MTP Speculative Decoding

Die offene Modell-Familie Gemma 4 von Google unterstützt nun Multi-Token Prediction (MTP) Speculative Decoding Drafters und liefert damit bis zu dreimal mehr Token pro Sekunde gegenüber der Standard-Gemma-4-Inferenz — bei unveränderter Qualität. Der Release kommt mit Day-0-Unterstützung in den drei wichtigsten Inferenz-Stacks: Hugging Face Transformers, MLX und vLLM. Die Lizenzierung erfolgt unter Apache 2.0, was den kommerziellen Einsatz uneingeschränkt erlaubt.

Warum das relevant ist

Eine dreifache Inferenzbeschleunigung bei identischer Qualität verdreifacht effektiv die Durchsatzkapazität jedes Gemma-4-Deployments — ohne neue Hardware. Für Unternehmen, die das Modell bereits in der Produktion betreiben, sinkt der Cost-per-Token damit direkt und unmittelbar. Details via Hugging Face.

Primaerquelle

Hugging Face

#gemma #google #speculative-decoding #inference-speed #open-models

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Alle Live-News anzeigen

Live News Feed

10:50Coupang Q1 2026: 266 Mio. USD Nettoverlust auf Koreanischen Datenschutzverletzung 2025 zurückgeführt 10:50Analysten warnen vor zirkulärer KI-Investitionsstruktur zwischen Hyperscalern und Frontier-Labs 10:50BlackRock-CEO Larry Fink prognostiziert die Entstehung eines Compute-Futures-Markts