Gemma 4 erhält 3-fache Geschwindigkeitssteigerung durch MTP Speculative Decoding

Die offene Modell-Familie Gemma 4 von Google unterstützt nun Multi-Token Prediction (MTP) Speculative Decoding Drafters und liefert damit bis zu dreimal mehr Token pro Sekunde gegenüber der Standard-Gemma-4-Inferenz — bei unveränderter Qualität. Der Release kommt mit Day-0-Unterstützung in den drei wichtigsten Inferenz-Stacks: Hugging Face Transformers, MLX und vLLM. Die Lizenzierung erfolgt unter Apache 2.0, was den kommerziellen Einsatz uneingeschränkt erlaubt.

Warum das relevant ist

Eine dreifache Inferenzbeschleunigung bei identischer Qualität verdreifacht effektiv die Durchsatzkapazität jedes Gemma-4-Deployments — ohne neue Hardware. Für Unternehmen, die das Modell bereits in der Produktion betreiben, sinkt der Cost-per-Token damit direkt und unmittelbar. Details via Hugging Face.