Technologiebreaking
Gemma 4 erhält 3-fache Geschwindigkeitssteigerung durch MTP Speculative Decoding
Gemma-4-MTP-Speculative-Decoding liefert 3× Token/Sek. ohne Qualitätsverlust — Day-0 in HF Transformers, MLX, vLLM. Apache 2.0.
6. Mai 20261 Min. Lesezeit