llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

llama.cpp hat Multi-Token-Prediction (MTP) integriert und bringt damit eine Fähigkeit, die VLLM bereits seit einiger Zeit besitzt, in das GGUF- / LM-Studio-Ökosystem. Auf Qwen3.6-27B auf einer A10G erleben Nutzer 25 → 45 Tokens/Sekunde (+78 %) mit --spec-type draft-mtp --spec-draft-n-max 2 — ohne Qualitätsverlust. Anders als Speculative Decoding integriert MTP die Vorhersage in ein einziges Modell, ohne den Overhead eines zweiten Kontexts. Modelle, die derzeit MTP-Gewichte ausliefern, umfassen DeepSeek V3/V4 Base/Flash, Nemotron 3 Super und Ultra sowie Qwen 3.5 und 3.6 Dense-Varianten.

Warum das wichtig ist

Da llama.cpp LM Studio und den Großteil der verbraucherorientierten lokalen Inference-Werkzeuge antreibt, erreicht diese Neuerung sofort das breiteste lokale-KI-Publikum. Ein erneutes Herunterladen MTP-quantisierter GGUFs von HuggingFace ist erforderlich — bestehende Gewichte enthalten keine MTP-Tensoren.