llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

llama.cpp hat Multi-Token-Prediction (MTP) integriert und liefert auf Qwen3.6-27B auf A10G einen 78-%-Durchsatzzuwachs (25 → 45 Tokens/Sekunde) bei null Genauigkeitsverlust — mit zwei Flags aktivierbar. Anders als Speculative Decoding arbeitet MTP mit einem einzigen Modell ohne zweites Kontext-Overhead. Modelle mit MTP heute: DeepSeek V3/V4, Nemotron 3 Super/Ultra, Qwen 3.5 und 3.6 Dense-Varianten.

1 Min. Lesezeit|agenticonsult Intelligence

llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

llama.cpp hat Multi-Token-Prediction (MTP) integriert und bringt damit eine Fähigkeit, die VLLM bereits seit einiger Zeit besitzt, in das GGUF- / LM-Studio-Ökosystem. Auf Qwen3.6-27B auf einer A10G erleben Nutzer 25 → 45 Tokens/Sekunde (+78 %) mit --spec-type draft-mtp --spec-draft-n-max 2 — ohne Qualitätsverlust. Anders als Speculative Decoding integriert MTP die Vorhersage in ein einziges Modell, ohne den Overhead eines zweiten Kontexts. Modelle, die derzeit MTP-Gewichte ausliefern, umfassen DeepSeek V3/V4 Base/Flash, Nemotron 3 Super und Ultra sowie Qwen 3.5 und 3.6 Dense-Varianten.

Warum das wichtig ist

Da llama.cpp LM Studio und den Großteil der verbraucherorientierten lokalen Inference-Werkzeuge antreibt, erreicht diese Neuerung sofort das breiteste lokale-KI-Publikum. Ein erneutes Herunterladen MTP-quantisierter GGUFs von HuggingFace ist erforderlich — bestehende Gewichte enthalten keine MTP-Tensoren.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

Warum das wichtig ist

Live News Feed