llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6
llama.cpp integriert MTP-Unterstützung und steigert den Qwen3.6-27B-Durchsatz um 78 % auf A10G ohne Qualitätsverlust – nur zwei CLI-Flags werden benötigt, kein zweites Modell.