Kimi Prefill-as-a-Service: LLM-Inferenz für 1,54-fachen Durchsatz aufgeteilt
Kimi / Moonshot AI hat ein Paper veröffentlicht, das Prefill-as-a-Service vorschlägt: die Trennung der zwei Phasen der LLM-Inferenz – rechenintensives Prompt-Prefill und latenzempfindliches token-weises Decode – in unabhängige Dienste, die auf verschiedenen Hardware-Knoten oder Rechenzentren laufen können. Der entscheidende Ermöglicher ist eine optimierte KV-Cache-Darstellung, die die netzwerkübergreifende Übertragung des Prefill-Zustands praktikabel macht. Ergebnisse an einem 20-fach skalierten Kimi Linear-Modell zeigen 1,54-fachen Durchsatz, 64% niedrigere P90 Time-to-First-Token sowie geringere Kosten pro generiertem Token im Vergleich zur zusammengeführten Inferenz.
Warum das wichtig ist
Die unabhängige Skalierung von Prefill und Decode ist die Art von Systemerkenntnis, die innerhalb von 12 bis 18 Monaten nach Veröffentlichung zur Standardpraxis wird. Für Teams, die LLM-Serving mit hohem Durchsatz betreiben, beseitigt die Trennung dieser Phasen den GPU-Scheduling-Konflikt zwischen einer gebatchten, rechengebundenen Arbeitslast und einer Streaming-, latenzgebundenen – was die Inferenzkosten bei Skalierung direkt senkt.