跳转到内容

Zero Evict调度器

xLLM支持zero_evict调度策略。zero_evict调度策略是一种尽可能减少请求淘汰率的调度算法,可以减少淘汰请求的prefill计算,减少TPOT。 这种调度算法通过模拟轮次,检测请求是否调度可以被调度且不导致其它请求被淘汰。

上述策略已在xLLM实现,并向外暴露gflag参数,控制功能的开关。

  • 开启zero_evict策略,并设置max_decode_token_per_sequence。
--use_zero_evict=true
--max_decode_token_per_sequence=256

开启zero_evict之后,在Qwen3-8B模型上,限制E2E时延,TPOT时延 下降27%