跳转到内容
xLLM
开始使用
硬件
用户指南
实践指南
开发者指南
CLI 参考
搜索
Ctrl
K
取消
GitHub
中
EN
中
主页
开始使用
快速开始
启动xllm
多机部署
在线服务
离线推理
模型支持列表
硬件
硬件平台
NVIDIA GPU
昇腾 NPU
寒武纪 MLU
海光 DCU
用户指南
高级功能
异步调度
多流并行
ChunkedPrefill调度器
Zero Evict调度器
PD分离
Prefix Cache 优化
全局多级KV Cache
多模态支持
EP并行
MoE负载均衡(EPLB)
MTP投机推理
Graph Mode
xLLM Service
实践指南
自回归模型
Qwen
Qwen3.5
Qwen3
Qwen3-Next
Qwen3-VL
Qwen2.5-VL
DeepSeek
DeepSeek-V3.2
DeepSeek-V3.1
DeepSeek-V3
DeepSeek-R1
GLM
GLM-5.1
GLM-5
GLM-4.7
GLM-4.7-Flash
GLM-4.6
GLM-4.6V
GLM-4.5
GLM-4.5V
Kimi
Kimi2
Kimi-K2.5 / Kimi-K2.6
MinMax
MiniMax-M2.7
扩散模型
Flux
Flux
Flux2
Wan
Wan2.1
Qwen-Image
Qwen-Image
开发者指南
开发
代码结构
xLLM Ascend TileLang Kernel 开发指南
在线性能采集 (Online Profiling)
AI Coding 工作流
设计文档
Graph Mode 设计文档
生成式推荐设计文档
CLI 参考
GitHub
选择语言
EN
中
GLM-4.7-Flash
Copy page
本章节用于汇总 GLM-4.7-Flash 自回归模型在 xLLM 中的推理实践。
后续会随着实践内容整理逐步补充。