跳转到内容

硬件平台

xLLM 支持多种加速器后端，用于大模型推理部署。本章节汇总不同硬件平台的环境准备、运行时设备选择、服务启动和模型支持入口。

平台指南

NVIDIA GPU - CUDA 后端环境和启动入口。
昇腾 NPU - 昇腾 NPU 环境、运行时变量和 HCCL 启动注意事项。
寒武纪 MLU - MLU 后端环境和启动入口。
海光 DCU - 海光 DCU 后端环境和启动入口。

通用流程

根据各平台指南中的显式命令准备对应平台的容器镜像。
在容器内编译 xLLM，或直接使用已经包含 xllm 的 release 镜像。
按启动 xllm 中对应平台的设备后端启动服务。
在模型支持列表中确认模型和模态覆盖情况。