跳转到内容

硬件平台

xLLM 支持多种加速器后端,用于大模型推理部署。本章节汇总不同硬件平台的环境准备、运行时设备选择、服务启动和模型支持入口。

  • NVIDIA GPU - CUDA 后端环境和启动入口。
  • 昇腾 NPU - 昇腾 NPU 环境、运行时变量和 HCCL 启动注意事项。
  • 寒武纪 MLU - MLU 后端环境和启动入口。
  • 海光 DCU - 海光 DCU 后端环境和启动入口。
  1. 根据各平台指南中的显式命令准备对应平台的容器镜像。
  2. 在容器内编译 xLLM,或直接使用已经包含 xllm 的 release 镜像。
  3. 启动 xllm 中对应平台的设备后端启动服务。
  4. 模型支持列表 中确认模型和模态覆盖情况。