Skip to main content

vLLM-MUSA 用户指南

vLLM-MUSA插件是专为摩尔线程GPU设计的vLLM后端运行插件。 该插件是vLLM社区推荐的摩尔线程GPU支持方案,遵循硬件可插拔([RFC]: Hardware pluggable)原则,通过提供硬件解耦接口实现了摩尔线程GPU与vLLM框架的深度整合。

  • vLLM-MUSA插件版本与所用vLLM版本保持一致。例如 vLLM-MUSA v0.7.3 对应 vLLM 版本即为 v0.7.3。
  • vLLM-MUSA相比vLLM-MTT具有更广泛的模型支持与跨机通信支持,但在未做特殊优化的模型上性能上可能会相不及vLLM-MTT。我们建议您:
    • 在使用不涉及到跨机通信的模型(例如Deepseek-R1蒸馏系列模型)做推理时,优先使用vLLM-MTT(支持模型列表可以在这里找到),以获得更好的推理性能。
    • 如果需要使用多机推理(如全量版Deepseek-R1),更新的vLLM版本功能(目前vLLM-MTT所用vLLM版本为v0.4.2),或者需要用到vLLM-MTT不支持的模型,则选择vLLM-MUSA。