跳到主要内容

端侧 vLLM-MUSA 用户指南

vLLM MUSA 是一个硬件插件,使得 vLLM 框架可以方便快速的在摩尔线程的 GPU 上运行,而无需侵入式的去修改 vLLM 原始的代码。vLLM MUSA 采用标准化的硬件抽象接口和动态注册架构,实现了摩尔线程GPU与vLLM框架的解耦集成。

借助 vLLM MUSA,Transformer系列模型、混合专家(Mixture-of-Expert)模型、嵌入模型以及多模态大语言模型在内的各类主流开源模型,均可在摩尔线程GPU上运行。

文档目录