跳到主要内容

端侧 vLLM-MUSA

vLLM MUSA 是一个硬件插件,使得 vLLM 框架可以方便快速的在摩尔线程的 GPU 上运行,而无需侵入式的去修改 vLLM 原始的代码。vLLM MUSA 采用标准化的硬件抽象接口和动态注册架构,实现了摩尔线程GPU与vLLM框架的解耦集成。

借助 vLLM MUSA,Transformer系列模型、混合专家(Mixture-of-Expert)模型、嵌入模型以及多模态大语言模型在内的各类主流开源模型,均可在摩尔线程GPU上运行。

vLLM MUSA 架构图

版本选择

vLLM-MUSA 版本是推理软件版本;AIModule 1.3.0.003、AIModule 1.3.0、AIBook 1.4.0、AIBook 1.3.3 是设备系统版本。请先根据设备类型和系统版本选择对应文档。

设备系统版本vLLM-MUSA 版本状态文档入口
AIModuleAIOS 1.3.0.0031.3.2最新推荐进入文档
AIModuleAIOS 1.3.01.2历史版本进入文档
AIBookAIOS 1.4.01.3.2最新推荐进入文档
AIBookAIOS 1.3.31.3.1历史版本进入文档

更多 vLLM-MUSA 版本变更说明,请查看 vLLM-MUSA 版本说明

从这里开始