跳到主要内容

vLLM-MTT 用户指南(服务器)

MT-Transformer (MTT) 为摩尔线程自研的 LLM 推理引擎后端,专注于 Transformer 架构的 LLM 模型的推理加速。MTT 实现了汇编级别的底层算子融合,并针对摩尔线程 GPU 架构进行了定制优化,以追求极致的大模型推理引擎性能。

本文档将介绍 MTT 配合 vLLM 进行大模型部署的使用方法。

vLLM-MTT 相比 vLLM-MUSA

vLLM-MUSA 与 vLLM-MTT 都是摩尔线程推出的基于摩尔线程硬件的大模型加速推理软件方案,两者都使用 vLLM 作为服务框架。

简单来说,因为 MTT 的优化更加底层与定制化,vLLM-MTT 相比 vLLM-MUSA 在支持的模型上往往拥有更好的性能,但也因此在模型支持广度上不如 vLLM-MUSA。两者的详细异同比较以及使用的选取请参考 vLLM-MUSA 简介 | vLLM-MUSA 相比 vLLM-MTT