KUAE 云原生套件产品介绍
产品说明
KUAE 云原生套件旨在为摩尔线程全功能 GPU 提供对云原生技术及 Kubernetes 系统的全面支持,帮助用户更便捷地在容器化环境中使用 GPU 资源,满足并行计算、AI 训练、AI 推理、云渲染、视频云等业务的需要。
KUAE 云原生套件包含以下两个核心组件:
- MT Container Toolkit :该工具包实现了摩尔线程 GPU 与多种容器运行时(如 runc、rkt、imctfy 等)的对接。它能够在容器启动时,自动将宿主机上的 GPU 驱动和设备节点挂载到容器内部,从而使容器内的应用无需额外配置即可直接调用 GPU 进行计算。这种方式使容器镜像保持设备无关和无状态,便于业务镜像的灵活扩展和跨节点、跨设备使用。
- MT GPU Operator :在 Kubernetes 中,传统方式使用 GPU 等特殊硬件资源需要通过设备插件框架进行手动配置,过程繁琐且易出错。MT GPU Operator 基于 Kubernetes 的 Operator 框架,实现了对 GPU 相关软件组件(包括驱动程序、设备插件、容器运行时、节点自动标记、监控等)的全生命周期自动化管理,极大简化了 GPU 节点的部署与运维。
技术特点
KUAE 云原生套件符合 Kubernetes 和容器生态的标准,研发者可以沿袭目前的开发、部署方式使用摩尔线程 GPU,业务迁移发生在容器底层,因此能够在上层用户无感知的情况下,通过底层的技术替换,完成从其它 GPU 设备到摩尔线程 GPU 设备的迁移。
数据中心中,设备利用率是业务成本优化的关键因素,而目前大型智算中心的 GPU 利用率整体偏低。比如小规模参数模型的推理场景, GPU 设备分配给一个推理服务后会被绑定,即使算力和显存资源有富裕也无法被其他服务复用。针对此类场景,KUAE 云原生套件提供弹性 GPU 功能,能够以 sGPU(shared GPU)为颗粒度进行弹性调度,提高资源利用率,满足不同业务场景的需求。
弹性 GPU 功能使单张物理 GPU 卡能被多个业务共享,并提供显存和算力的隔离能力,即容器服务或者是普通进程服务都可以使用小数倍的 GPU 资源。通过更加精细化资源分配,提高整个集群的资源利用率。另外弹性 GPU 的任意切分功能提供了动态调整功能,可以随时根据上层服务的使用情况和整体的调度策略,分配不同的算力和显存资源给各个使用者。弹性 GPU 的功能特性与上述 GPU 容器化技术融合,可以在容器化和 K8S 生态中提供给用户更加灵活的调度策略。

