Skip to main content

KUAE 云原生套件 v2.1.0 发布说明

版本说明

KUAE 云原生套件(KUAE Cloud Native Toolkit)v2.1.0 版本现已发布,主要包含两大产品组件:MT Container Toolkit v2.1.0 和 MT GPU Operator v2.1.0。

产品说明

KUAE 云原生套件旨在为摩尔线程全功能 GPU 提供对云原生技术及 Kubernetes 系统的全面支持,帮助用户更便捷地在容器化环境中使用 GPU 资源。

image

KUAE Cloud Native Toolkit 框架图

该套件包含以下两个核心组件:

  • MT Container Toolkit :该工具包实现了摩尔线程 GPU 与多种容器运行时(如 runc、rkt、imctfy 等)的对接。它能够在容器启动时,自动将宿主机上的 GPU 驱动和设备节点挂载到容器内部,从而使容器内的应用无需额外配置即可直接调用 GPU 进行计算。这种方式使容器镜像保持设备无关和无状态,便于业务镜像的灵活扩展和跨节点、跨设备使用。
  • MT GPU Operator :在 Kubernetes 中,传统方式使用 GPU 等特殊硬件资源需要通过设备插件框架进行手动配置,过程繁琐且易出错。MT GPU Operator 基于 Kubernetes 的 Operator 框架,实现了对 GPU 相关软件组件(包括驱动程序、设备插件、容器运行时、节点自动标记、监控等)的全生命周期自动化管理,极大简化了 GPU 节点的部署与运维。

功能描述

硬件及平台支持

GPU 支持列表

MTT S5000, MTT S4000, MTT S3000, MTT S80, MTT S2000

支持 linux 发行版

OS name / Versionamd64 / x86_64arm64 / aarch64
Ubuntu 20.04YN/A
Ubuntu 22.04YN/A
Kylin V10 SP1N/AY
Alibaba Cloud Linux 3YN/A
Debian 12YN/A

支持的容器运行时

容器运行时名称及版本amd64 / x86_64arm64 / aarch64
Docker 20.10YY
containerd 1.5YY
containerd 2.1.0YN/A
CRI-O 1.21YY

支持的 Kubernetes 版本

支持 Kubernetes 1.19 ~ 1.32。

新增功能

MT Container Toolkit

  • 支持 containerd 2.1.0;
  • 支持新版本 MUSA SDK 4.3.x;
  • 更新 driver_caps_config.yaml 配置文件以支持 MUSA SDK 4.3.0 对应的驱动程序;
  • 升级 sGPU DKMS 软件包至 1.3.0 版本;
  • 升级 mtmlv2.1.0
  • 升级 MT GPU 管理库(MT GPU Management Library) 至 v2.1.0 版本。

MT GPU Operator

  • 适配 Kubernetes 1.32;

  • 升级所有子组件至最新版本:

    • MT Driver Toolkit 升级至 v2.1.0

      • 更新 mt-universal-device-manager 至 v2.1.0;
      • 支持在 Alibaba Cloud Linux 3 操作系统下的 rpm 安装。
    • MT Container Toolkit 升级至 v2.1.0

    • MT GPU Feature Discovery 升级至 v2.1.0

    • MT GPU Exporter 升级至 v2.1.0

    • MT Universal Device Controller 升级至 v2.1.0

    • MT AIOps升级至 v2.1.0

    • MT DCGM升级至 v1.0.1-3.3.6

    • MT DCGM Exporter 升级至 v1.0.1-3.3.6-3.4.2

产品组件说明

文件描述

组件名称版本组件说明
Container-Toolkit/deb/mt-container-toolkit_2.1.0-1_amd64.deb2.1.0MT GPU 容器运行时 deb安装包
Container-Toolkit/deb/sgpu-dkms_1.3.0_amd64.deb1.3.0MT SGPU 驱动程序 deb 安装包
Container-Toolkit/deb/6cf87f0b1_mtml_2.1.0-linux-R_amd64.deb2.1.0MT GPU 管理库 deb安装包
Container-Toolkit/rpm/6cf87f0b1_mtml_2.1.0-linux-R_amd64.rpm2.1.0MT GPU 管理库 rpm安装包
Container-Toolkit/rpm/mt-container-toolkit-2.1.0-1.x86_64.rpm2.1.0MT GPU 容器运行时 rpm安装包
Container-Toolkit/rpm/sgpu-dkms-1.3.0-1.el8.x86_64.rpm1.3.0MT SGPU 驱动程序 rpm 安装包
Container-Toolkit/end-user-cn.mdContainer-Toolkit安装说明文档
GPU-Operator/gpu-operator-core/dcgm-and-exporter.yamldcgm和dcgm-exporter yaml文件
GPU-Operator/gpu-operator-core/deployments.yamlgpu-operator core yaml文件
GPU-Operator/gpu-operator-full/mt-gpu-operator-2.1.0.tgz2.1.0MT GPU Operator 软件包
GPU-Operator/gpu-operator-full/mt-gpu-operator-custom-resources-2.1.0.tgz2.1.0MT GPU Operator Custom Resources 包
GPU-Operator/gpu-operator-full/mt-gpu-operator.yamlMT GPU Operator yaml文件
GPU-Operator/gpu-operator-full/mthreads_v1alpha4_clusterconfig.yamlclusterconfig yaml 文件
GPU-Operator/gpu-operator-full/mthreads_v1beta2_clusterpolicy.yamlclusterpolicy yaml 文件
GPU-Operator/end-user-cn.mdGpu-Operator安装说明文档