Skip to main content

169 docs tagged with "MUSA"

View all tags

FAQ

MCCL FAQ ,包含常见问题、RAS 功能、错误码和最佳实践

FAQ

MCCL FAQ ,包含常见问题、RAS 功能、错误码和最佳实践

FlashAttention 优化

GPU FlashAttention 优化实战——online softmax(在线 Softmax)、分块(Tiling)、内存高效 Attention

GEMM/GEMV 优化

GPU 矩阵乘法优化实战——GEMV(矩阵向量乘法)内存优化、GEMM(矩阵矩阵乘法)分块(Tiling)策略、张量核心(Tensor Core)应用

Green Context

MUSA Green Context——轻量级执行上下文与 MP 资源隔离技术

L2 缓存管理

MT GPU L2 缓存持久化访问管理——提升全局内存访问带宽与降低延迟

Libraries & APIs

MUSA Libraries 提供了多 GPU 通信、深度学习、线性代数等扩展库 API 参考

MATE

MUSA AI 加速库

MCCL

MCCL 多 GPU 通信库用户指南和 API 参考

MCCL 2.1

MCCL 2.1 版本,包含概览、快速入门、使用指南、API 参考等

MCCL 2.3

MCCL 2.3 版本,包含概览、快速入门、使用指南、API 参考等

MCCL API 文档

MCCL API 参考,包含通信器管理、集体通信、点对点通信等函数

MCCL API 文档

MCCL API 参考,包含通信器管理、集体通信、点对点通信等函数

MCCL over ACE

使用异步通信引擎 ACE 实现高效集合通信

MCCL 和 MPI

MCCL 与 MPI 的使用差异、API 对比以及在 MPI 程序中使用 MCCL 的注意事项

MCCL 和 MPI

MCCL 与 MPI 的使用差异、API 对比以及在 MPI 程序中使用 MCCL 的注意事项

MCCL 概览

摩尔线程集合通信库(MCCL)概述、特性、框架与支持的集合通信操作

MCCL 概览

摩尔线程集合通信库(MCCL)概述、特性、框架与支持的集合通信操作

muDNN

muDNN 深度神经网络加速库开发者指南和 API 参考

MUSA C++ 语法

MUSA C++ 语法扩展、Runtime API、Driver API、设备端函数完整参考

MUSA Graphs

MUSA 图模式——内核图、有向无环图、批量执行优化

MUSA OpenLibs

MUSA 开源库集合——MATE、mutlass、TileLang-MUSA、muThrust 等并行计算和推理加速库

MUSA stream

MCCL 与 MUSA stream 的集成,包括组调用中多 MUSA stream 混合使用

MUSA stream

MCCL 与 MUSA stream 的集成,包括组调用中多 MUSA stream 混合使用

MUSA Toolkits

MUSA Toolkits 为开发人员提供了完备的编译器、运行时库和调试分析工具

MUSA 编程模型

MUSA 编程模型核心概念——线程层次、内存层次、执行模型

MUSA 软件栈

MUSA 开发套件(MUSA SDK)是摩尔线程推出的 GPU 并行计算开发环境,包含编译器、运行时、加速库和工具

MUSA 运行时库

MUSA 运行时库(MUSA Runtime)是 MUSA SDK 的核心组件,提供 GPU 设备管理、内存管理、内核执行等基础功能

MUSA-X Library

MUSA-X Library 基础加速库 API 参考,包括 muBLAS、muFFT、muSPARSE、muRAND、muSOLVER、muPP 等

musify 一键代码迁移

musify 语言转换工具——自动将 CUDA 代码转换为 MUSA 代码,支持批量迁移、排除标记、自定义映射表

MUTLASS

MUSA Tensor Linear Algebra Subprogram Library 编程指南

RAS

MCCL 可靠性、可用性和可服务性子系统,用于诊断崩溃和挂起问题

Warp 函数

MUSA Warp 函数——线程束同步、投票操作、数据交换

什么是 MUSA

MUSA 是摩尔线程推出的 GPU 并行计算平台和编程语言

使用 MCCL

MCCL 使用指南目录,包含通信器创建、错误处理、集体操作等

使用 MCCL

MCCL 使用指南目录,包含通信器创建、错误处理、集体操作等

内存优化

GPU 内存优化——合并访存、向量化、存储体冲突消除、共享内存优化

内存层次结构

MUSA 内存层次结构——寄存器、共享内存、全局内存、系统内存

创建通信器

MCCL 通信器创建方式,包括 mcclCommInitRank、mcclCommInitAll 及配置选项

创建通信器

MCCL 通信器创建方式,包括 mcclCommInitRank、mcclCommInitAll 及配置选项

原地操作

MCCL 原地操作说明,包括 AllReduce、Broadcast、ReduceScatter 等的原地优化

原地操作

MCCL 原地操作说明,包括 AllReduce、Broadcast、ReduceScatter 等的原地优化

原子函数

MUSA 原子函数——全局内存、共享内存、系统范围的原子操作

安装指南

安装 MUSA SDK 5.1.0——驱动安装、Toolkit 配置、muDNN、MCCL

容错

MCCL 容错机制,从网络故障、节点故障等致命错误中恢复

容错

MCCL 容错机制,从网络故障、节点故障等致命错误中恢复

开发工具

MUSA 开发工具 API 参考,包括 muPTI 性能分析工具和 MIXL 混合接口库

归约算法优化

GPU 归约算法优化实战——分治策略、共享内存、线程束洗牌指令

快速开始

MCCL 安装配置、验证与多机场景部署指南

快速开始

MCCL 安装配置、验证与多机场景部署指南

快速开始

15 分钟快速上手 MTGPU 编程——从环境验证到完整 Kernel 程序

性能瓶颈分析

MUSA 性能瓶颈分析——识别和定位 GPU 程序性能瓶颈的方法

执行模型

MUSA SIMT 执行模型——线程束调度、分支分化、延迟隐藏、原子操作

故障排除

MCCL 故障排除,包括错误码、GPU Direct、网络问题等调试策略

故障排除

MCCL 故障排除,包括错误码、GPU Direct、网络问题等调试策略

数据指针

MCCL 支持的数据指针类型,包括设备内存、主机内存、统一内存等

数据指针

MCCL 支持的数据指针类型,包括设备内存、主机内存、统一内存等

服务质量

MCCL 网络服务质量配置,流量类别分配与网络插件支持

服务质量

MCCL 网络服务质量配置,流量类别分配与网络插件支持

核心 API

MUSA 核心 API 参考文档,包括 Driver API、Runtime API、MTCC API 和 Math API

点对点通信

MCCL 点对点通信操作,包括 Send、Recv 及典型通信模式

点对点通信

MCCL 点对点通信操作,包括 Send、Recv 及典型通信模式

环境变量

MCCL 环境变量配置,包括系统配置、网络设置、调试参数等

环境变量

MCCL 环境变量配置,包括系统配置、网络设置、调试参数等

示例

MCCL 使用示例,包括通信器创建销毁、单进程多设备、MPI 多进程等场景

示例

MCCL 使用示例,包括通信器创建销毁、单进程多设备、MPI 多进程等场景

类型

MCCL API 类型定义,包括 mcclComm_t、mcclResult_t、mcclDataType_t 等

类型

MCCL API 类型定义,包括 mcclComm_t、mcclResult_t、mcclDataType_t 等

线程层次结构

MUSA 线程层次结构——网格、线程块、线程的组织、线程束、Occupancy

线程索引计算

MUSA 线程索引计算方法——一维、二维、三维索引、边界检查、常用模式

组调用

MCCL 组调用 API,用于避免阻塞和多线程独立使用

组调用

MCCL 组调用 API,用于管理多 GPU、聚合操作和点对点通信

组调用

MCCL 组调用 API,用于避免阻塞和多线程独立使用

组调用

MCCL 组调用 API,用于管理多 GPU、聚合操作和点对点通信

编程指南

MUSA 编程指南——GPU 并行计算完整开发文档

计算优化

GPU 计算优化——占用率调控、指令级并行、线程束分化消除、线程束专用化(specialization)

设置

MCCL 安全网络通信设置与进程管理说明

设置

MCCL 安全网络通信设置与进程管理说明

错误码

MCCL 错误码详细说明,包括主因、常见原因和排查方式

错误码

MCCL 错误码详细说明,包括主因、常见原因和排查方式

附录

MUSA 附录包含计算能力、环境变量、术语表等参考信息

集体操作

MCCL 集体通信操作,包括 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter

集体操作

MCCL 集体通信操作,包括 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter

集体通信函数

MCCL 集体通信 API,包括 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter

集体通信函数

MCCL 集体通信 API,包括 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter

高级内存优化

MUSA 高级内存优化——锁定内存、零拷贝、L2 缓存管理、Cluster 内存、异步执行

高级功能

MUSA 功能特性介绍——MUSA Graphs、Green Context 等高级特性