性能优化
📄️ 快速开始
MT GPU 性能优化快速入门
📄️ 性能瓶颈分析
MUSA 性能瓶颈分析——识别和定位 GPU 程序性能瓶颈的方法
📄️ 性能分析工具
Moore Perf Tools 使用指南
📄️ 内存优化
GPU 内存优化——合并访存、向量化、存储体冲突消除、共享内存优化
📄️ 计算优化
GPU 计算优化——占用率调控、指令级并行、线程束分化消除、线程束专用化(specialization)
📄️ 归约算法优化
GPU 归约算法优化实战——分治策略、共享内存、线程束洗牌指令
📄️ GEMM/GEMV 优化
GPU 矩阵乘法优化实战——GEMV(矩阵向量乘法)内存优化、GEMM(矩阵矩阵乘法)分块(Tiling)策略、张量核心(Tensor Core)应用
📄️ FlashAttention 优化
GPU FlashAttention 优化实战——online softmax(在线 Softmax)、分块(Tiling)、内存高效 Attention

