近日,一份深度聚焦于2024年大模型时代异构计算平台的专题报告被广泛分享,该报告详尽阐述了当前大模型发展的技术背景与挑战。
随着GPT-3等大模型的崛起,模型训练所需的计算资源呈现出爆炸式增长。例如,GPT-3凭借1750亿参数,其计算量达到了惊人的314 ZFLOPs。为了满足这一需求,业界构建了一套从AI框架到加速库,再到硬件资源的完整技术栈。
在技术层面,面对算力墙和存储墙的挑战,AI框架成为突破的关键。数据并行、流水线并行、张量并行等多种策略被提出以优化计算效率。数据并行通过分割数据集,采用同步更新梯度的方法,实现了高效的计算资源利用。流水线并行则让每张GPU卡负责处理模型的部分层,通过同步激活与梯度,提升了并行计算的能力。张量并行则将单层操作分割到多张卡上执行,进一步减少了计算瓶颈。有条件计算和混合专家模式等方法也被用于减少计算量,提升模型训练效率。
在硬件资源方面,单机配置需具备高算力及强大的机内多卡通信能力。例如,XMAN4.0计算机配置了8个A100 GPU,以满足大模型训练的高性能需求。同时,集群网络设计也至关重要,采用8导轨优化的三层CLOS架构,能够确保千卡规模作业的P2P延迟和通信吞吐达到最优。
软硬件结合优化同样不可忽视。基于静态图的多后端加速架构,通过图接入、优化、转换及多后端支持等环节,实现了计算资源的最大化利用。其中,图接入融合了动态图与静态图的优势,虽然存在局限,但为计算加速提供了更多可能性。计算加速则通过算子融合和优化,进一步提升了计算效率。通信优化则针对交换机哈希冲突、All2All操作及AllReduce性能等问题,提出了有效的解决方案。
展望未来,大模型将继续朝着参数规模增长、多模态训练和异构资源利用的方向发展。面对这一趋势,集群与业务将面临更多挑战,如多类用户作业和多组异构集群的管理。因此,基于统一视图的端到端优化将成为关键,通过自动选择最优并行策略和弹性调度资源,实现计算资源的最大化利用。