"百万卡算力时代:多DC分布式训练如何驱动DCI需求飙升?"

发布:2024-10-09 10:39:01 阅读:293

近期,国联证券发布了一份深度研究报告《百万卡算力之路:多DC分布式训练与DCI需求增长》,该报告深入剖析了当前AI大模型训练中多数据中心(DC)分布式训练技术的崛起趋势,并展望了数据中心互联(DCI)技术的市场需求增长前景。

报告指出,随着AI模型规模的不断扩大,meta、Google等海外科技巨头已率先布局多DC分布式训练,其中Google的Gemini 1 Ultra项目便是典型案例。同时,OpenAI与微软也计划进一步扩大其分布式训练规模,以应对日益增长的计算需求。这一趋势不仅推动了AI技术的边界拓展,也对DCI技术提出了更高要求。

面对AI训练进入十万卡时代的新挑战,跨DC协同训练成为了必须克服的难题。AI训练对网络性能极为敏感,尤其是对数据丢包的容忍度极低。此外,大象流现象使得传统负载分担方法失效,万卡集群中的流量瞬时并发量巨大,对DCI网络构成了严峻考验。报告强调,当前十公里跨机楼并行训练的算效损失尚可控,但未来要实现百公里、千公里级跨地域并行训练,必须采用更先进的技术手段,并加强长距离超宽DCI网络的建设。

DCI网络示意图

在DCI互联方案方面,报告指出,通过高阶调制或DWDM技术可以实现更大的带宽。其中,400G ZR相干光学技术因其简洁性和高效性,有望在未来取代传统WDM系统。不同DCI场景需要选择适合的产品,如在园区内部优先采用光缆+LR光模块,而在跨园区场景中则更倾向于DWDM+ZR光模块。

报告还预测了DCI市场的广阔前景。据估计,从2024年至2028年,400G LR、400G ZR等多种光模块的出货量和市场规模将持续增长,其中400G ZR产品的价值量尤为显著。这一趋势不仅反映了DCI技术的快速发展,也预示着AI大模型训练对高性能DCI网络需求的持续增长。

综上所述,《百万卡算力之路:多DC分布式训练与DCI需求增长》报告为我们揭示了AI大模型训练中多DC分布式训练技术的崛起及其对DCI技术的新要求。随着技术的不断进步和市场的持续拓展,DCI网络将在AI训练中发挥越来越重要的作用。

---**摘要**:国联证券报告指出,AI大模型训练推动多DC分布式训练兴起,DCI需求激增,400G ZR等技术有望引领DCI市场增长。**关键词**:#AI大模型训练##多DC分布式训练##DCI需求增长#

热门产品

查看更多