
近日,在中国挪动(600941)集团公司开发下,中国挪动接洽院联结中国挪动黑龙江公司在大家运营商最大单集群智算中心——中国挪动(哈尔滨)数据中心完成首个面向PP(活水线并行)西宾的OTN承载百公里级智算溜达式协同现网技能熟识。本次技能熟识初次完成了基于800G OTN的104km跨智算集群溜达式PP西宾,兑现了等同单节点西宾效率98%以上的高效协同西宾,是业界初次百公里级跨集群PP西宾可行性技能考据探索。
跟着智算集群鸿沟向超万卡演进,单智算节点的握续扩容将面对电力供应、机房空间的宏大挑战,何况智算中心分地域、分时间、分阶段诞生情景较为多数。智算溜达式协同是破解单节点聚首部署受限、算力资源孤岛等贫窭的热切处置有贪图。而怎样将溜达式部署的智算节点进行高效的互联,充分推崇算力资源的最大效用,是业界亟需接洽的要害问题。OTN具有大带宽、巩固低时延、高可靠等传输和组网技能性格,已粗犷讹诈于主干传送和城域传送网络,是构建跨集群溜达式西宾的潜在互联技能。而溜达式智算对光网络的新需求与弃取的DP(数据并行)、PP等西宾并行样式胜利关系,其中,PP是基础大模子西宾的最常用并行神气之一,比较DP具有通讯频次高、通讯时候不行一起秘密等更高难度,其拉远可行性在业界存在较大不对。
中国挪动接洽院面向智算溜达式协同场景握续开展技能翻新,完成业界首个面向PP西宾的OTN承载百公里级智算溜达式协同技能现网熟识。在熟识中基于800G OTN互联的两个智算集群上驱动700亿级参数的大型基础道话模子,在64张GPU卡、4个PP域区别在相距104km的两个节点部署场景下,兑现了等同单节点西宾效率98%以上的高效协同西宾,是业界初次考据了OTN承载基于PP的百公里跨集群西宾可行性,为溜达式智算技能演进提供了全新技能途径和翔实熟识数据。此外,还翻新提议了面向智算溜达式协同的OTN无损倒换技能有贪图,通过芯片级算法兑现传输链路断纤、误码时西宾效率的无损和无感知。
自2023年起,中国挪动接洽院联结国内合营伙伴,开展跨集群溜达式西宾互联技能攻关,翻新提议基于OTN的智算溜达式协同架构开云kaiyun,初次完成2-100公里不同距离多场景下OTN承载溜达式智算技能熟识,关系后果在光通讯顶会ECOC发表。中国挪动后续将围绕智算溜达式协同潜入激动要害技能攻关、原型研发与熟识考据,探索溜达式智算中心新样式。