zbo智博1919com

新闻中心 新闻中心

OpenAI携手5大巨头颁布MRC和谈,重塑大规模AI训练网络架构

IT之家 5 月 7 日新闻,Open

作者::张韦水
颁布功夫::2026-05-14 08:31:10
阅读量::5

OpenAI携手5大巨头颁布MRC和谈,重塑大规模AI训练网络架构

IT之家 5 月 7 日新闻,OpenAI 昨日(5 月 6 日)颁布布告,为解决大规模 AI 训练中的网络延长和故障问题,已携手 AMD、、博通、、英特尔、、微软和英伟达公司,结合推出多蹊径靠得住衔接(MRC)和谈,并通过 OCP(盛开推算项目)向全行业盛开该和谈。。。

IT之家援引博文介绍,MRC 全称为 Multipath Reliable Connection,基于 RoCE 尺度扩大,结合 SRv6 技术,通过盛开推算项目(OCP)向全行业开源,致力于提升超等推算机网络的机能与韧性。。。

大规模训练 AI 模型面对严格的网络挑战,单一数据传输延长可能导致整个过程中断,以至 GPU(图形处置器)闲置。。。网络拥塞、、链路及设备故障是重要诱因,且集群规模越大,问题产生频率越高。。。

针对传统网络架构扩大性不及的问题,MRC 选取多平面网络设计。。。通过将单一 800Gb/s 接口拆分为多个较小链路,系统仅需两层互换机即可衔接约 13.1 万块 GPU。。。相比传统三层或四层架构,这一设计显著降低了网络功耗与组件数量,在降低成本的同时提升了蹊径多样性。。。

在流量调度方面,MRC 引入自适应数据包喷淋技术。。。与传统单蹊径传输分歧,该技术将单一传输工作的数据包分散至数百条蹊径并行传输,有效预防了主题网络拥塞。。。即便数据包乱序达到,接管端也能凭据内存地址信息正确重组。。。

为简化网络节制,MRC 摒弃了复杂的动态路由和谈(如 BGP),转而选取 SRv6 源路由。。。发送端直接指定数据包蹊径,互换机仅需凭据静态配置表转发。。。这种机制解除了动态路由的故障行为,使网络故障复原功夫从秒级缩短至微秒级。。。

现实部署数据显示,MRC 已利用于 NVIDIA GB200 超等推算机及 Oracle Cloud Infrastructure(OCI)站点。。。在真实训练场景中,即便产生链路抖动或互换机重启,MRC 也能在不中断训练工作的情况下自动绕过故障。。。

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、、互换您的概念。。。

最新文章

热点文章

随机推荐

【网站地图】