400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

破局万卡集群网络拥塞:NVIDIA Spectrum-X 搭载 MRC 协议重塑超大规模 AI 互联

时间:2026-05-08
来源:超擎数智
阅读量:330
分享:

在构建全球最强大AI工厂的竞逐中,仅仅堆叠GPU算力已无法满足大模型指数级增长的诉求,底层的网络基础架构必须与AI的发展宏图同频共振。

 

作为当今业界顶尖的AI网络技术,NVIDIA Spectrum-X以太网横向扩展基础设施正稳居这场技术变革的前沿,以其性能、可靠性和扩展性上的强大优势,被 OpenAI、微软(Microsoft)、甲骨文(Oracle)等全球行业领军企业率先部署。

 

为了进一步夯实大模型时代的网络底座,NVIDIA 联合微软、OpenAI、AMD、博通及英特尔等科技巨头,共同推出了MRC(多路径可靠连接,Multi-path Reliable Connection)协议,率先在 NVIDIA Spectrum-X以太网硬件上完成验证和优化,现已向业界开放。

 

1、告别“单行道”:MRC 协议打造 AI 互联的“智能交通网”

 

在传统的网络架构中,数据传输往往依赖单一路径。面对大规模AI训练中极度密集的东西向流量,一旦发生拥堵或短暂故障,整条数据流都会陷入停滞,导致GPU处于“空转”状态。

 

MRC协议的诞生改变了这一现状。它支持单个RDMA(远程直接数据存取)连接在多个网络路径上动态分发流量。

 

这就如同为数据构建了一套精密的三维城市路网,并配备了实时路况导航:当某条链路出现拥塞时,数据包会自动绕过拥堵路段,实现智能负载均衡。这种机制确保了每个GPU在整个训练周期内都能获得充沛且稳定的网络带宽,大幅拔高了集群整体的算力利用率。

 

 

OpenAI 工业计算负责人 Sachin Katti 表示:

 

“在Blackwell架构中部署MRC非常成功,这得益于与 NVIDIA 的强强合作。MRC采用的端到端方案,帮助我们避免了许多典型的网络相关减速和中断问题,从而保持了大规模前沿训练运行的极致效率。”

 

2、极致算力:微秒级级自愈与智能重传

 

对于数千甚至上万张GPU并行同步的AI训练集群而言,即使是微秒级的网络中断,也可能导致整个Checkpoint(检查点)同步失败,引发训练任务的严重回滚。

 

基于NVIDIA Spectrum-X以太网部署的MRC协议,通过硬件级优化带来了颠覆性的可靠性保障:

 

微秒级故障旁路

 

能够在几微秒内敏锐检测到网络路径故障,并通过底层硬件自动重新路由流量,将中断对高价值长周期训练作业的影响降至最低。

 

 

智能精细重传

 

当极端情况下发生数据丢失时,系统可实现快速、高精度的精准恢复,避免无效的全局重传,彻底降低GPU的闲置等待时间。

 

 

全维度的可视化

 

赋予网络管理员对流量路径的精细控制权,极大简化了十万卡级别系统的日常运维与故障排除流程。

 

3、十亿瓦级AI工厂基石:多平面网络设计与全栈协同

 

在面向未来的“十亿瓦级(Gigawatt)”超大型 AI 工厂规划中,多平面网络设计成为了必然趋势。它由多个独立的网络平面组成,为GPU之间提供相互独立且互为备用的通信路径。

 

OpenAI等巨头正是通过部署Spectrum-X以太网并应用MRC技术来实现这一设计。NVIDIA Spectrum-X平台原生支持跨平面的硬件加速负载均衡:

 

  • 通过 NVIDIA ConnectX SuperNIC与Spectrum-X以太网交换机的深度协同,不仅可以原生运行自适应RDMA与MRC传输协议,还能根据业务需求适配各种自定义协议。

 

  • 这种架构在不牺牲任何性能的前提下,打破了传统以太网的扩展壁垒,使得网络能够在保持极低且可预测延迟的同时,平滑扩展至数十万个GPU的庞大体量。

 

4、超擎数智:可信赖的AI基础设施整体解决方案提供商

 

随着大模型从技术探索迈入产业化深水区,网络需要做的已不仅仅是“跑得快”,更需要具备高智能化、高可用性以及拥抱开放标准的能力。

 

作为 NVIDIA Compute(GPU)、Networking(网络)的双Elite精英级合作伙伴,超擎数智始终致力于将业界最前沿的技术红利转化为企业触手可及的生产力。

 

面对万卡智算中心的建设浪潮,超擎数智提供从底层架构设计到交付调优的全栈服务

 

 

精准规划

 

结合企业的真实大模型业务负载,定制包含多平面网络、无收敛比拓扑在内的Spectrum-X高性能网络架构。

 

 

场景验证

 

依托超擎数智自建的高性能计算与人工智能研发测试中心,在出厂前即可完成ConnectX SuperNIC、Spectrum交换机与上层计算框架的软硬协同及压力测试,确保MRC等先进协议在生产环境下的满血释放。

 

 

微秒级故障旁路

 

能够在一微秒内敏锐检测到网络路径故障,并通过底层硬件自动重新路由流量,将中断对高价值长周期训练作业的影响降至最低。

 

选择超擎数智,我们将与您携手,共筑坚不可摧的推理时代企业级AI基础设施底座。