咨询服务热线:400-0698-860
邮箱:info@chaoqing-i.com
业务中心 - 上海超擎数智科技有限公司:上海市徐汇区龙启路158号1幢灿星大厦19层1911
业务中心 - 北京超擎数智科技有限公司:北京市海淀区北三环西路99号西海国际中心1号楼907
研发中心 - 武汉超擎数智科技有限公司:武汉东湖高新区金融港二路9号联发科武汉研发中心2楼
在生成式 AI 席卷全球的背景下,算力集群的规模正从千卡迈向万卡甚至十万卡级别。如何让庞大的 GPU 集群实现高效协同?底层网络互联技术成为了关键。
作为高性能网络的核心,RoCE(Remote Direct Memory Access over Converged Ethernet) 正在经历从“标准以太网补充”到“高性能 AI 基础设施”的进化。
RoCE的崛起:把RDMA带入以太网
RoCE的核心使命,是将 RDMA(远程直接内存访问)的高性能引入标准以太网。
传统的 TCP/IP 网络,数据传输过程中涉及大量内存拷贝和 CPU 干预,这对延迟敏感的分布式 AI 训练而言,不仅效率低下,还占用了宝贵的计算资源。RoCE 允许系统绕过 CPU 和内核网络栈,直接在远端内存或 GPU 显存之间进行数据传输,从而显著降低延迟、提升带宽利用率,在高性能计算(HPC)和大规模 AI 训练集群中成为关键互联技术之一。
随着 RoCE v2 成为主流,它逐渐成为数据中心 RDMA 的事实标准之一,因为它可以在现有以太网基础设施上实现 RDMA 功能,无需像 InfiniBand 那样部署昂贵的专用网络设备,这种“成本效益”与“部署便利性”的双重优势,使其成为云厂商和AI集群的首选方案之一。

核心挑战:当“有损”网络遭遇“无损”要求
尽管在概念上具有高性能、低延迟的优势,但在大规模AI训练场景下,RoCE 依然面临着传统以太网基因带来的三大挑战:

Spectrum-X:重新定义 AI 以太网
面对上述挑战,NVIDIA 推出的 Spectrum-X 以太网平台给出了系统级的解法。它并非简单的硬件堆叠,而是由 NVIDIA Spectrum-4 系列交换芯片、SuperNIC 网卡以及 BlueField DPU 组成的端到端的协同体系。
其核心目的非常明确:让以太网具备 InfiniBand级别的无损性、确定性和极致性能。

真正的“无损”传输:硬件级拥塞隔离
Spectrum-X 不再依赖单纯的丢包重传。通过 SuperNIC 与交换机的紧密协作,系统能在硬件层面实时检测拥塞,并配合PFC和DDP(直接数据放置)技术,确保数据端到端无丢失。这使得以太网网络在性能确定性上接近传统 InfiniBand 网络,从而满足 AI 训练对延迟和可靠性的高要求。
动态路由与分包调度:打破ECMP限制
针对“象流”冲突问题,Spectrum-X 引入了包级自适应路由(Packet-level Adaptive Routing)与包喷洒(Packet Spraying)技术。

实时拥塞控制:带内遥测与快速反馈
Spectrum-X 利用带内遥测技术收集网络状态信息,SuperNIC 收到反馈后,可进行亚微秒级的速率调节。这种机制允许网络在拥塞初期就快速调节速率和路由,从而避免缓冲区填满导致的延迟爆炸。
Spectrum-X 优势总结
相比 RoCE v2 或基于静态 ECMP 网络,Spectrum-X 的优势是可以量化的:
总体而言,Spectrum-X 将传统以太网从“通用有损网络”,转变为专为AI负载设计的 高性能RDMA 平台。
超擎数智:紧跟前沿技术发展脉搏
RoCE 的发展,本质上是传统以太网向高性能计算场景的一次深度适配,Spectrum-X 通过软硬协同的创新,补齐了以太网在AI时代的最后一块短板。
作为AI原生的基础设施整体解决方案提供商,超擎数智始终紧跟RoCE、InfiniBand 及 Spectrum-X 等前沿技术的发展脉搏。
硬件只是基础,超擎数智致力于为客户提供全生命周期的网络解决方案——从高可靠的网络拓扑设计、复杂的协议参数调优,到跨厂商环境的深度联调。我们旨在帮助客户消除网络瓶颈,让大规模 AI 集群算力真正实现稳定、高效的释放。
公众号

电话
需求反馈