400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

AI 工厂进阶之路:MetroX-2 开启 Scale-Across 新纪元

时间:2026-01-22
来源:超擎数智
阅读量:332
分享:

当我们谈论 AI 基础设施时,多数人首先关注的是 GPU 算力:多少张 H100、NVLink 带宽有多高、单卡 FLOPS 提升了多少。然而,在实际生产环境中,尤其是当 AI 计算规模从“单一数据中心”扩展到“跨园区、跨城市的 AI 工厂(AI Factory)”时,真正决定系统效率上限的往往是网络能力

 

 

跨域扩展网络(Scale Across)是将多个数据中心互连,使其能够作为一统一集群共享工作负载。其核心在于通过高带宽,横向扩展网络搭建数据中心间的桥梁,提供远高于传统数据中心互联的传输能力。

 

为何需要 Scale-Across

 

既然 Scale-Up 与 Scale-Out 仍在持续发展,为何还需推动 Scale Across?事实上,跨域扩展并非取代既有架构,而是应对以下几方面系统级挑战的必然演进:

 

  • 功耗与散热瓶颈:当前典型机架功耗约为 15–30 千瓦,而 NVIDIA 机架级 GPU 基础设施功耗已接近 140 千瓦,并预计将持续上升。风冷散热逐渐逼近极限,液冷成为必然选择。单一数据中心在供电与散热上面临越来越大的压力。

 

  • 电力成本与资源分布:在单一地点为数百万 XPU 供电极为困难,且全球各地的电价差异显著,分布式布局可结合各地电力资源,提升整体能效与经济性。

 

  • 扩展性的物理与工程限制:即使电力充足,单一数据中心的无限扩展也面临空间、承重、运维等物理限制。分阶段、跨地域建设并通过高速网络互联,在技术与商业上更具可行性。

 

  • 推理和边缘计算需求:时下 AI 发展的重心正在逐渐由训练转向推理,英伟达推出 Rubin ,其在推理能力上有着大幅提升的同时,还显著降低了推理成本,势必带来一番推理浪潮。边缘计算等相关概念也在兴起。为了满足推理时用户需要的低时延,高并发,大量数据回传,分布式数据中心的建设迫在眉睫。

 

  • 数据驻留与合规要求:各地区数据合规政策形成“结构约束”,数据与算力需部署在本地。跨域网络可在合规前提下,实现算力资源的逻辑协同与灵活调度

 

MetroX-2:城域级 AI 互联系统

 

为应对上述挑战, NVIDIA 推出了面向“城域级 AI 网络”的 InfiniBand 远程互连系统 MetroX-2。在传统网络中,跨机房、跨园区通信往往意味着更高的延迟、更复杂的路由路径,以及难以预测的抖动(Jitter),这些因素对AI训练与推理任务影响显著。

 

 

MetroX-2 通过多层次协同优化,将地理距离的影响降至可接受范围:

 

  • 物理层:采用低损耗长距光模块、波分复用与链路修复技术,提供稳定可预测的物理链路;

 

  • 网络层:搭载距离感知的调度与拥塞控制机制,支持端到端遥测、自适应路由与队列管理;

 

  • 协议与平台层:保持 RDMA、GPUDirect 等直达路径,最小化内存拷贝与上下文切换。

 

该系统通过面向 AI 流量优化的以太网架构、高带宽低延迟数据路径,以及与 NVIDIA 生态深度协同的流量调度机制,使 GPU 间通信具备“距离透明性”。从应用视角看,训练与推理任务仍运行在一个统一、低延迟、可预测的网络平面上。

 

对训练与推理工作负载的实际价值

 

在大模型训练阶段,涉及模型并行、流水线并行等复杂通信模式时,跨节点通信往往占据总训练时间的相当比例。MetroX-2 的低抖动、高可预测性特征,使得这些通信模式在跨数据中心场景下仍然能够保持稳定的 step time,而不会因为偶发拥塞导致整体训练节奏被拖慢。

 

而在推理场景中,MetroX-2 的价值体现得更加直接。

 

推理工作负载天然具有突发性、高并发和强时延敏感等特征。通过在城域范围内部署多个推理节点,并利用 MetroX-2 将它们组织成一个统一资源池,可以实现更精细的流量调度与就近响应:

 

  • 用户请求被优先调度到物理距离最近、负载最低的节点

 

  • 热点模型可以在多个数据中心之间快速同步

 

  • 高峰期通过跨域调度实现算力“削峰填谷”

 

这使AI服务商无需在每个区域部署完整冗余的推理集群,即可在保证体验的同时实现资源的高效利用。

 

超擎数智:构建AI工厂的可持续物理底座

 

如果说 AI 网络架构的前一阶段是从三层架构走向 Clos Fabric,那么下一阶段则是从“数据中心网络”迈向“AI 城域网络”。

 

在 MetroX-2 构筑的城域级 AI 网络中,更长的链路距离与更复杂的室外环境,对光互联产品的传输距离、损耗控制、稳定性与可靠性提出了远超传统数据中心的严苛要求。

 

作为 AI 原生的基础设施整体解决方案提供商,超擎数智在长距离光模块与高性能光纤线缆领域厚植优势,产品方案能完美匹配跨城域、高带宽、低误码的应用场景,提供极其稳定、可预测的 AI 基础设施服务,确保跨数据中心的 GPU 通信不因链路质量而产生瓶颈。

 

在 AI 基础设施从“算力堆叠”走向“系统工程”的今天,选择成熟、可靠的光互联方案,本质上是为未来的 AI 工厂铺设一条可持续扩展的高速通道。超擎数智,愿做这条通道背后坚实的支撑力量。