AI 工厂进阶之路：MetroX-2 开启 Scale-Across 新纪元-超擎数智-构建万物互联的数智世界

新闻中心

洞悉超擎数智品牌力与AI变革

AI 工厂进阶之路：MetroX-2 开启 Scale-Across 新纪元

时间：2026-01-22

来源：超擎数智

阅读量：541

当我们谈论 AI 基础设施时，多数人首先关注的是 GPU 算力：多少张 H100、NVLink 带宽有多高、单卡 FLOPS 提升了多少。然而，在实际生产环境中，尤其是当 AI 计算规模从“单一数据中心”扩展到“跨园区、跨城市的 AI 工厂（AI Factory）”时，真正决定系统效率上限的往往是网络能力。

跨域扩展网络（Scale Across）是将多个数据中心互连，使其能够作为一统一集群共享工作负载。其核心在于通过高带宽，横向扩展网络搭建数据中心间的桥梁，提供远高于传统数据中心互联的传输能力。

为何需要 Scale-Across

既然 Scale-Up 与 Scale-Out 仍在持续发展，为何还需推动 Scale Across？事实上，跨域扩展并非取代既有架构，而是应对以下几方面系统级挑战的必然演进：

功耗与散热瓶颈：当前典型机架功耗约为 15–30 千瓦，而 NVIDIA 机架级 GPU 基础设施功耗已接近 140 千瓦，并预计将持续上升。风冷散热逐渐逼近极限，液冷成为必然选择。单一数据中心在供电与散热上面临越来越大的压力。

电力成本与资源分布：在单一地点为数百万 XPU 供电极为困难，且全球各地的电价差异显著，分布式布局可结合各地电力资源，提升整体能效与经济性。

扩展性的物理与工程限制：即使电力充足，单一数据中心的无限扩展也面临空间、承重、运维等物理限制。分阶段、跨地域建设并通过高速网络互联，在技术与商业上更具可行性。

推理和边缘计算需求：时下 AI 发展的重心正在逐渐由训练转向推理，英伟达推出 Rubin ,其在推理能力上有着大幅提升的同时，还显著降低了推理成本，势必带来一番推理浪潮。边缘计算等相关概念也在兴起。为了满足推理时用户需要的低时延，高并发，大量数据回传，分布式数据中心的建设迫在眉睫。

数据驻留与合规要求：各地区数据合规政策形成“结构约束”，数据与算力需部署在本地。跨域网络可在合规前提下，实现算力资源的逻辑协同与灵活调度

MetroX-2：城域级 AI 互联系统

为应对上述挑战， NVIDIA 推出了面向“城域级 AI 网络”的 InfiniBand 远程互连系统 MetroX-2。在传统网络中，跨机房、跨园区通信往往意味着更高的延迟、更复杂的路由路径，以及难以预测的抖动（Jitter），这些因素对AI训练与推理任务影响显著。

MetroX-2 通过多层次协同优化，将地理距离的影响降至可接受范围：

物理层：采用低损耗长距光模块、波分复用与链路修复技术，提供稳定可预测的物理链路；

网络层：搭载距离感知的调度与拥塞控制机制，支持端到端遥测、自适应路由与队列管理；

协议与平台层：保持 RDMA、GPUDirect 等直达路径，最小化内存拷贝与上下文切换。

该系统通过面向 AI 流量优化的以太网架构、高带宽低延迟数据路径，以及与 NVIDIA 生态深度协同的流量调度机制，使 GPU 间通信具备“距离透明性”。从应用视角看，训练与推理任务仍运行在一个统一、低延迟、可预测的网络平面上。

对训练与推理工作负载的实际价值

在大模型训练阶段，涉及模型并行、流水线并行等复杂通信模式时，跨节点通信往往占据总训练时间的相当比例。MetroX-2 的低抖动、高可预测性特征，使得这些通信模式在跨数据中心场景下仍然能够保持稳定的 step time，而不会因为偶发拥塞导致整体训练节奏被拖慢。

而在推理场景中，MetroX-2 的价值体现得更加直接。

推理工作负载天然具有突发性、高并发和强时延敏感等特征。通过在城域范围内部署多个推理节点，并利用 MetroX-2 将它们组织成一个统一资源池，可以实现更精细的流量调度与就近响应：

用户请求被优先调度到物理距离最近、负载最低的节点

热点模型可以在多个数据中心之间快速同步

高峰期通过跨域调度实现算力“削峰填谷”

这使AI服务商无需在每个区域部署完整冗余的推理集群，即可在保证体验的同时实现资源的高效利用。

超擎数智：构建AI工厂的可持续物理底座

如果说 AI 网络架构的前一阶段是从三层架构走向 Clos Fabric，那么下一阶段则是从“数据中心网络”迈向“AI 城域网络”。

在 MetroX-2 构筑的城域级 AI 网络中，更长的链路距离与更复杂的室外环境，对光互联产品的传输距离、损耗控制、稳定性与可靠性提出了远超传统数据中心的严苛要求。

作为 AI 原生的基础设施整体解决方案提供商，超擎数智在长距离光模块与高性能光纤线缆领域厚植优势，产品方案能完美匹配跨城域、高带宽、低误码的应用场景，提供极其稳定、可预测的 AI 基础设施服务，确保跨数据中心的 GPU 通信不因链路质量而产生瓶颈。

在 AI 基础设施从“算力堆叠”走向“系统工程”的今天，选择成熟、可靠的光互联方案，本质上是为未来的 AI 工厂铺设一条可持续扩展的高速通道。超擎数智，愿做这条通道背后坚实的支撑力量。

上一篇：从通用以太网到 AI 互连基础设施：Spectrum-X 重塑 RoCE 网络价值
下一篇：NVIDIA RTX Pro 5000：多模态时代的本地算力基石

公众号
电话

400-0698-860
需求反馈

首页

产品中心

行业解决方案

教科研

医疗健康

金融服务

具身智能

互联网

智能制造

媒体和娱乐

智慧城市

服务支持

服务理念

服务项目

售后服务

服务支持

获取服务

测试申请

维保查询

资源下载

新闻中心

公司新闻

行业洞察

超擎技术社区

市场活动

关于我们

新闻中心

AI 工厂进阶之路：MetroX-2 开启 Scale-Across 新纪元