400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

超擎数智DGX Spark 多机性能实测:扩展桌面级AI集群的Scale-out能力边界

时间:2025-11-26
来源:超擎数智
阅读量:15
分享:

当一台 NVIDIA DGX Spark 的性能已经堪称"桌面级AI超级计算机",那么将两台、四台通过200Gb/s RDMA网络直连,又将引爆怎样的性能革命?这不仅是一个技术问题,更是超擎数智在为客户设计AI算力方案时,必须精准回答的实战命题。本期,我们将通过真实的NCCL测试数据,为你精准测绘这个桌面级统一内存集群的能力边界。

 

1、趋势:单机虽强,但集群才是未来

 

NVIDIA DGX Spark作为划时代的“桌面级AI超级计算机”,单机即拥有128GB的统一系统内存,足以在本地处理2000亿参数的大模型。

 

当然,当模型规模持续扩大,或我们追求极致的训练速度时,单机的性能天花板便达到瓶颈。 此时,我们必须引入Scale-out扩展————即通过高速网络将多台机器组成一个统一的计算集群。

 

这引出了一个核心问题:当我们把多台DGX Spark连接起来,网络是否会成为新的瓶颈? 整个集群的效率,究竟取决于什么?

 

答案,藏在NCCL(NVIDIA集合通信库)基础库里。它就像是连接多个GPU的“神经系统”,负责所有机器间的数据同步。它的性能,直接决定了多机训练的有效算力。

 

因此,对NCCL进行基准测试,绝非纸上谈兵,而是为了:

  • 量化通信开销:评估网络通信是否真的拖慢了整个训练过程。
  • 验证配置正确性:确认RoCE、RDMA、拓扑发现等功能正常。
  • 调优基础:获取带宽、延迟基线数据,为分布式训练超参(如bucket size)提供精准的数据依据。
  • 故障排查:提前发现链路降速、丢包、拓扑错误等问题。

 

2、实战:构建一个高速无损的测试环境

 

我们的目标很明确:实测两台及四台DGX Spark通过200Gb/s RoCE网络直连时,NCCL通信性能,量化all_gather/all_reduce等操作的带宽、延迟及扩展效率,验证DGX Spark Scale-out的可行性边界。

 

为此,我们搭建了一个精密的测试环境。首先,使用适配Blackwell架构NCCL源码进行编译安装,并配置合适的网络接口。我们特别选择了连接到两个不同CPU的网卡接口(例如enp1s0f0np0和enP2p1s0f1np1),并确保它们位于不同网段,以最大化测试结果的可靠性。

 

(以下测试过程,技术细节保留,供深度参考)

 

编译NCCL测试套件

 

查看网络接口和IP地址

 

示例输出:

 

注意:使用连接到两个不同CPU的接口。在这个例子中,我们将使用enp1s0f0np0enP2p1s0f1np1

 

您需要找到两个接口的IP地址。在这两个节点上,运行以下命令以查找IP地址并记下它们以进行下一步。确保两个接口配置在两个不同的网段上。

 

示例输出:

 

在节点二重复同样的操作过程。

 

运行NCCL测试

 

执行以下命令以运行NCCL通信测试。替换上一步中使用的接口名称。

 
测试结果

 

3、揭晓:数据背后的性能真相

 

这些数据意味着什么?

 

简单来说,它们证明了多台DGX Spark通过高速直连,成功构建了一个高效、低通信开销的微型集群。数据在机器间的“流动”非常顺畅,网络没有成为制约算力释放的短板。

 

测试数据给予了我们坚实的决策依据。基于此,我们为您提炼出以下部署建议:

 

“直连”两台DGX Spark,是小规模模型训练和验证的首选。但当同时需要高速互联和外部网络连接时,“直连+交换机”架构提供了更佳的平衡性,能带来更灵活的扩展性和集中管理能力,便于构建桌面级AI集群。选择正确的互连方法可以最大限度地发挥DGX Spark的计算潜力,为AI训练和推理提供高效且可扩展的基础设施。

 

技术测评的终点,是超擎服务的起点。 超擎数智交付的从来不仅是硬件设备,更是经过实测验证的AI应用全栈支撑能力。 我们相信,精准的测试与前瞻的规划,是构建高效AI基础设施的前提。在通往数智化的道路上,超擎数智愿以自身在算力与网络领域的深度实践,与每一位创新者同行。