400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

AI 算力下的光模块革命:Scale-Up 与 Scale-Out 需求拆解与CPO技术

时间:2025-08-29
来源:超擎数智
阅读量:65
分享:

当大模型参数突破万亿、AI集群规模迈向10万卡级,算力基础设施正面临一场架构风暴——Scale-Up(纵向扩展)与Scale-Out(横向扩展)作为支撑 AI 算力的两大核心网络范式,正沿着截然不同的技术轨道狂飙,低时延vs 高扩展”“高可靠vs 低成本的极致权衡,都影响着光模块技术的迭代(LPO/NPO/CPO)。

 

一、各有千秋:Scale-Up 与 Scale-Out 的 核心诉求

 

AI 算力集群的架构设计中,Scale-Up 与 Scale-Out 从诞生之初就带着截然不同的基因使命

 

Scale-Up:为原生计算延伸而生,死磕低时延+ 高可靠 + 高吞吐

 

Scale-Up 的本质是GPU 原生算力的无缝扩展—— 通过构建紧密耦合的超节点,将多GPU 的本地内存虚拟化为统一逻辑内存池,让 GPU 核心访问远程内存像操作本地 HBM 一样丝滑(即内存语义)。其追求的不是规模,而是计算与数据的零距离”,亚微秒级时延。

 

Scale-Out:为海量节点协同而生,主打高扩展+ 低成本 + 生态兼容

 

Scale-Up 的紧凑高效不同,Scale-Out 是分布式算力的规模化聚合—— 通过三层 / 二层 CLOS 架构,将数万甚至十万 GPU 接入统一集群,支撑 DP/PP 等并行训练场景,核心诉求是规模优先、成本可控

简言之,Scale-Up 是把小集群做精Scale-Out 是把大集群做通—— 前者是 AI 算力的精锐部队,后者是百万雄师,二者共同构成了大模型训练与推理的算力底座。

 

二、现状深析:Scale-Up 的超节点革命Scale-Out 的扁平浪潮

 

近几年Scale-Up 与 Scale-Out 各自进入技术爆发期,头部厂商的实践已勾勒出清晰的演进路径:

 

Scale-Up:从框式垄断盒式突围224G 光互连成刚需

 

过去,Scale-Up 长期被框式超节点垄断,但 2025 年后盒式超节点的崛起打破了这一格局,形成双架构并存的态势:

 

框式超节点:高可靠的算力堡垒,通过Cable 背板 + L1/L2 交换机构建高可靠互连域框内电互连,大带宽域;框间光纤互连,可以收敛。

 

盒式超节点:低成本的效率黑马”,直接多GPU 封装为独立盒子,通过一级 CLOS 交换直接互连,将交换层次从 3 级精简为 1 级,互连成本占比大大降低。但其短板也极为明显:GPU 需直出光模块,第一跳可靠性依赖 XPU 的 IO-Die 处理(光模块失效和闪断带来的可靠性比电缆100 倍)。

 

关于光模块和电缆可靠性对比,可参考下图OCP的数据分析:

无论架构如何演变,224G 光互连已成为 Scale-Up 的标配”,根据咨询机构对光模块的成本预测数据,在未来3-5年,1.6T光模块售价是800G光模块的1.2~1.4倍,无论是LPO模块,还是带DSP的模块。这说明1.6T光模块优势非常明显。再加上112G的光纤也要多消耗一倍。各方面来看,224G将在未来更有优势。

 

Scale-Out:三层变二层、多平面组网

 

Scale-Out 的关键词是精简—— 通过架构扁平化解构传统瓶颈:三层 CLOS 谢幕,二层 10 万卡成主流随着交换芯片的更迭,让Radix=512 成为现实,二层 CLOS 组网可直接支撑 13 万卡,无需 Core 层交换机。

 

DeepSeek 多平面组网:打破带宽瓶颈DeepSeek 在 ISCA 论文中提出的Mutli-plane 架构,让AI-NIC 通过 4 个 200G 端口接入 4 个 CLOS 平面,每条流的数据包通过 Round-Robin 均匀分发至不同平面,接收端采用 DDP 乱序写入技术重组数据,使单 GPU Scale-Out 带宽利用率提升至 95% 以上。

 

三、CPO技术:重构AI网络光互连的核心力量

 

Scale-Up与Scale-Out对光模块性能、能效要求持续提升的背景下,CPO(共封装光学)技术凭借“极致能效+超高带宽”,成为下一代光互连的核心方向。 

 

CPO技术的核心突破:重构信号路径 

 

CPO通过将光引擎与交换机ASIC共封装,简化信号传输路径(从交换机ASIC到光引擎的距离缩短至毫米级),带来革命性提升: 

 

  • 能效跃升3.5倍

传统可插拔光模块单接口功耗约30W(DSP 20W+激光10W),而CPO模块总功耗仅9W(光引擎7W+激光源2W),功耗降低67%,整体能效提升3.5倍。

 

  • 可靠性提升10倍

通过减少有源器件和去除了易发生故障的光模块,显著提高了系统正常运行时间和运行可靠性。

 

  • 超高带宽密度

英伟达Quantum-X Photonics交换机交换容量达115Tb/s,支持144个800G端口;Spectrum-X Photonics更推出512个800G端口的SN6800型号,总带宽高达409.6Tb/s,支撑超大规模AI集群。

 

  • 部署效率提升23%

CPO模块无需单独插拔,AI工厂部署时间缩短至原来的77%(1/1.3),并显著缩短第一个 Token 的生成时间,大幅降低大规模部署的运维成本。

 

CPO的产业化进展:2026年量产,生态协同加速

 

  • 产品落地时间表明确

英伟达Quantum-X InfiniBand CPO交换机预计2026年初上市,Spectrum-X以太网CPO交换机将于2026年下半年推出,均采用液冷散热设计,适配高密度、高功耗的AI工厂环境。

 

  • 硅光引擎成核心支撑

CPO的核心是集成硅光引擎,英伟达通过“硅光芯片+ASIC共封装”,实现电信号损耗从传统的22dB降至4dB,信号完整性提升64倍。

 

  • 合作伙伴生态成型

英伟达联合光模块、光纤、散热厂商构建CPO生态,保障大规模量产能力与可靠性。 

 

光模块——AI算力传输的“神经中枢” 从Scale-Up对“低时延高可靠”的极致追求,到Scale-Out对“高扩展广兼容”的规模化诉求,光模块的技术演进始终以“场景需求”为核心;而CPO技术的突破,更将光互连从“功能组件”升级为“架构效能赋能者”。未来3年,224G速率的普及、LPO/NPO的规模化应用、CPO的量产落地,将共同支撑AI算力集群向“更高密度、更低功耗、更大规模”迈进,成为AI革命的关键基础设施支撑