AI 算力下的光模块革命：Scale-Up 与 Scale-Out 需求拆解与CPO技术-超擎数智-构建万物互联的数智世界

新闻中心

洞悉超擎数智品牌力与AI变革

AI 算力下的光模块革命：Scale-Up 与 Scale-Out 需求拆解与CPO技术

时间：2025-08-29

来源：超擎数智

阅读量：2106

当大模型参数突破万亿、AI集群规模迈向10万卡级，算力基础设施正面临一场“架构风暴”——Scale-Up（纵向扩展）与Scale-Out（横向扩展）作为支撑 AI 算力的两大核心网络范式，正沿着截然不同的技术轨道狂飙，“低时延vs 高扩展”“高可靠vs 低成本”的极致权衡，都影响着光模块技术的迭代（LPO/NPO/CPO）。

一、各有千秋：Scale-Up 与 Scale-Out 的 “核心诉求”

在AI 算力集群的架构设计中，Scale-Up 与 Scale-Out 从诞生之初就带着截然不同的“基因使命”：

Scale-Up：为“原生计算延伸”而生，死磕“低时延+ 高可靠 + 高吞吐”

Scale-Up 的本质是“GPU 原生算力的无缝扩展”—— 通过构建紧密耦合的“超节点”，将多GPU 的本地内存虚拟化为统一逻辑内存池，让 GPU 核心访问远程内存像操作本地 HBM 一样丝滑（即“内存语义”）。其追求的不是规模，而是“计算与数据的零距离”，亚微秒级时延。

Scale-Out：为“海量节点协同”而生，主打“高扩展+ 低成本 + 生态兼容”

与Scale-Up 的“紧凑高效”不同，Scale-Out 是“分布式算力的规模化聚合”—— 通过三层 / 二层 CLOS 架构，将数万甚至十万 GPU 接入统一集群，支撑 DP/PP 等并行训练场景，核心诉求是“规模优先、成本可控”。

简言之，Scale-Up 是“把小集群做精”，Scale-Out 是“把大集群做通”—— 前者是 AI 算力的“精锐部队”，后者是“百万雄师”，二者共同构成了大模型训练与推理的算力底座。

二、现状深析：Scale-Up 的“超节点革命”与Scale-Out 的“扁平浪潮”

近几年，Scale-Up 与 Scale-Out 各自进入“技术爆发期”，头部厂商的实践已勾勒出清晰的演进路径：

Scale-Up：从“框式垄断”到“盒式突围”，224G 光互连成刚需

过去，Scale-Up 长期被“框式超节点”垄断，但 2025 年后“盒式超节点”的崛起打破了这一格局，形成“双架构并存”的态势：

框式超节点：高可靠的“算力堡垒”，通过“Cable 背板 + L1/L2 交换机”构建高可靠互连域。框内电互连，大带宽域；框间光纤互连，可以收敛。

盒式超节点：低成本的“效率黑马”，直接多卡GPU 封装为独立盒子，通过一级 CLOS 交换直接互连，将交换层次从 3 级精简为 1 级，互连成本占比大大降低。但其短板也极为明显：GPU 需直出光模块，第一跳可靠性依赖 XPU 的 IO-Die 处理（光模块失效和闪断带来的可靠性比电缆差100 倍）。

关于光模块和电缆可靠性对比，可参考下图OCP的数据分析：

无论架构如何演变，224G 光互连已成为 Scale-Up 的“标配”，根据咨询机构对光模块的成本预测数据，在未来3-5年，1.6T光模块售价是800G光模块的1.2~1.4倍，无论是LPO模块，还是带DSP的模块。这说明1.6T光模块优势非常明显。再加上112G的光纤也要多消耗一倍。各方面来看，224G将在未来更有优势。

Scale-Out：三层变二层、多平面组网

Scale-Out 的关键词是“精简”—— 通过架构扁平化解构传统瓶颈：三层 CLOS 谢幕，二层 10 万卡成主流。随着交换芯片的更迭，让Radix=512 成为现实，二层 CLOS 组网可直接支撑 13 万卡，无需 Core 层交换机。

DeepSeek 多平面组网：打破带宽瓶颈。DeepSeek 在 ISCA 论文中提出的“Mutli-plane 架构”，让AI-NIC 通过 4 个 200G 端口接入 4 个 CLOS 平面，每条流的数据包通过 Round-Robin 均匀分发至不同平面，接收端采用 DDP 乱序写入技术重组数据，使单 GPU Scale-Out 带宽利用率提升至 95% 以上。

三、CPO技术：重构AI网络光互连的核心力量

在Scale-Up与Scale-Out对光模块性能、能效要求持续提升的背景下，CPO（共封装光学）技术凭借“极致能效+超高带宽”，成为下一代光互连的核心方向。

CPO技术的核心突破：重构信号路径

CPO通过将光引擎与交换机ASIC共封装，简化信号传输路径（从交换机ASIC到光引擎的距离缩短至毫米级），带来革命性提升：

能效跃升3.5倍

传统可插拔光模块单接口功耗约30W（DSP 20W+激光10W），而CPO模块总功耗仅9W（光引擎7W+激光源2W），功耗降低67%，整体能效提升3.5倍。

可靠性提升10倍

通过减少有源器件和去除了易发生故障的光模块，显著提高了系统正常运行时间和运行可靠性。

超高带宽密度

英伟达Quantum-X Photonics交换机交换容量达115Tb/s，支持144个800G端口；Spectrum-X Photonics更推出512个800G端口的SN6800型号，总带宽高达409.6Tb/s，支撑超大规模AI集群。

部署效率提升23%

CPO模块无需单独插拔，AI工厂部署时间缩短至原来的77%（1/1.3），并显著缩短第一个 Token 的生成时间，大幅降低大规模部署的运维成本。

CPO的产业化进展：2026年量产，生态协同加速

产品落地时间表明确

英伟达Quantum-X InfiniBand CPO交换机预计2026年初上市，Spectrum-X以太网CPO交换机将于2026年下半年推出，均采用液冷散热设计，适配高密度、高功耗的AI工厂环境。

硅光引擎成核心支撑

CPO的核心是集成硅光引擎，英伟达通过“硅光芯片+ASIC共封装”，实现电信号损耗从传统的22dB降至4dB，信号完整性提升64倍。

合作伙伴生态成型

英伟达联合光模块、光纤、散热厂商构建CPO生态，保障大规模量产能力与可靠性。

光模块——AI算力传输的“神经中枢” 从Scale-Up对“低时延高可靠”的极致追求，到Scale-Out对“高扩展广兼容”的规模化诉求，光模块的技术演进始终以“场景需求”为核心；而CPO技术的突破，更将光互连从“功能组件”升级为“架构效能赋能者”。未来3年，224G速率的普及、LPO/NPO的规模化应用、CPO的量产落地，将共同支撑AI算力集群向“更高密度、更低功耗、更大规模”迈进，成为AI革命的关键基础设施支撑。