实测揭秘 | 超擎数智系统级验证：PD分离时代，高性能网络如何让KV Cache卸载发挥真正实力？-超擎数智-构建万物互联的数智世界

新闻中心

洞悉超擎数智品牌力与AI变革

实测揭秘 | 超擎数智系统级验证：PD分离时代，高性能网络如何让KV Cache卸载发挥真正实力？

时间：2026-03-13

来源：超擎数智

阅读量：572

大模型进入“长跑”时代，算力瓶颈正在悄然转移。从8K到128K，再到如今百万级的Token上下文，大模型的“记忆力”正在经历爆发式增长。对于企业而言，这意味着AI真正成为了处理海量金融研报、审核超长法律合同、甚至分析整个代码库的生产力工具。

但“长记忆”是有代价的。

在Transformer架构下，为了保证推理速度，系统必须将历史Token的注意力键值（Key-Value Cache，简称KV Cache）常驻在GPU显存中。当上下文长度突破10万（100K）量级时，KV Cache的数据量会呈线性爆炸。

这就导致了一个尴尬的局面：GPU的计算能力尚未被充分利用，显存却已经率先成为瓶颈。

面对这一挑战，业界提出了两种主流优化思路：

一是通过PD分离（Prefill-Decode Disaggregation）将计算密集的Prefill阶段和访存密集的Decode阶段解耦，避免资源争抢；

二是通过KVCache Offload将缓存数据迁移到外部存储，为显存“减负”。这两种技术相辅相成，共同构成了长上下文推理的基石。

但KVCache Offload能否发挥最大效用，关键取决于连接GPU与存储的那条“高速公路”——网络带宽。

是继续堆GPU来换取显存空间？还是寻求一种更聪明的架构变更？

在ODCC牵头下，超擎数智联合 NVIDIA 、焱融科技、英韧科技、DaoCloud、纳多德，在自有的高性能计算和人工智能研发测试中心，投入数千万设备，进行了一场跨厂商的深度验证。评估 NVIDIA Spectrum-X 高速网络环境下，KV Cache卸载带来的性能收益，同时分析东西向和南北向高带宽网络对AI推理性能的影响。

核心思路：KV Cache Offload，给GPU显存“减负”

面对显存危机，解决思路是明确的：在长上下文大规模推理场景下，会产生大量的缓存数据，既然显存装不下，那就把KV Cache搬出去。

这就是KV Cache Offload技术——将缓存数据迁移到GPU外部的存储介质中，需要时再取回。

在PD分离架构中，这一技术尤为重要：Prefill节点产生的海量KVCache可以迅速卸载到共享存储池，而Decode节点则能以极低延迟拉取所需缓存，从而实现真正的计算与访存分离。

但这带来了一个巨大的技术挑战：速度。

如果外部传输速度跟不上GPU的计算速度，推理就会卡顿，用户体验会大打折扣。因此，这项技术的成败，并不取决于存储介质本身，而取决于连接GPU与存储的那条“高速公路”——网络带宽。

为了验证这一架构在极端场景下的真实表现，超擎数智构建了一套顶级的测试环境：

平台层：采用Dao Cloud Enterprise 5.0 (DCE 5.0)。

模型负载：实测DeepSeek-R1（671B）和Qwen3（235B）等主流大模型，上下文长度分别拉满至128K、40K。

计算层：覆盖了高端（NVIDIA H20）与中端（NVIDIA RTX Pro 6000D）两类典型推理平台。

网络层：部署了基于 NVIDIA Spectrum-X 的以太网架构，提供从400G到1.6T的超宽带“高速公路”东西向网络。

存储层：采用焱融YRCache高性能推理存储系统、英韧洞庭N3X SSD，专为缓存命中优化。

实测深度解读：高带宽网络如何重塑推理性能？

在近乎严苛的测试中，我们通过两组核心场景验证了高带宽网络对KV Cache卸载架构的决定性影响。

PD一体测试场景

在传统的PD一体架构中，GPU需要同时处理计算和显存内外的数据交换。当KV Cache被卸载到外部存储后，网络的吞吐能力直接决定了Prefill阶段回传历史缓存的效率，进而影响首字延迟（TTFT）这一核心体验指标。

1、带宽即算力：1.6T网络带来的性能飞跃

超擎数智技术团队在H20平台运行DeepSeek-R1（671B）模型，模拟100至100K Token的超长文本推理。通过对比不同东西向和南北向带宽下的TTFT，发现带宽升级带来的收益随上下文长度增加而显著放大。

当东西向的带宽，从基准的400G提升至1.6T时，100K场景下的TTFT降低了29%。

值得一提的是，为了覆盖更多使用场景，本次测试中南北向网络同样承载了GPU-存储的流量。将其带宽从200G升级至400G后，延迟大幅降低了35％。

本组数据印证了KV Cache Offload的核心逻辑：当缓存需要频繁跨网络迁移时，网络带宽成为影响端到端推理吞吐能力的关键因素。在PD一体架构中，这意味着每提升一档带宽，首字延迟就显著降低，网络已成为长文本推理的‘命门’。

2、颠覆性发现：高带宽能“拉平” GPU 的性能差异

通常，中端GPU（如RTX Pro 6000D）在性能上无法与高端GPU（如H20）相提并论。在短文本（100 Tokens）测试中也证实了这一点：由于计算能力的物理差距，H20的速度是RTX 6000D的8.6倍。

但在超长文本（40K Tokens）场景下，当配置了1.6T的超高速网络进行KV Cache卸载时，两者的性能差距被惊人地缩小到了1.3倍左右。

这印证了长文本场景下瓶颈已从计算（Compute Bound）”转移到了“访存与传输（IO Bound）”。此时，谁的网速快、谁的数据吞吐能力强，谁就能占据优势。

PD分离测试场景

PD分离架构本身就是针对PD一体痛点的一次重要优化，但即便“基础分”更高，提升网络带宽依然能带来明确的性能增益。

我们在PD分离测试中，使用RTX Pro 6000D作为Prefill节点、H20作为Decode节点，基于Qwen3（235B）模型进行长文本测试。

数据显示，在40K Token长文本下，1.6T带宽相比400G降低了12%的延迟。当架构本身已较优时，进一步提升的难度自然加大。

然而，12%的优化不仅意味着用户体验的显著改善，更重要的是，随着Prefill节点算力增强或流水线深度优化，网络在未来很可能再次成为制约因素，届时这12%的优势将转化为更大的性能空间。

通过两组实测对比，我们得出一个清晰结论：网络带宽在推理架构中的价值，随着架构本身的演进呈现出“阶梯式释放”。在PD一体架构中，它是亟待释放的核心瓶颈；在PD分离架构中，它是在已有优化基础上继续突破的关键抓手。无论哪种场景，Spectrum-X 提供的高带宽环境都能为长上下文推理带来切实的性能提升。

为什么超擎数智：能做这样的系统级验证？

本次测试不是一次简单的“跑分”，而是涉及算力、网络、存储、算法的全栈系统工程。之所以能得出如此深刻的架构级结论，源于超擎数智深厚的技术沉淀与基础设施实力。作为 NVIDIA Compute（GPU）和 Networking（网络）的双Elite精英级合作伙伴，超擎数智不仅拥有硬件资源的优势，更具备深厚的技术积淀：

自有高端实验环境：超擎数智自有高性能计算和人工智能研发测试中心，拥有从H20到Spectrum-X网络的全套真实环境，能够先于客户验证最前沿的架构。

全栈技术整合能力：从底层的DPU/DOCA开发，到上层的AI软件栈优化，超擎数智具备将跨品牌厂商的产品整合为一套完整解决方案的能力。

场景化落地经验：超擎数智不仅提供产品，更提供通过验证的“架构服务”。无论客户是需要极致性能的核心系统，还是追求性价比的推理集群，都有现成的数据支撑。

当大模型推理走向深水区，基础设施的建设逻辑正在发生根本性变化。

在PD分离时代，KVCache Offload不再是纸上谈兵，而是可以通过高带宽网络真正落地的实用技术。未来的AI数据中心，网络不只是连接线，而是算力的放大器；存储不只是仓库，而是显存的延伸。算力架构的竞争，也将从单点硬件性能，升级为全栈协同效率的竞争。

随着金融分析、智能制造、生命科学、自动驾驶、政务治理等领域对长文本理解与复杂推理能力的需求持续增长，AI基础设施正在成为新一代产业升级的底层引擎。谁能率先构建高带宽、强协同、可扩展的智能算力体系，谁就能在大模型时代掌握真正的生产力主动权。

超擎数智将持续深耕AI原生基础设施创新，推动网络、存储与算力的深度融合演进，加速形成面向未来的高效能智能底座。以系统级能力为支点，让先进算力真正转化为产业价值，让AI能力深入千行百业，成为数字经济高质量发展的核心驱动力。

公众号
电话

400-0698-860
需求反馈

首页

产品中心

行业解决方案

教科研

医疗健康

金融服务

具身智能

互联网

智能制造

媒体和娱乐

智慧城市

服务支持

服务理念

服务项目

售后服务

服务支持

获取服务

测试申请

维保查询

资源下载

新闻中心

公司新闻

行业洞察

超擎技术社区

ODCC AI存储实验室

市场活动

关于我们

新闻中心

实测揭秘 | 超擎数智系统级验证：PD分离时代，高性能网络如何让KV Cache卸载发挥真正实力？