咨询服务热线:400-0698-860
邮箱:info@chaoqing-i.com
业务中心 - 上海超擎数智科技有限公司:上海市徐汇区龙启路158号1幢灿星大厦19层1911
业务中心 - 北京超擎数智科技有限公司:北京市海淀区北三环西路99号西海国际中心1号楼907
研发中心 - 武汉超擎数智科技有限公司:武汉东湖高新区金融港二路9号联发科武汉研发中心2楼
解耦Prefill与Decode,性能提升的边界在哪里?
联合实测揭示:硬件精准分工,可获数倍吞吐跃升;而释放架构全部潜力的关键,在于系统级的协同优化。
为全面验证高性能网络与PD分离、KV Cache Offload这两项技术的性能优势与应用价值,超擎数智联合 NVIDIA 、超云、DaoCloud、纳多德,投入总计数千万元设备与资源,在超擎数智高性能计算和人工智能研发测试中心开展了跨厂商协作测试。
在上篇与中篇,我们已明确技术路线图:将PD分离与KV Cache Offload深度协同,作为提升大模型推理效率的关键路径,并进一步验证了高性能网络对于实现高效Offload的决定性作用。
本期内容,超擎数智将聚焦PD分离架构的全面性能实证,在多个长度上下文(100-50K Tokens)场景下,完成从实验设计、环境搭建、执行测试到不同场景下的实验结果分析。旨在回答一个核心问题:相较于传统PD一体化推理结构,PD分离究竟能带来多少可量化的性能收益?其系统瓶颈又隐藏在何处?
01 测试概述:严谨设计,量化对比
为确保测试结果的可复现性,我们构建了以下测试框架:
任务调度与流量编排
采用基于Proxy的串行化请求调度架构。Proxy充当全局流量控制器,负责维护推理请求的生命周期:
第一阶段(Prefill):Proxy优先将请求路由至Prefill节点,等待其完成KV Cache的计算与持久化;
第二阶段(Decode):待Prefill节点返回成功后,Proxy将同一请求转发至Decode节点,触发后续的自回归生成。
计算节点执行逻辑
Prefill节点:部署vLLM实例并配置为prefill_only 。为确保KV Cache被完整计算并写入远端存储,同时避免占用不必要的计算时间,设置生成参数 output_len=1,即在生成首个Token并完成KV Cache落盘后立即终止任务并返回。
Decode节点:部署vLLM实例并配置为decode_only。节点接收请求后,不再进行Prefill计算,而是直接从远端存储加载对应的KV Cache,随即进入Decode阶段进行Token生成。
存储后端优化与一致性保障
高性能后端集成:Prefill与Decode节点均采用GDS Backend(或 WEKA GDS Backend)直接挂载远端高性能存储,以实现显存与存储间的零拷贝数据传输。
02测试环境:全栈高性能基础设施
本次测试继续依托由超擎数智、NVIDIA、超云、DaoCloud、纳多德共建的顶级实验环境,确保每个环节无性能瓶颈。
硬件环境:
超擎元景H20高性能GPU服务器(1台)
超擎擎天R6KD高性能GPU服务器(1台)
超云CS13000高性能分布式存储(1套)
NVIDIA Spectrum-X 网络架构
软件环境:
操作系统:Ubuntu 22.04.5 LTS
内核版本:5.15.0-161-generic x86_64 GNU/Linux
CUDA 版本:12.8
vLLM版本:0.11.0
LMCache版本:0.3.9post2
LLM模型:/ Qwen3-30B-A3B-Instruct-2507
DaoCloud Enterprise5.0(DCE 5.0)集群调度管理平台
03测试环境拓扑

04 测试配置:覆盖全序列输入场景,确保可复现
我们设定了从短到长(100至50000 Token)的全序列输入场景,并采用固定并发与速率进行压测,确保数据可比性。
基础输入参数
并发请求数(prompts):160;
请求发送速率(rate):128 req/s;
基础随机种子(base_seed):45;
输出序列长度(decode_output_len):10 token;
输入序列长度(input_lens):100、1000、10000、20000、50000 token(覆盖短、中、长全序列场景);
种子生成规则:基于输入序列长度动态生成唯一种子
核心执行脚本(以PD模式为例)
测试分为Prefill-only(仅预填充)、Decode-only(仅解码生成)、PD(完整流程)三种模式,核心执行脚本如下:

脚本功能说明:指定测试模型与数据集、配置并发请求参数、设置输入输出序列长度、保存详细测试结果与元数据,确保测试过程可复现、结果可追溯。
05 测试结果:数据呈现的显著优势与深层洞察
本次测试对比了五种架构方案,涵盖传统耦合架构、KV Cache Offload CPU及三种不同的PD分离组合,并从三个核心维度进行衡量:吞吐量(Throughput)、首Token延迟(TTFT)、单Token生成时间(TPOT)。
pd-nokv对应传统耦合架构
pd-cpu-v2对应KV Cache Offload CPU
pd-gds-8k8d 对应 PD 分离 +H20 Prefil & R6KD Decode+ GDS
pd-gds-8k8d -h20 decode 对应PD 分离 + R6KD Prefill & H20 Decode + GDS
pd-gds-8k8d -h20 decode-weka 对应PD 分离 + R6KD Prefill & H20 Decode + Weka GDS
整体结果可视化

不同输入序列长度下的首Token延迟(TTFT) 指标性能对比

不同输入序列长度下的单Token生成时间(TPOT) 指标性能对比

不同输入序列长度下的吞吐量(Throughput) 指标性能对比
PD分离性能全面领先:三种PD分离方案相比CPU-offload方案相比,TTFT指优势达50%~75%,TPOT指标降幅达 74%~98%,Throughput指标也具有明显优势。
长序列场景下性能倍增:20k~50k 的长序列场景下:
PD分离 + H20 Prefil & R6KD Decode+gds模式吞吐量提升约2倍~3.3倍;PD分离 + R6KD Prefill & H20 Decode+gds模式吞吐量提升2.7 倍~3.5 倍;PD分离 + R6KD Prefill & H20 Decode + weka gds模式吞吐量提升幅度最高,达4.8 倍。
最佳服务器组合方案:测试数据表明,在PD分离实践中,以r6kd服务器节点执行prefill任务、H20 服务器节点执行decode任务,综合性能更优。
06 结论与展望:超越分离,迈向协同
本次测试最终验证:PD分离架构通过彻底解耦Prefill与Decode阶段,成功消除了计算干扰,在长上下文推理中带来了确定性的、倍数级的性能提升。
同时,数据也揭示了更深层的系统洞察:PD分离架构性能的充分释放,高度依赖于Prefill的供给能力与Decode消费能力能否形成高效流水线。当前在超长上下文(如50K tokens)场景中观察到的性能边际递减,其根源在于,Prefill阶段需同时完成繁重的计算与数据传输任务,导致其供给速率跟不上Decode侧的高吞吐需求,从而形成供给瓶颈。
这为下一代优化指明了方向:未来的突破将不仅仅在于“分离”,更在于 “协同” ——通过更精细的KV Cache调度,更细粒度、流式的生产–消费重叠以及存储后端的持续优化,进一步提升PD分离架构在超长上下文推理中的整体吞吐。
07 总结
本次超擎数智联合 NVIDIA 、超云、DaoCloud、纳多德深度协作的 “PD分离” 与 “KV Cache Offload”系列测试至此圆满收官。我们从理论(上篇)、到关键组件验证(中篇)、再到全架构性能实证(下篇),完整呈现了以 “PD分离” 与 “KV Cache Offload” 为核心的大模型推理优化路径及其巨大潜力。
超擎数智作为AI原生的基础设施整体解决方案提供商,将持续深耕计算、网络与存储的系统级协同创新,致力于将PD分离与KV Cache Offload等前沿技术验证转化为客户可直接部署的、高效稳定的大模型推理解决方案,携手产业生态伙伴不断拓展智能计算与推理应用的技术与价值边界。
公众号

电话
需求反馈