ODCC AI存储实验室首发KV Cache评测结果：焱融YRCache实现推理提速降本双突破

随着大模型发展全面迈入规模化推理部署的新阶段，行业关注点正加速向推理性能、成本控制与资源利用率转移。在这一过程中，存储作为AI基础设施的核心支撑环节，正从传

随着大模型发展全面迈入规模化推理部署的新阶段，行业关注点正加速向推理性能、成本控制与资源利用率转移。在这一过程中，存储作为AI基础设施的核心支撑环节，正从传统的“存力保障”，跨越为释放AI算力的战略支点。

在2026 ODCC春季全会上，**由ODCC（开放数据中心委员会）**主导的“ODCC AI存储实验室”，正式落地超擎数智。此举标志着双方将建立深度战略合作，共同打造面向AI推理时代的高性能存储技术创新与测试验证平台。

针对当前大规模推理场景中最严峻的数据响应瓶颈——KV Cache，ODCC AI存储实验室依托超擎数智提供的高性能算网环境，迅速启动了面向存储软硬件的专项协同测试。今日，实验室重磅首发基于焱融科技YRCache推理存储系统的评测结果，以详实的测试数据，展现面向KV Cache的存储解决方案在“提速”与“降本”上的双重突破。

ODCC AI存储实验KV Cache评测环境

测试方案：直击响应瓶颈，打造多级缓存创新架构

本次测试的核心对象为焱融科技自主研发的YRCache推理存储系统。针对大规模推理中KV Cache急剧膨胀导致的显存溢出与高延迟问题，YRCache提供了专用的存储管理方案。

经实验室验证，通过有效调度GPU显存、主机内存、本地NVMe SSD以及YR CloudFile高性能分布式文件存储，YRCache成功构建了一套纵深的多级KV缓存架构。该架构不仅显著扩展了KV缓存的物理空间，更打破了单一显存的容量束缚，为大幅提升推理并发量与整体性能奠定了架构基础。

YRCache 架构图

测试环境：构建典型算网配置，紧贴真实推理场景

为确保测试结果具备高度的实战指导意义，本次测试构建了贴近企业真实部署环境的基准模型。测试基于DeepSeek-R1等主流大模型，在PD（Prefill-Decode）一体场景下，全面对比了原生vLLM框架与集成YRCache后系统的性能差异。

在网络配置上，横跨了200Gbps、400Gbps至800Gbps的不同梯度网络拓扑；在算力节点选型上，实验室针对性引入了两类具有代表性的GPU服务器：

**中端GDDR GPU服务器：**代表成本敏感、主打性价比的中端推理节点；
**高端HBM GPU服务器：**代表显存带宽充裕、适用于高吞吐极致负载的高端节点。

通过这一差异化组合，全面评估了YRCache在不同显存层级与算网环境下的系统级优化效果。

测试环境网络拓扑架构图

核心成果：性能跃升、长上下文支持与成本重构

经过系统级的高负载验证，YRCache推理存储系统在三大核心维度展现出了显著的技术优势：

推理性能实现数量级提升

在Batch值为16、输入Token长度为10K的典型高压环境下，针对不同GPU及网络配置的实测表明：引入YRCache后，首Token延迟（TTFT）和单个Token输出时间（TPOT）均实现了90%以上的大幅优化，整体Token吞吐量提升约20倍。

对于应用层而言，这意味着AI系统在处理长文档生成时将更加流畅，能够从容应对高并发用户请求，并大幅降低单Token推理成本，为高品质AI服务的低成本落地提供了保障。

高效支撑长上下文场景

大模型对长上下文的处理能力正成为关键。在长文本模拟测试中，随着输入Token长度从100急剧扩展至100K，YRCache展现出了极佳的可扩展性与稳定性。其加速效果不仅没有随压力增加而衰减，反而随上下文长度的增加而持续放大。

这一表现，为企业部署长文档分析、超长代码生成、复杂多轮对话等高负载任务，提供了坚实可靠的底层支撑。

重构AI推理成本

对比测试表明，中端GDDR GPU在引入YRCache架构后，其综合推理性能实现了显著提升，在部分场景下甚至能够媲美高端HBM GPU的原生方案。

这一成果具有深远的意义。它意味着企业可以通过“强化存储架构”来弥补“中端算力硬件”的不足，从而将推理成本的重心从单向依赖昂贵的高端GPU，转移到更具性价比的存储创新上。当AI应用的盈亏平衡点大幅下移，海量此前受限于算力成本的创新场景，将真正获得规模化落地的可能。

迈向“存储驱动推理”的新阶段

本次首发评测，客观印证了在NVIDIA计算与网络平台环境下，YRCache对推理性能的巨大拉升作用，行业正加速探索出一条**“以存促算、架构降本”**的新型推理基础设施路径。

未来，ODCC AI存储实验室将依托超擎数智等核心承建方的全栈技术服务能力，持续深耕KV Cache系列测试，深化“部件—系统—应用”的全链路协同。我们期待携手更多产业生态伙伴，以系统的性能跃升与深度的成本优化，助力千行百业在AI规模化落地浪潮中抢占先机。

加入测试

ODCC AI存储实验室KV Cache系列测试第二期现已正式启动！后台回复“ODCC测试”即可获得咨询入口。欢迎广大存储软件、存储部件及计算设备企业加入测试生态，共筑AI基础设施新标准！