400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

ODCC AI存储实验室首发KV Cache评测结果:焱融YRCache实现推理提速降本双突破

时间:2026-04-24
来源:超擎数智
阅读量:1
分享:

随着大模型发展全面迈入规模化推理部署的新阶段,行业关注点正加速向推理性能、成本控制与资源利用率转移。在这一过程中,存储作为AI基础设施的核心支撑环节,正从传统的“存力保障”,跨越为释放AI算力的战略支点。

 

在2026 ODCC春季全会上,ODCC(开放数据中心委员会)主导的“ODCC AI存储实验室”,正式落地超擎数智。此举标志着双方将建立深度战略合作,共同打造面向AI推理时代的高性能存储技术创新与测试验证平台。

 

针对当前大规模推理场景中最严峻的数据响应瓶颈——KV Cache,ODCC AI存储实验室依托超擎数智提供的高性能算网环境,迅速启动了面向存储软硬件的专项协同测试。今日,实验室重磅首发基于焱融科技YRCache推理存储系统的评测结果,以详实的测试数据,展现面向KV Cache的存储解决方案在“提速”与“降本”上的双重突破。

 

 

 

ODCC AI存储实验KV Cache评测环境

 

测试方案:直击响应瓶颈,打造多级缓存创新架构

 

本次测试的核心对象为焱融科技自主研发的YRCache推理存储系统。针对大规模推理中KV Cache急剧膨胀导致的显存溢出与高延迟问题,YRCache提供了专用的存储管理方案。

 

经实验室验证,通过有效调度GPU显存、主机内存、本地NVMe SSD以及YR CloudFile高性能分布式文件存储,YRCache成功构建了一套纵深的多级KV缓存架构。该架构不仅显著扩展了KV缓存的物理空间,更打破了单一显存的容量束缚,为大幅提升推理并发量与整体性能奠定了架构基础。

 

YRCache 架构图

 

测试环境:构建典型算网配置,紧贴真实推理场景

 

为确保测试结果具备高度的实战指导意义,本次测试构建了贴近企业真实部署环境的基准模型。测试基于DeepSeek-R1等主流大模型,在PD(Prefill-Decode)一体场景下,全面对比了原生vLLM框架与集成YRCache后系统的性能差异。

 

在网络配置上,横跨了200Gbps、400Gbps至800Gbps的不同梯度网络拓扑;在算力节点选型上,实验室针对性引入了两类具有代表性的GPU服务器:

 

  • 中端GDDR GPU服务器:代表成本敏感、主打性价比的中端推理节点;

 

  • 高端HBM GPU服务器:代表显存带宽充裕、适用于高吞吐极致负载的高端节点。

 

通过这一差异化组合,全面评估了YRCache在不同显存层级与算网环境下的系统级优化效果。

 

 

测试环境网络拓扑架构图

 

核心成果:性能跃升、长上下文支持与成本重构

 

经过系统级的高负载验证,YRCache推理存储系统在三大核心维度展现出了显著的技术优势:

 

推理性能实现数量级提升

 

在Batch值为16、输入Token长度为10K的典型高压环境下,针对不同GPU及网络配置的实测表明:入YRCache后,首Token延迟(TTFT)和单个Token输出时间(TPOT)均实现了90%以上的大幅优化,整体Token吞吐量提升约20倍。

 

 

 

对于应用层而言,这意味着AI系统在处理长文档生成时将更加流畅,能够从容应对高并发用户请求,并大幅降低单Token推理成本,为高品质AI服务的低成本落地提供了保障。

 

高效支撑长上下文场景

 

大模型对长上下文的处理能力正成为关键。在长文本模拟测试中,随着输入Token长度从100急剧扩展至100K,YRCache展现出了极佳的可扩展性与稳定性。其加速效果不仅没有随压力增加而衰减,反而随上下文长度的增加而持续放大。

 

 

 

这一表现,为企业部署长文档分析、超长代码生成、复杂多轮对话等高负载任务,提供了坚实可靠的底层支撑。

 

重构AI推理成本

 

对比测试表明,中端GDDR GPU在引入YRCache架构后,其综合推理性能实现了显著提升,在部分场景下甚至能够媲美高端HBM GPU的原生方案。

 

 

 

 

这一成果具有深远的意义。它意味着企业可以通过“强化存储架构”来弥补“中端算力硬件”的不足,从而将推理成本的重心从单向依赖昂贵的高端GPU,转移到更具性价比的存储创新上。当AI应用的盈亏平衡点大幅下移,海量此前受限于算力成本的创新场景,将真正获得规模化落地的可能。

 

 

迈向“存储驱动推理”的新阶段

 

本次首发评测,客观印证了在NVIDIA计算与网络平台环境下,YRCache对推理性能的巨大拉升作用,行业正加速探索出一条“以存促算、架构降本”的新型推理基础设施路径。

 

未来,ODCC AI存储实验室将依托超擎数智等核心承建方的全栈技术服务能力,持续深耕KV Cache系列测试,深化“部件—系统—应用”的全链路协同。我们期待携手更多产业生态伙伴,以系统的性能跃升与深度的成本优化,助力千行百业在AI规模化落地浪潮中抢占先机。

 

加入测试

 

ODCC AI存储实验室KV Cache系列测试第二期现已正式启动!后台回复“ODCC测试”即可获得咨询入口。欢迎广大存储软件、存储部件及计算设备企业加入测试生态,共筑AI基础设施新标准!