咨询服务热线:400-0698-860
邮箱:info@chaoqing-i.com
业务中心 - 上海超擎数智科技有限公司:上海市徐汇区龙启路158号1幢灿星大厦19层1911
业务中心 - 北京超擎数智科技有限公司:北京市海淀区北三环西路99号西海国际中心1号楼907
研发中心 - 武汉超擎数智科技有限公司:武汉东湖高新区金融港二路9号联发科武汉研发中心2楼
随着大模型发展全面迈入规模化推理部署的新阶段,行业关注点正加速向推理性能、成本控制与资源利用率转移。在这一过程中,存储作为AI基础设施的核心支撑环节,正从传统的“存力保障”,跨越为释放AI算力的战略支点。
在2026 ODCC春季全会上,由ODCC(开放数据中心委员会)主导的“ODCC AI存储实验室”,正式落地超擎数智。此举标志着双方将建立深度战略合作,共同打造面向AI推理时代的高性能存储技术创新与测试验证平台。
针对当前大规模推理场景中最严峻的数据响应瓶颈——KV Cache,ODCC AI存储实验室依托超擎数智提供的高性能算网环境,迅速启动了面向存储软硬件的专项协同测试。今日,实验室重磅首发基于焱融科技YRCache推理存储系统的评测结果,以详实的测试数据,展现面向KV Cache的存储解决方案在“提速”与“降本”上的双重突破。

ODCC AI存储实验KV Cache评测环境
测试方案:直击响应瓶颈,打造多级缓存创新架构
本次测试的核心对象为焱融科技自主研发的YRCache推理存储系统。针对大规模推理中KV Cache急剧膨胀导致的显存溢出与高延迟问题,YRCache提供了专用的存储管理方案。
经实验室验证,通过有效调度GPU显存、主机内存、本地NVMe SSD以及YR CloudFile高性能分布式文件存储,YRCache成功构建了一套纵深的多级KV缓存架构。该架构不仅显著扩展了KV缓存的物理空间,更打破了单一显存的容量束缚,为大幅提升推理并发量与整体性能奠定了架构基础。

YRCache 架构图
测试环境:构建典型算网配置,紧贴真实推理场景
为确保测试结果具备高度的实战指导意义,本次测试构建了贴近企业真实部署环境的基准模型。测试基于DeepSeek-R1等主流大模型,在PD(Prefill-Decode)一体场景下,全面对比了原生vLLM框架与集成YRCache后系统的性能差异。
在网络配置上,横跨了200Gbps、400Gbps至800Gbps的不同梯度网络拓扑;在算力节点选型上,实验室针对性引入了两类具有代表性的GPU服务器:
通过这一差异化组合,全面评估了YRCache在不同显存层级与算网环境下的系统级优化效果。

测试环境网络拓扑架构图
核心成果:性能跃升、长上下文支持与成本重构
经过系统级的高负载验证,YRCache推理存储系统在三大核心维度展现出了显著的技术优势:
推理性能实现数量级提升
在Batch值为16、输入Token长度为10K的典型高压环境下,针对不同GPU及网络配置的实测表明:引入YRCache后,首Token延迟(TTFT)和单个Token输出时间(TPOT)均实现了90%以上的大幅优化,整体Token吞吐量提升约20倍。


对于应用层而言,这意味着AI系统在处理长文档生成时将更加流畅,能够从容应对高并发用户请求,并大幅降低单Token推理成本,为高品质AI服务的低成本落地提供了保障。
高效支撑长上下文场景
大模型对长上下文的处理能力正成为关键。在长文本模拟测试中,随着输入Token长度从100急剧扩展至100K,YRCache展现出了极佳的可扩展性与稳定性。其加速效果不仅没有随压力增加而衰减,反而随上下文长度的增加而持续放大。


这一表现,为企业部署长文档分析、超长代码生成、复杂多轮对话等高负载任务,提供了坚实可靠的底层支撑。
重构AI推理成本
对比测试表明,中端GDDR GPU在引入YRCache架构后,其综合推理性能实现了显著提升,在部分场景下甚至能够媲美高端HBM GPU的原生方案。


这一成果具有深远的意义。它意味着企业可以通过“强化存储架构”来弥补“中端算力硬件”的不足,从而将推理成本的重心从单向依赖昂贵的高端GPU,转移到更具性价比的存储创新上。当AI应用的盈亏平衡点大幅下移,海量此前受限于算力成本的创新场景,将真正获得规模化落地的可能。
迈向“存储驱动推理”的新阶段
本次首发评测,客观印证了在NVIDIA计算与网络平台环境下,YRCache对推理性能的巨大拉升作用,行业正加速探索出一条“以存促算、架构降本”的新型推理基础设施路径。
未来,ODCC AI存储实验室将依托超擎数智等核心承建方的全栈技术服务能力,持续深耕KV Cache系列测试,深化“部件—系统—应用”的全链路协同。我们期待携手更多产业生态伙伴,以系统的性能跃升与深度的成本优化,助力千行百业在AI规模化落地浪潮中抢占先机。
加入测试
ODCC AI存储实验室KV Cache系列测试第二期现已正式启动!后台回复“ODCC测试”即可获得咨询入口。欢迎广大存储软件、存储部件及计算设备企业加入测试生态,共筑AI基础设施新标准!
公众号

电话
需求反馈