400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

如何通过 RDMA 加速 S3 兼容存储的 AI 存储性能

时间:2025-12-30
来源:超擎数智
阅读量:358
分享:

适用于 S3 兼容存储的 RDMA 针对 NVIDIA 网络和加速计算进行了优化,能够提供更快、更高效的对象存储访问,帮助企业在降低成本的同时加速 AI 工作负载。

 

 

 

当今的 AI 工作负载具有数据密集型特点,需要比以往更可扩展、更经济实惠的存储。到 2028 年,企业预计每年将产生近 400 ZB 的数据,其中 90% 的新数据是非结构化数据,包括音频、视频、PDF、图像等。

 

这种大规模,加上本地基础设施和云之间的数据可移植性需求,正在推动 AI 行业评估新的存储选项。

 

引入 RDMA 实现 S3 兼容存储,通过远程直接内存访问(RDMA)来加速基于 S3 - Application Programming Interface(API)的存储协议,并针对 AI 数据和工作负载进行了优化。

 

长期以来,对象存储一直被用作存档、备份、数据湖和活动日志等应用程序的低成本存储选项,而这些应用程序不需要最快的性能。虽然一些客户已经在使用对象存储进行 AI 训练,但他们希望获得更高的性能,以满足快节奏的 AI 世界的需求。

 

此解决方案包含 NVIDIA 网络,通过使用 RDMA 进行对象数据传输,提供更快、更高效的对象存储。

 

对于客户而言,与传统的对象存储网络传输协议 TCP 相比,这意味着每 TB 存储的吞吐量更高、每瓦的吞吐量更高、每 TB 的成本更低,并且延迟显著降低。

 

其他优势包括:

 

  • 更低的成本:最终用户可以降低其 AI 存储的成本,这也可以加快项目审批和实施。
     
  • 工作负载可移植性:客户可以使用通用存储 API 在本地、云服务提供商和新兴云环境中不经修改地运行其 AI 工作负载。
     
  • 加速存储:用于 AI 训练和推理的更快速的数据访问和性能,包括用于 AI 工厂推理的向量数据库和键值缓存存储。
     
  • AI 数据平台解决方案可获得更快的对象存储访问速度,和用于内容索引和检索的元数据性能。
     
  • 降低 CPU 利用率:适用于 S3 兼容存储的 RDMA 不使用主机 CPU 进行数据传输,这意味着这一关键资源可用于为客户提供 AI 价值。

 

NVIDIA 开发了 RDMA 客户端和服务器库,以加速对象存储。存储合作伙伴已将这些服务器库集成到其存储解决方案中,以实现基于 S3-API 的对象存储的 RDMA 数据传输,从而加快数据传输速度并提高 AI 工作负载的效率。

 

用于 S3 兼容存储的 RDMA 客户端库在 AI GPU 计算节点上运行。这使得 AI 工作负载能够以远超传统 TCP 的速度访问对象存储数据,从而提高 AI 工作负载的性能和 GPU 利用率。

 

虽然初始库针对 NVIDIA GPU 和网络进行了优化,但架构本身是开放的,因为其他供应商和客户可以为客户端库做出贡献,并将其整合到他们的软件中。他们还可以编写自己的软件,以支持和使用 RDMA 实现兼容 S3 的存储 API。

 

标准化、可用性和采用

 

NVIDIA 正在与合作伙伴合作,将 RDMA 标准化为 S3 兼容存储。

 

一些关键的对象存储合作伙伴已经开始采用这项新技术。Cloudian、Dell Technologies 和 HPE 正在将 RDMA for S3 兼容库整合到其高性能对象存储产品中:Cloudian HyperStore、Dell ObjectScale 和 HPE Alletra Storage MP X10000。

 

Cloudian 首席营销官 Jon Toor 表示:“对象存储是 AI 可扩展数据管理的未来。Cloudian 正与 NVIDIA 一起率先将 RDMA 标准化,以实现 S3 兼容存储,从而实现更快、更高效的对象存储,帮助扩展 AI 解决方案并降低存储成本。标准化和 Cloudian 的 S3-API 兼容性将为本地和云端数千个现有的基于 S3 的应用和工具无缝带来可扩展性和性能。”

 

Dell Technologies 存储、数据和网络弹性首席技术官兼副总裁 Rajesh Rajaraman 表示:“AI 工作负载需要大规模的存储性能,需要数千个 GPU 同时读写数据,而在本地和云端拥有多个 AI 工厂的企业客户则需要对象的 AI 工作负载可移植性。Dell Technologies 与 NVIDIA 合作,将用于 S3 兼容存储加速的 RDMA 集成到 Dell ObjectScale 中,该对象存储通过端到端 RDMA 提供出色的可扩展性和性能,并大幅降低延迟。最新的 Dell ObjectScale 软件更新将为 AI 工厂和 AI 数据平台提供出色的存储基础。”

 

HPE 高级副总裁兼存储部门总经理 Jim O’Domisio 表示:“随着 AI 工作负载的规模和强度不断增加,NVIDIA 在 RDMA 方面的创新正在重新定义数据大规模移动的方式。通过与 NVIDIA 密切合作,HPE 构建了一个解决方案,可加速吞吐量、降低延迟并降低总体拥有成本。随着用于 S3 兼容存储功能的 RDMA 现已集成到 HPE Alletra Storage MP X10000 中,我们正在扩展我们在适用于非结构化和 AI 驱动工作负载的智能、可扩展存储方面的领先地位。”

 

适用于 S3 兼容存储库的 NVIDIA RDMA 1 月已面向特定合作伙伴推出 NVIDIA CUDA 工具包。