400-0698-860

新闻中心

洞悉超擎数智品牌力与AI变革

如何构建行之有效的人工智能系统?

时间:2026-06-08
来源:超擎数智
阅读量:346
分享:

人工智能的核心竞争力不再取决于单一组件,而是整合所有资源的一体化系统。项目成功的关键,越来越少地依赖于单一模型的性能表现,而更多地取决于底层基础设施能否支撑起数据、计算和执行之间持续且协同的运行活动。

 

 

目前关于 AI 的相关讨论,很大程度上仍集中在模型本身展开,包括模型性能表现、规模大小以及训练效率等。在“训练”还是主要挑战的时候,这样的关注点无可厚非。模型训练要产出有效成果,需要海量数据集、庞大算力支持以及反复细致的迭代。

 

然而,现在越来越清晰的一点是:模型本身,已然不再是研发过程中最难攻克的环节。

 

当下真正关键的,是模型周边的整套配套体系。

 

在近期一场分享中,VAST Data 公司首席技术官 Alon Horev 与售前首席技术官 Andy Pernsteiner 一起,共同阐述了这一转变在实际业务场景中的落地现状,这并非未来的愿景,而是各大企业当下正在着手应对的现实

 

训练不再成为性能瓶颈

 

本场讨论从大众熟知的模型训练领域切入。大语言模型依托海量数据集反复迭代,不断调优参数以提升输出质量。Alon 表示,这个过程虽然“极其消耗算力”,但其本身也具备天然的可扩展性。

 

实操中容易被忽略却至关重要的,是训练流程的管控方式。模型的训练并不是一次性连续跑完的,而是依赖于“检查点(checkpoints)”——也就是对模型状态进行的定期快照。这些快照使得训练能够在中断后恢复、从故障中复原,并在分布式环境中实现扩展。

 

因此,检查点的存在导致了系统需要以极高的速度持续不断地进行数据的写入、读取和重载。由此可见,即便是在训练层面,系统性能也不单受算力制约,它在很大程度上也依赖于数据处理的效率。

 

随着数据形态不断演变,数据处理(也就是存储)的重要性进一步提升。Alon 提到,短短一年内,企业业务数据快速从纯文本转向多模态数据,存储体量也从 PB 级攀升至 EB 级。视频、图像、音频数据带来的规模与复杂度,远超传统业务流程的设计承载范围。

 

从这点来说,模型训练便只是庞大系统中众多工作负载之一了。

 

从独立流程到一体化系统

 

模型运转还配套数据预处理、数据流转、推理、内存层(如 KV Cache)、以及保障模型实时调取数据并逻辑推演的检索系统。这些环节并非彼此割裂,而是同步运行、相互关联且持续运转。

 

Alon 对此作出了清晰总结:“实际上,每一座‘AI 工厂’都属于多租户运行环境,硬件资源需要在各类业务负载间共享调度。” 原本相互独立的业务流程,已然融合为了一个统一的共享系统。

 

这也是众多传统架构暴露短板的地方。当存储、数据库、计算处理分属不同系统时,数据在每个环节都需要被复制、迁移和二次处理。一旦业务规模化运行,这种跨系统数据协同就会成为性能瓶颈。

 

VAST Data 采用了全新的设计思路,VAST AI OS 并未分层堆砌各项功能,而是将数据、计算处理、任务执行整合至同一平台,协同运作。VAST DataStore 提供了一个共享的高性能数据底层;VAST DataBase 统一承载结构化、非结构化与向量数据;VAST DataEngine 支撑全业务流程的事件驱动运行模式。

 

 

以整体系统作为运行载体

 

该架构设计的优势在演示中变得清晰可见。

 

Andy 演示了看似简易的视频检索应用,背后却暗藏复杂逻辑。视频接入系统后会立刻被切分为多个片段,他解释道,时长两小时的视频无法直接快速生成摘要,必须拆分处理。拆分后的片段经由视觉语言模型(VLM, vision-language model)生成内容摘要,然后被转化为向量数据并建立索引,从而支持语义检索。

 

核心不仅在于业务实现效果,更取决于背后的运行方式。

 

视频存入 VAST DataStore 后,VAST DataEngine 自动触发后续流程。视频拆分、推理、向量转换、索引建立依次联动执行,整个过程无需外部调度,也不用跨系统迁移数据。处理结果存入 VAST DataBase,随即便可被直接检索调用。

 

这一运行模式体现出核心设计理念:整套平台本身成为了运行载体(runtime)。业务流程无需对接多个服务组件,依托系统内部事件机制即可直接执行。数据变动触发相应操作,这些操作又产出全新数据,全部流程在同一环境内闭环完成。

 

VAST Data Engine 内置可视化编辑工具(Visual Builder),能够简便直观地搭建人工智能数据处理流程

 

Pernsteiner 直接强调了这一点,本次演示的所有功能均可即刻落地使用。这里的重点不仅仅在于系统具备哪些能力,更在于这种全新的执行模式已经投入实际运行。

 

实时可观测运维

 

随着系统承载的业务负载不断增多,运行状态可视化运维变得尤为关键。

 

模型训练、推理负载、数据流程、数据分析任务同步运行,且分属不同团队管控。因此,实时掌握系统内部运行状态,已然成为必备运维能力。

 

VAST Data 的“Data Flows”功能,可帮助管理人员全面掌握资源使用情况。

 

Pernsteiner 通俗概括了运维的核心诉求:“现在是谁在把我的系统搞崩?”

 

传统运维模式需要导出日志、离线分析、事后回溯,以排查问题所在。而在这里演示的方法中,可观测性被直接构建在系统内部。可以通过 VAST DataBase 实时查询活动,使用的正是存储数据本身的同一个系统。团队可以立即看到哪些工作负载正在消耗资源、数据是如何被访问的,以及瓶颈正在何处形成。

 

Andy 展示管理人员可在集群控制面板中,依据任务编号(JobID)查看对应 I/O 负载。

 

智能体与事件驱动执行

 

随着系统逐渐向智能体执行模式演进,这种观测能力就变得愈发重要。

 

Alon 清晰地阐述了其中的区别:大语言模型如同大脑,智能体则相当于完整的人。智能体具备自主意图,能够调用工具、执行操作,朝着既定目标持续迈进。但同时,它们也极度依赖于其所在的系统环境。

 

智能体需要调取实时数据、历史信息并执行任务,他们必须对环境的变化做出响应,而不是脱离系统独立运行。事件驱动架构与状态观测能力在此相辅相成。

 

事件驱动架构下,智能体不会持续运转。它们仅根据系统事件、新增数据、状态变动,才会触发对应行为。而可观测性则确保了这些动作在发生的那一刻就是可见的,从而让系统能够被实时监控和管理。二者形成闭环反馈,系统在执行操作的同时,其运行状态也可被同步把控。

 

这套机制保障了智能体体系能够顺畅扩容。

 

Alon 表示,智能体数量可从单个拓展至上万个,全程无需修改代码。唯有任务执行、数据访问、可观测性集成于同一个统一平台,才能实现这种级别的弹性扩容能力。

 

具备持续优化能力的系统

 

数据是整套体系的核心。模型能力受限于训练数据集,这使得实时访问最新数据至关重要。VAST DataBase 可在数据原生环境中完成调取、语义检索与向量运算。这一点对于视频这类复杂数据类型尤为关键,因为要理解其中的深层含义,仅靠简单的索引是远远不够的。

 

随着这些系统的运行,它们会源源不断地产生新的数据,而这些数据反过来又能被用来不断提升系统性能。模型迭代微调、检索策略优化、智能体行为适配均可依托新数据完成。Horev 将这一过程定义为持续优化闭环,系统能够按日甚至按小时更新调优,在实际使用中不断进化升级。

 

人工智能基础设施的全新架构思路

 

更广泛的启示在于:人工智能的核心竞争力不再取决于单一组件,而是整合所有资源的一体化系统。项目成功的关键,越来越少地依赖于单一模型的性能表现,而更多地取决于底层基础设施能否支撑起数据、计算和执行之间持续且协同的运行活动。

 

这正是 VAST Data 采用颠覆性的架构设计的切入点。VAST AI  OS 摒弃在老旧架构上叠加新功能的模式,重新定义了底层系统形态,将存储、数据库、任务执行融合为一个统一平台,贴合了人工智能的真实运行逻辑。

 

超擎数智作为AI原生的基础设施整体解决方案提供商,致力于构筑坚不可摧的AI全栈数智底座。基于与VAST Data的深度协同,超擎数智将自身的AI应用全栈方案与VAST技术进行整合,围绕AI推理场景的真实业务需求,提供端到端的整体架构设计、深度适配与高效交付。这一模式旨在打通从高效存储到业务落地的技术链路,将VAST Data所代表的新一代技术能力切实转化为企业可调用的核心生产力,为AI应用在千行百业的规模化落地提供坚实保障。