大模型快速发展,参数规模从千亿到万亿,训练集从单模态到图像、视频等多模态,数据量千倍增长。面临多个挑战:
大模型训练过程中海量小文件加载性能差,极大的影响训练效率。
大模型参数频繁调优,训练平台不稳定,平均约2天中断一次,TB级CheckPoint频繁读写耗时。
推理应用阶段,单卡推理效率低,千亿参数大模型推理GPU资源消耗巨大,对话类应用毫秒级实时推理难以保证。
OceanStor A800作为全球领先的高性能AI知识库存储,单框2400万IOPS、500GB/s带宽,一套存储兼顾训练集小文件加载与断点续训大带宽需求,带来业界4倍性能体验。同时全球领先的内生向量知识库助力大模型推理应用,25万+QPS,加速向量检索,实现毫秒级推理响应。
产品特性
超高性能
数控分离创新架构,数据流直通到盘, 减少CPU算力消耗,单框2400万IOPS。训练集加载效率业界4倍。
超快恢复
盘控协同、创新NFS+并行客户端等技术,多链路并行访问,单框500GB/s大带宽,断点续训恢复速度业界3倍
超强推理
全球领先的内生向量知识库,消除AI“幻觉”, 向量检索速度25万+QPS,实现毫秒级推理响应