|
|
长江存储谭弘:AI时代,存力是决定生产效率的“炼油设备”
图片
“2026年存储相关领域的投资规模将远超其他所有芯片类型,真正影响AI未来竞争格局的产品形态是存储。其中市场需求增长最快的是企业级存储,在AI带动下的存力发展最直接的体现就在eSSD的容量上。”在3月27日举办的CFMS|MemoryS 2026上,长江存储科技有限责任公司固态硬盘事业部负责人谭弘表示。他代表长江存储分享了AI与企业级存储的未来,以及如何使用eSSD技术实现存算协同,突破AI时代的存力瓶颈。
图片
AI时代,存力不是“油桶”而是“炼油设备”
存力在不同历史时期扮演着不同角色。在PC时代,存力主要担当外存设备角色,主要产品形态是软盘、光盘;进入网络时代,开始出现数据中心概念的存力,成为信息基础设施;进入到移动互联网时代,用户实时交互要求越来越高,短视频、直播等促进了闪存的发展,替代了一部分HDD成为主流。“现在我们进入到AI时代,GPU引领存储架构的升级,以QLC、HBM、高带宽闪存为代表的新技术新产品形态不断涌现。随着AI在云和端的持续渗透,存力将真正成为GPU时代决定生产效率的‘炼油设备’,而不是‘油桶’。”谭弘表示。
业界有观点认为AI竞赛正在进入下半场,谭弘表示,AI的上半场主要集中在训练,重在“厚积”,“这好比修炼内功,通过海量的数据来为系统筑基”,而真正要让AI发挥作用,关键在于推理侧,“AI的推理犹如(武术中的)招式,在多种多样化的应用场景中,拳、掌、腿等不同招式各适其用,经过训练不同的模型和数据,将适配于各种推理场景,为最终用户释放最大的价值。”谭弘表示,推理侧重在“薄发”,考验的是灵活运用,“一招制敌(解决问题)”。
存储带宽瓶颈已严重限制算力有效利用
随着全球各大训练模型的成熟,推理需求迎来全面爆发,算力和存力进行系统层面的深入整合将会是未来一个重大的发展趋势。“然而在这一整合实践中,由于存储墙的存在,AI在训练和推理中时刻面临着存储带宽的瓶颈。实际上,当前的算力增长已超过了存储带宽所带来的支撑限度,这就意味着海量的模型参数和上下文需要通过一个相对狭窄的漏斗口,即存储的带宽,进行传输,导致算力无法充分释放。”谭弘表示。
谭弘援引IEEE在今年一篇文章中提出的论点说,当前AI革命的关键,已不仅仅在于计算力,“真正限制我们大规模语言模型的瓶颈不是数学——而是存储”,并从训练和推理两个不同阶段展开说明。
“从训练阶段来看,随着模型变大,故障发生间隔也从之前的小时级别缩短到分钟级别,导致训练失败频次加剧,造成GPU的等待。”谭弘表示,“当前规模算力集群可用度大致在50%左右。”
“这时Checkpoint机制的重要性就体现出来。这就像打我们打一个3A游戏,很多3A游戏不止有一种结局。一旦剧情发展不如人意,我们可以随时退回到过去某一个存档,从而经过不断的尝试,最终达到我们的目标。Checkpoint可以使我们提高训练推进的效率,不用每次都回到起始点重来,能够显著节省我们的训练成本。”他说。
从推理阶段看,一大痛点则是模型参数量的急剧上升。“当下,主流模型的参数量规模都在以指数级向上增长,而GPU所配的存储容量的增长是线性的,两者的差距会越来越大。为了实现更长的上下文推理,连续的记忆/防止幻觉,降低每Token的成本,GPU需要把KV Cache下放到eSSD,这需要更大容量、更高性能的eSSD,以支撑海量Token的吞吐。”
总结而言,谭弘认为,在系统层面,存储带宽限制了算力的有效利用,存储和不同GPU之间仍然存在壁垒。
eSSD可有效突破AI训练和推理瓶颈
尽管存储业界在持续提升带宽能力,如从SSD到更快的DDR再到HBM,带宽正在不断地拓宽。但此外还有怎样的解决办法和方向,来突破AI训练和推理的瓶颈呢?
“在训练阶段可以使用大容量的单盘的QLC eSSD来存放Checkpoint,可显著提升GPU的利用率,减少等待时间,降低训练成本。”谭弘表示,QLC eSSD规模部署已趋于成熟,在特定场景下的写入性能和写入耐久性已经非常接近TLC eSSD。
从推理场景看,谭弘表示,AI推理已经引发了存储的进一步分层,业界已经推出了Token的缓存层和性能的缓冲层。首先把KV Cache下放到eSSD作为一个缓冲。其次在性能缓冲层上,实现在多用户、多模型切换场景下对数据进行预读等,从而提升I/O的速度,减少等待。“至此,企业级的eSSD已经承担起上下文状态的管理、查阅知识的工作,eSSD将不仅是数据仓库,也将成为存算协同的数据引擎。”他说。
eSSD又如何通过持续的技术创新突破存储瓶颈,释放算力潜能?谭弘表示,在长文本推理和KV Cache方面,需要极高的读取性能,eSSD的接口不断升级,用更低延迟的控制器以减少CPU、GPU的等待。据了解,目前PCIe 5.0已经全面商用,PCIe 6.0预计2027-2028年进入企业级市场,PCIe 7.0产品的研发也已经在路上。此外,RAG知识库模型的加载与实时的热切换需要eSSD同时具备超大容量和更高的性能,与XPU直连,在eSSD和XPU之间直接传输数据,提高效率。“启动和多模态推理时,需要更加稳定的峰值读取性能,对eSSD来讲,在接口、性能、容量、生态协同、品质等方面的要求在不断的提升。”他说。
最后,谭弘表示,长江存储作为国内一家3D NAND研发和制造的半导体企业,经过多年的发展,已经从存储颗粒晶圆供应商成长为一家全面提供存储方案的制造公司,有能力提供全场景的存储解决方案。在产品和技术方面,长存将持续加大投入的力度,聚焦企业级存储核心的需求,通过创新和工艺优化,不断提升产品在可靠性、容量及性能上的表现;在供应链方面,则将始终与合作伙伴合作,提供更加稳定、可持续的供应链支持。
|
|