零点快讯社2026年02月12日 14:27消息,SK 海力士探索 H3 混合存储,优化 AI 推理能效。
2月12日消息,SK海力士在本月4日发布的一篇论文中介绍了其提出的H3混合存储架构,该架构将HBM高带宽内存与HBF高带宽闪存进行混合配置,旨在充分发挥两种存储介质的优势,同时规避各自的短板。这一技术方向为未来高性能计算和存储系统的发展提供了新的思路。
SK海力士在一份论文中指出,HBF与HBM相比,在带宽方面基本相当,但HBF具备更大的容量,不过其访问延迟更长,写入耐久性较差,功耗也更高。因此,H3将HBF视为HBM的“二级扩展”。根据这一设计,HBF主要用于存储只读数据,而HBM则负责处理其他类型的数据。 从技术发展的角度来看,HBF作为HBM的补充,体现了存储架构在性能与成本之间的权衡。虽然HBF在某些指标上不如HBM,但其大容量特性为需要大量数据存储的应用提供了新的可能性。这种分层存储策略有助于优化系统整体性能,同时降低整体成本。不过,如何在实际应用中平衡延迟、耐久性和功耗,仍是需要进一步验证的关键问题。
在结构方面,H3上的GPU与HBM的BaseDie通过中介层进行连接,HBM BaseDie内部集成了HBM控制器以及与HBF系统配套的“延迟隐藏缓冲”模块,随后HBM BaseDie再通过中介层与HBF BaseDie相连,后者则包含HBF堆栈的控制器。
这一设计使H3能够存储大量只读数据,适用于LLM推理工作负载,尤其是在采用共享预计算键值缓存的场景中。仿真测试结果表明,与仅使用HBM的传统系统相比,配备H3的GPU在单位功耗下的吞吐量提升了2.69倍,体现出该架构在处理包含海量只读数据的LLM推理任务时具有更高的成本效益。
参考资料:
H3: Hybrid Architecture Using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM Inference