本文由半导体产业纵横(ID:ICVIEWS)综合
️HBM,未来已来。
HBM利用 3D 堆叠的 DRAM 架构,提供卓越的数据带宽和效率。与依赖更宽总线和更高时钟速度的传统内存模块不同,HBM 将多个内存芯片垂直堆叠,并与处理器紧密集成。这种方法显著拓宽了通信接口,同时降低了延迟和功耗。HBM 由 JEDEC 标准化,最初由三星、AMD 和 SK 海力士共同开发,并于 2015 年首次在 AMD 的 Fiji GPU 中实现商用。自那时起,HBM 已成为高性能应用的关键推动者,包括 GPU、AI 加速器、网络设备,甚至需要高带宽缓存或主内存的 CPU。
HBM 的兴起源于“内存墙”这一持续存在的挑战——处理器速度与内存带宽之间日益扩大的差距。随着 CPU 和 GPU 的发展,DDR 和 GDDR 等传统 DRAM 解决方案难以跟上步伐。早期尝试弥合这一差距的方法包括提高时钟频率和总线宽度,但功耗和信号完整性的限制使得进一步扩展变得不切实际。这促使了 3D 堆叠内存等创新解决方案的出现。
在 HBM 之前,JEDEC 于 2011 年为移动设备推出了 Wide I/O DRAM,美光则开发了混合内存立方体(HMC),这是另一种堆叠 DRAM 概念。这些早期设计为 HBM 铺平了道路,HBM 于 2013 年正式标准化,并在两年后首次实现商用部署。自那时起,多代 HBM 不断提升内存带宽和效率,巩固了其作为高性能计算基础组件的地位。
如今,下一代 HBM 内存已在未来 10+ 年内被预告,包括 HBM4 将出现在 NVIDIA 的新 Rubin AI GPU 和 AMD 刚刚发布的 Instinct MI400 AI 加速器上,但我们还有关于 HBM5、HBM6、HBM7 和 HBM8 的详细信息,它们将于 2038 年出现。
在KAIST(韩国科学与技术研究院)和Tera(Terabyte互连和封装实验室)发布的新演示文稿中,这两家公司展示了一个冗长的HBM路线图,其中包含下一代HBM内存标准的详细信息。HBM4 将于 2026 年推出,配备 NVIDIA Rubin R100 和 AMD Instinct MI500 AI 芯片,Rubin 和 Rubin Ultra AI GPU 分别使用 HBM4 和 HBM4E。
NVIDIA 的新 Rubin AI GPU 将具有 8 个 HBM4 站点,其中 Rubin Ultra 是 HBM4 站点的两倍,达到 16 个 HBM4 站点,每个变体有两个 GPU 芯片横截面,Rubin Ultra 具有更大的横截面,计算密度是常规 Rubin AI GPU 的两倍。
该研究公司调侃说,NVIDIA的新Rubin AI芯片的GPU 芯片尺寸为 728mm2,每个芯片的功率高达 800W,中介层尺寸为 2194mm2(46.2mm x 48.5mm),将包含 288GB 到 384GB 的 HBM4,内存带宽为 16-32TB/sec。芯片总功率将达到 2200W,是当前一代 Blackwell B200 AI GPU 的两倍。AMD 即将推出的 Instinct MI400 AI 芯片具有更多的 HBM4,具有 432GB 的 HBM4 容量和高达 19.6TB/秒的内存带宽。
️HBM4:即将推出的 HBM4 内存标准将在 2048 位 IO 上具有 8Gbps 数据速率,每个堆栈的内存带宽为 2TB/秒,每个芯片的容量为 24Gb,相当于高达 36-48GB 的 HBM4 内存容量,每个堆栈的功率包为 75W。HBM4 将使用直接芯片 (DTC) 液体冷却,并将使用基于 HBM 的定制芯片(HBM-LPDDR)。
️HBM4E:更强大的 HBM4E 标准可实现高达 10Gbps 的数据速率、每个堆栈 2.5TB/秒的内存带宽和高达 32Gb 的单片容量,通过 12-Hi 和 16-Hi 堆栈提供高达 48-64GB 的 HBM4 内存容量,每个 HBM 封装的功率高达 80W。
️HBM5:我们将看到下一代 HBM5 内存标准首次亮相,NVIDIA 的下一代 Feynman AI GPU 将于 2029 年准备就绪,IO 通道提升至 4096 位,通过 16-Hi 堆栈的每个堆栈 4TB/秒的内存容量作为新基准。业内将看到 40Gb DRAM 芯片,其中 HBM5 每个堆栈可驱动高达 80GB 的内存容量,每个堆栈的功率包增加到 100W。
️HBM6:在 HBM5 发布后,我们将看到 HBM6 可能会与 NVIDIA 的下一代 Feynman Ultra AI GPU(尚未确认)一起首次亮相,业内将看到数据速率再次翻倍至16Gbps,拥有 4096 位 IO 通道。带宽翻倍至 8TB/秒,每个 DRAM 芯片的容量为 48Gbps。HBM6 将是我们第一次看到 HBM 堆栈超过 16-Hi,HBM6 将事情推向 20-Hi 堆栈,每个堆栈的内存容量增加到 96-120GB,每个堆栈的功率为 120W。HBM5 和 HBM6 内存都将采用浸入式冷却解决方案,HBM6 使用多塔 HBM(有源/混合)中介层架构,以及网络交换机、 Bridge Die 和 Asymmetric TSV 在其研究阶段。
️HBM7:HBM7 将拥有每个堆栈 24Gbps 的引脚速度,更宽的 8192 个 IO 通道(是 HBM6 的两倍),每个 DRAM 芯片的容量为 64Gb,由于使用了 20-24-Hi 内存堆栈,每个堆栈提供 160-192GB 的巨大 HBM7,以及每个堆栈的 160W 功率包。
️HBM8:我们至少在 10+ 年内不会看到 HBM8,预计将于 2038 年发布,但我们将看到 32Gbps 的数据速率和 IO 速率再次翻倍,达到 16,384 个 IO 通道。HBM8 将提供每个堆栈 64TB/秒的带宽,每个 DRAM 具有 80Gb 容量,每个堆栈高达 200-240GB 的 HBM8 内存容量,以及更高的 HBM 站点封装功率 180W。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。