CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了!

fjmyhfvclm2025-06-13  10

【电脑报记者王诚 报道】太平洋时间6月11日,AMD在美国加州圣何塞举办了ADVANCING AI 2025大会,会上正式发布了基于CDNA 4架构的INSTINCT MI350X系列GPU并全面介绍了技术细节与具体产品,INSTINCT MI350X系列的登场无疑为AMD的AI解决方案又增添了全新的强大力量。

产品迭代时间表已定,AMD产品研发升级进度稳步向前

从AMD INSTINCT GPU的发展路线图来看,自2023年的MI300系列、2024年的MI325X之后,今年的MI350系列当然是按计划如期登场了,而在这之后,MI400系列也会在明年露面。按照目前AI应用需求爆发式增长的态势,AMD在AI计算卡这方面的战略可谓是与时俱进,并且持续保持了业界领先的地位。

新的MI350系列GPU采用了CDNA 4架构,目前登场的有MI350X和MI355X两款。MI350系列GPU采用了3nm制程节点,拥有1850亿晶体管,新增对FP4和FP4精度数据的支持,同时搭载的是HBM3E显存,保持了规格领先的地位。

具体规格方面,MI350X FP64/FP16/FP8/FP6/FP4的峰值算力分别为72TFLOPS、4.6PFLOPS、9.2PFLOPS、18.4PFLOPS和18.4PFLOPS;MI355X更强一些,分别为79TFLOPS、5PFLOPS、10PFLOPS、20PFLOPS和20PFLOPS。两者的最高显存容量皆为288 GB HBM3E,显存带宽都是8TB/s。TBP方面,MI350X为1000W,而MI355X则为1400W。相对于上代CDNA 3架构、TBP为750W的MI300X来讲,MI350系列的TBP有明显的增加。接下来让我们先详细了解一下MI350系列使用的CDNA 4架构有何改进。

AI加速更高效,CDNA 4架构设计紧跟实际应用需求

专为AI加速而生的CDNA架构目前进化到了第四代,那么这一代在哪些地方进行了改进呢?从官方的概述可以看到,CDNA 4增强了生成式AI和大预言模型的矩阵单元;为混合精度计算提供了新数据格式的支持;增强了IF总线与高级封装的连接性;提升了能效表现。

从图中可以看到,MI350系列采用了XCD芯片与IOD堆叠的方式,其中XCD采用了N3P制造工艺,而IOD使用N6制造工艺,成熟的COWOS-S封装技术在这里发挥了优势。在IOD之下,是AMD Infinity Fabric AP Interconnect单元,不同GPU和不同XCD通过IF总线进行互联,3D混合键合架构提供了更佳的能效表现。IOD-IOD、HBM3E显存则采用2.5D架构封装。

再来看看CDNA 4架构MI350系列的具体设计。可以看到,它由8个XCD、2个IOD组成,其中1个XCD包含4组着色器引擎,拥有32个CDNA 4架构的CU单元;两个IOD总共提供了128个内存通道,支持最多288GB HBM3E显存,带宽高达8TB/s,远高于搭载HBM3显存的MI300X的192GB和5.2TB/s。此外,我们可以看到XCD之间用来数据通信的IF总线带宽为5.5TB/s,而与其他GPU通信的第四代IF总线带宽高达1075GB/s,高于MI300X的896GB/s。两个IOD对外还支持PCIe 5.0×16连接,带宽达到128GB/s。

另外,从MI350系列GPU的Block Diagram图片可以看到,1个XCD原生拥有36个CU单元,而MI350系列用了其中32个,因此总共具备8×32=256个CU,每个XCD具备4MB二级缓存。IOD里具备128MB无限缓存,8个HBM3E控制器每一个对应32MB无限缓存。XCD和IOD对外通过IF总线与PCIe 5.0总线进行数据传输,其中对外的IF总线有7路。

值得一提的是,MI350系列也支持GPU分区模式,同时HBM显存也支持NUMA划分。不过和MI300X支持NPS1和NPS4模式不同的是,MI350的HBM显存支持的是NPS1和NPS2模式。也就是说MI350系列支持GPU单分区+NPS1模式、GPU双分区/四分区/八分区+NPS2模式。从AMD官方数据来看,MI350系列在GPU单分区+NPS1模式下可获得最大显存容量,因此可支持520B参数的AI模型,而在GPU八分区+NPS2模式下可最多支持8个Llama 3.1 70B模型实例。

最后简单总结一下MI350系列GPU的升级重点。一,在功耗没有翻倍的情况下提供了双倍的计算吞吐量;二,为增加的数据吞吐量提供了更高的内存带宽与本地数据共享效率;三,量化创新;四,通过标准化,带来了对微缩数据类型的支持;五,提供对FP8(缩放/非缩放)、FP6&FP4工业级微缩数据类型的支持;六,减少非核心功耗从而提升了计算性能。

AMD还提供了MI350X与MI300X的对比。从图中可以看到,在每瓦读性能方面,MI350X相对MI300X提升了大约30%。更高的显存数据传输效率无疑对AI性能的提升非常有用。

从各种精度数据的计算性能来看,MI355X相对MI300X的提升主要集中在FP16及更微缩的数据类型上,其中Matrix FP16/BF16和FP16/BF16稀疏单CU每时钟FLOPS理论值提升一倍,峰值性能提升了90%,Matrix FP8和FP8稀疏、Matrix INT8/INT4和INT8/INT4稀疏也是如此。至于FP6和FP4,则是MI355X独占,MI300X是不支持的。

实际上,MI350系列通过一系列的手段增强了Matrix核心效率,因此要比较每CU的HBM显存峰值读带宽的话,MI350X则是MI300X的1.5倍。

MI350系列当然也支持8卡并联,从图中可以看到,红色IF总线单条带宽153.6GB/s,每一个GPU与其他七个GPU通过IF总线连接,因此总带宽正好是153.6×7=1075.2 GB/s。而GPU本身通过PCIe 5.0×16与两个EPYC处理器、八组NIC设备或存储设备连接。那么基于这个架构的方案目前有8×MI350X风冷版和8×MI355X DLC版UBB可选。

MI355X DLC解决方案最多可内置16个MI355X UBB8平台,因此最多拥有128个MI355X GPU,总共36TB HBM3E显存,FP16/BF16算力高达644 PFLOPS,FP8算力高达1.28 EFLOPS,FP6/FP4算力更是达到2.57 EFLOPS。MI350X风冷解决方案则最多内置8个MI350X UBB8平台,最多拥有64个MI350X GPU,总共18TB HBM3E显存,FP16/BF16算力达295 PFLOPS,FP8算力达590 PFLOPS,FP6/FP4算力达1.18 EFLOPS。

和竞品的GB200/B200相比,MI355X也有明显优势,特别是显存容量高出大约60%,FP64/FP32峰值性能几乎翻倍,FP6峰值性能达到和超过两倍,其他数据精度的性能也基本上打平或高出10%。因此,MI355X可以称得上是针对工业级AI和高性能计算的GPU王者。

来看看AMD官方提供的具体数据。MI355X在加载运行Llama 3.1 405B大模型时,AI助手和聊天机器人、内容生成、摘要与对话式AI的推理性能分别相对MI300X提升了320%、190%、280%和160%之多。

在运行DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick等流行模型时的性能MI355X相对MI300X分别提升了大约200%、220%和230%。

在面对FP4数据精度时,MI355X相对B200的优势最高可达30%,和GB200也可打平。

如果计算每美元Tokens,那么MI355X相对B200大约领先了40%,可以说在性价比方面实现了远超,这对于企业用户来说就意味着选择MI355X可以在提供相同性能的前提下节约大量预算。

那么在模型训练方面,MI355X的表现又如何呢?从AMD官方数据可以看到,MI355X在以FP8精度预训练Llama 3 8B/70B模型时相对MI300X分别提升了160%和250%,而在BF16精度下预训练Llama 3 70B和FP8精度下预训练Llama 2 70B也分别提升了170%和190%。

和竞品对比,MI355X在FP8/BF16下预训练Llama 3 70B/8B模型与B200的性能相当,而在FP8精度下微调Llama 2 70B时的性能大约是B200的1.1倍、GB200的1.13倍。由此可见,MI350系列确实在综合性能和性价比方面相对竞品有着明显的优势,考虑到AMD还能提供从CPU、GPU到平台系统最为全面的解决方案,说它在业界中具备领军级的实力毫不为过。

除了MI350系列之外,AMD在发布会上还令人惊喜地公布了2026年即将上市的MI400系列。MI400系列FP4/FP8性能可达恐怖的40PFLOPS和20PFLOPS,搭载HBM4显存,容量高达432GB,显存带宽高达19.6TB/s,每个GPU的扩展带宽更是达到300GB/s,相对MI350系列的153.6GB/s来讲几乎翻倍。

MI400系列组建的机架(代号Helios)最高支持72个GPU,FP4/FP8性能分别可达2.9EFLOPS和1.4EFLOPS,下HBM4显存容量高达31TB,显存带宽和扩展带宽分别达到1.4PB/s和43TB/s。AMD也放出了它和Vera Rubin的理论性能对比,看起来也是优势非常明显的,特别是显存容量和带宽部分,都领先了50%。

可以看到,2026年AMD将推出MI400+EPYC(代号VENICE)处理器+PENSANDO(代号VULCANO)400G超级网卡的解决方案,而在2027年,更是会升级到MI500+EPYC(代号VERANO)处理器+PENSANDO(代号VULCANO)400G超级网卡,确保在AI领域方面一直处于领先地位。

值得开发者们期待的ROCm 7来了!

今年4月,AMD正式发布了开源GPU计算平台ROCm 6.4版,而在ADVANCING AI 2025大会上,竟然直接宣布了ROCm 7。ROCm 7再度进化,支持最新算法和模型,支持用于扩展AI的高级功能,支持MI350系列GPU,提供集群管理和企业管理功能。

ROCm 7增强了推理能力,增强了框架、优化服务、支持新内核和算法、支持更多的数据类型。

从官方数据来看,ROCm 7相对ROCm 6在推理性能方面有巨大提升,在Llama 3.1 70B、Qwen2-72B和DeepSeek R1中分别提升220%、240%和280%。平均提升250%左右。

使用DeepSeek R1模型,和B200在FP8精度下对比的话,有ROCm 7加持的MI355X吞吐量可以领先30%之多。

ROCm 7的训练能力也得到大幅增强,支持更多的AMD开源模型、增强框架、更强大的并行能力、更优化的内核和算法、支持BF16和FP8等高级数据模式。

和ROCm 6相比,ROCm 7在训练Llama 2 70B、Llama 3.1 8B和Qwen 1.5 7B时的性能分别提升了200%、200%和210%,升级幅度非常可观。

Linux平台支持度方面, ROCm 7在2025年第二季度将内置对Red Hat EPEL和Ubuntu的支持,而现在已经可以支持OpenSUSE。Windows平台支持度方面,ROCm 7将在2025年第三季度提供对PyTorch的预览,在2025年7月提供对ONNX-EP的预览。

️总结:全面发展&技术领军,AMD AI优势显露无疑

最后来简单总结一下。

AMD本次在ADVANCING AI 2025上发布的MI350系列GPU和对应的解决方案无疑为用户提供了全面的AI系统,从而全方位巩固了自己在AI领域的领军地位。同时,MI350系列解决方案在AI性能、以及未来AI应用的适应能力方面都具备极强的竞争力,确保了AMD的AI解决方案能够在面对同级竞品时处于优势地位。

此外,AMD在AI解决方案的生态建设方面也不遗余力,即将上线的ROCm 7无疑又会让AMD的AI硬件解决方案增加更丰富的功能、迸发出更强大的性能。可以说每一届ADVANCING AI大会都见证了AMD在AI领域的进化与成长,即便已经是领军地位也要不断战未来,让我们拭目以待吧。

转载请注明原文地址:https://www.aspcms.cn/tech/1842299.html
00

热门资讯