2025年GPU Scale-up 互联技术白皮书
字节跳动发布的《GPU Scale-up 互联技术白皮书》深入剖析了 GPU 架构、互联方案,洞察下一代 Scale-up 互联需求并提出创新网络方案,着重展现了其自研的 EthLink 网络方案的独特优势。在 GPU 架构层面,主流架构支持 Load-Store 语义,计算引擎专注数据处理,LSU 负责数据传输,涵盖寄存器、Shared Memory、L1/L2 Cache 和 Global Memory 之间的复杂数据流动。不同传输场景下,IO 时延与 IO Size 显著差异。为优化数据传输效率,新型 GPU 引入类似 DMA 引擎的 TMA 模块。在 AI 集群任务中,多个 GPU 协同作业,涉及 Scale-up 和 Scale Out 网络。Scale-up 网络凭借高带宽、低时延特性,基于 Load/Store 语义执行同步操作,典型代表如 PCIe、NVLINK 等;而 Scale Out 网络带宽相对较低、时延较高,基于 RDMA 语义执行异步操作,常见于 IB、RoCEv2 等。字节跳动自研的 EthLink 协议应运而生,融合 Load/Store 和 RDMA 语义,全面覆盖 Scale-up 网络应用场景。
️下一代 Scale-up 互联方案的革新方向
随着 AI 集群规模的持续扩张,下一代 Scale-up 网络面临多重挑战。一方面,要高效承接 Load/Store 语义,确保小块数据和控制信息的快速传输;另一方面,需兼容 RDMA 语义,实现大块数据传输,为计算引擎释放更多算力资源。RDMA 引擎应具备远端与本地 Global Memory、Shared Memory 间的数据传输能力,并简化接口设计。系统软件保障 Cache Coherency 成为关键,网络需对相同传输路径的操作和报文保序,同时实现多协议栈和端口间的负载均衡,以提升整体效能。
️EthLink 网络方案:创新架构与技术优势
EthLink 作为字节跳动自研的 Scale-up 网络协议,基于以太网构建,为 GPU 集群提供高速互联。其协议栈巧妙划分为 Scale-Up 语义层和 Scale-up 网络层,前者进一步细分为上层 GPU 操作和 Scale-up 事务层,支持多种操作类型,并灵活转换为基础操作类型。EthLink 通过系统软件清除 Cache,有效保证 Cache Coherency 。在网络拓扑上,每个 GPU 服务器部署多个协议栈,每个协议栈支持 1 - 4 个以太网接口,服务器间借助低时延交换机实现互联,最大支持 1024 个 GPU 节点,且借助 Multi-Path 实现负载均衡。在网络接口方面,EthLink 进行全方位优化,精心设计优化的报文头部 OEFH,显著提升有效负载率;审慎选择低延迟的 RS-272 FEC,并支持链路层可靠传输,涵盖 LLR 和 CBFC 机制。此外,交换机与 GPU 间建立高效状态反馈机制,如 Switch Event Notification,从容应对链路断开等突发状况,全方位保障网络的稳定性与可靠性。