1. 项目概述一场针对AI算力网络的“合纵连横”最近圈子里讨论得沸沸扬扬的一件事就是由英特尔、微软、AMD、博通、Meta等一众科技巨头牵头联合成立了“超以太网联盟”。这个阵仗明眼人一看就知道是冲着英伟达在AI和高性能计算领域的“护城河”——InfiniBand网络去的。简单来说他们想用大家更熟悉、生态更开放的以太网来重新定义未来AI集群的“血管系统”目标是打造一个性能不输甚至超越InfiniBand但成本更低、更开放、更容易部署的网络方案。这不仅仅是技术路线的竞争更是一场关于未来数据中心基础设施话语权的争夺战。对于所有从事云计算、数据中心、AI基础设施甚至是普通开发者来说理解这场变革背后的逻辑都至关重要。2. 为什么是现在AI算力网络的需求变迁要理解UEC为何出现必须先看清当前AI训练对网络提出的苛刻要求。这不再是传统的网页浏览或文件传输而是成千上万个GPU协同作战的“超级工程”。2.1 传统网络的“阿喀琉斯之踵”在传统的分布式训练中尤其是像训练GPT-4这类万亿参数大模型时计算过程被切分成无数个小步骤分散在数千个GPU上。每个计算步骤结束后所有GPU都需要通过高速网络交换中间数据梯度、参数然后才能开始下一步。这里就出现了一个关键瓶颈尾部延迟。你可以把整个GPU集群想象成一个流水线工厂每个GPU是一个工位。流水线的速度不取决于最快的工位而取决于最慢的那个。在网络通信阶段最后一个收到数据的GPU决定了整个集群何时能进入下一轮计算。如果网络不稳定哪怕只有一个GPU因为网络拥塞或丢包而延迟了几微秒整个价值数千万甚至上亿美元的算力集群其利用率就会大打折扣。这就是所谓的“木桶效应”而网络就是那块最短的板。2.2 英伟达的解决方案InfiniBand与NCCL英伟达的应对策略是软硬件一体化的垂直整合。其核心是两大法宝InfiniBand网络一种专为高性能计算设计的网络技术原生支持远程直接内存访问RDMA允许GPU绕过CPU直接访问其他GPU的内存极大降低了延迟。配合其专用的交换机如Quantum系列和网卡能构建出低延迟、高带宽的无损网络。NCCL库英伟达开发的集合通信库针对其GPU和InfiniBand网络进行了深度优化能高效调度GPU间的通信。这套组合拳效果显著让英伟达在高端AI训练市场几乎形成了垄断。但问题也随之而来封闭、昂贵、生态锁定。InfiniBand的生态系统相对封闭主要玩家就是英伟达收购Mellanox后这导致了采购成本高且用户被绑定在单一供应商的技术栈上缺乏选择权和议价能力。2.3 以太网的机遇与挑战与此同时以太网是数据中心绝对的霸主拥有最广泛的设备供应商、最成熟的运维工具和最具规模效应的成本优势。从1G、10G、25G、100G再到如今的400G、800G以太网的发展路线清晰且迅猛。很多云服务商和大型互联网公司其数据中心内部早已是“全以太网”架构。以太网并非不能用于HPC/AI但其传统的TCP/IP协议栈在处理大规模、高并发、低延迟的AI通信时显得力不从心。TCP的拥塞控制、按序交付、重传机制在极端压力下会成为性能杀手。为此业界发展出了RoCE即在以太网上承载RDMA协议试图结合以太网的普及性和RDMA的高性能。但RoCE特别是RoCEv2有一个致命前提它需要一个无损网络。这意味着网络不能丢包一旦丢包性能就会断崖式下跌。为了构建无损网络需要启用PFC、ECN等流控机制这大大增加了网络配置的复杂性和运维难度稍有不慎就会引发“PFC死锁”等全局性问题。此外RoCE对多路径负载均衡的支持也不够友好。 注意这里的关键矛盾在于AI工作负载渴望的是极致的性能和确定性而传统以太网TCP/IP或RoCE的方案要么性能不够要么为了追求性能而牺牲了可管理性和弹性。UEC正是瞄准了这个痛点试图在保留以太网生态优势的前提下从协议层进行“外科手术式”的革新。3. 超以太网联盟的技术蓝图不只是“修修补补”UEC的目标非常明确不是另起炉灶发明一个新网络而是对以太网进行“定向增强”使其原生适应AI/HPC工作负载。其技术工作覆盖了从物理层到软件层的完整堆栈。3.1 核心创新UEC传输协议这是UEC技术栈中最核心的一环旨在替代或增强现有的RoCE协议。根据已披露的信息UEC传输协议的设计哲学包含了以下几个关键突破点拥抱多路径与数据包喷洒传统TCP或RoCE的流通常绑定在一条路径上。UEC传输协议会主动利用网络中的多条等价路径将单个数据流的数据包“喷洒”到所有可用路径上。这不仅能最大化利用网络总带宽还能避免单条路径拥塞导致的尾部延迟激增。想象一下原本一条十车道的高速公路只开放一条车道给你现在全部开放通行效率自然飙升。支持乱序交付与按序完成既然数据包可以通过不同路径传输到达接收端的顺序就无法保证。UEC传输协议允许数据包乱序到达但在提交给上层应用时可以提供按序完成的保证。这解耦了网络传输顺序和应用程序逻辑顺序极大地提升了并发性。接收端网卡或驱动需要更大的缓冲区来重组乱序包这对硬件设计提出了新要求。现代拥塞控制机制UEC强调要开发更智能的、基于端到端遥测的拥塞控制算法。它不再依赖传统的、反应式的丢包检测如TCP的AIMD而是通过交换机主动发出的精确拥塞通知或者接收端对延迟变化的敏锐感知来提前调整发送速率实现“防患于未然”。目标是让流能够快速爬升到线速同时与其他流公平共享带宽且无需针对特定网络拓扑进行繁琐的参数调优。可扩展至百万端点面向未来的超大规模AI集群如10万甚至百万GPU级别UEC协议从设计之初就考虑了极致的可扩展性。这涉及到寻址、路由表、连接状态管理等诸多方面的重新设计确保在规模膨胀时控制平面的开销不会成为瓶颈。脱离对无损网络的强依赖这是与RoCE最大的区别之一。UEC传输协议设计为在有损网络上也能高效工作。它通过更高效的丢包检测和快速重传机制使得偶尔的丢包不会导致性能灾难从而降低了对网络交换机PFC等无损特性的强制要求简化了网络部署和运维。3.2 分层协作与生态构建UEC的工作并非只停留在传输层。联盟下设了物理层、链路层、传输层、软件层四个工作组进行系统性的协作物理/链路层致力于定义如何支持800G、1.6T及更高速率的以太网信号并优化其用于AI工作负载时的特性例如更低的误码率和更精确的时序同步。软件层这是让开发者用起来的关键。UEC将定义标准的API很可能以库的形式提供让AI框架如PyTorch, TensorFlow和应用程序能够方便地调用UEC传输协议的高级功能如乱序交付、多路径感知等而无需关心底层网络细节。同时管理、编排、安全、存储等软件栈也需要适配新的网络语义。 实操心得任何一项新技术的成功标准与生态的重要性不亚于技术本身。UEC选择在Linux基金会下运作并强调开放规范和互操作性测试就是为了避免碎片化。只有形成像传统以太网那样“任何厂商的网卡能插在任何厂商的交换机上并用任何厂商的软件管理”的繁荣生态才能真正挑战现有格局。4. 对行业格局的潜在冲击与机遇UEC的出现无疑在数据中心和AI算力市场投下了一颗重磅炸弹其影响将是多层次和深远的。4.1 对英伟达冲击与反制最直接的冲击对象无疑是英伟达。其凭借InfiniBand在高端AI市场建立的“网络壁垒”受到了正面挑战。如果UEC成功用户将多出一个高性能、开放且可能更具成本效益的选择。市场格局可能重塑云服务商如微软Azure、谷歌云虽然谷歌未在创始名单但大概率会跟进和大型互联网公司如Meta一直有强烈的动机降低基础设施成本并避免供应商锁定。UEC若成熟他们将很可能在其数据中心大规模部署基于UEC的以太网方案逐步替代或与InfiniBand混合部署从而削弱英伟达的议价能力。英伟达的应对策略英伟达绝不会坐以待毙。可能的反制措施包括1加速InfiniBand的迭代推出性能更强、成本更优的新品2在软件生态上加深护城河例如进一步优化NCCL并使其与CUDA生态绑定得更紧3也可能在适当时机以某种形式参与或影响UEC标准毕竟完全被排除在主流标准之外对任何巨头都是危险的。4.2 对其他硬件厂商新的竞技场对于英特尔、AMD、博通、思科、Arista等UEC创始成员来说这是一个巨大的机遇。英特尔/AMD作为CPU和GPU英特尔有GPUAMD有GPU和CPU厂商他们需要一个高性能的开放网络来连接自己的处理器以打造能与英伟达DGX系统竞争的完整解决方案。UEC是他们打破英伟达“网络GPU”捆绑销售的关键棋子。博通/思科/Arista这些网络设备巨头是传统以太网市场的王者。UEC将高性能计算市场的大门向他们彻底敞开。他们可以销售支持UEC协议的高端交换机、网卡抢占原本属于InfiniBand的市场份额。博通的Tomahawk系列交换机芯片、思科的Silicon One都将成为UEC网络的核心硬件基础。光模块与线缆供应商800G、1.6T光模块和高速电缆的需求将随着UEC部署而激增整个产业链都将受益。4.3 对最终用户与开发者更多的选择与更低的门槛对于企业和研究机构而言这是利好。成本有望降低开放的竞争通常会导致价格下降。以太网设备的规模效应和多家供应商的竞争可能会使构建大型AI集群的网络成本低于专有的InfiniBand方案。避免供应商锁定用户可以根据性价比自由选择不同品牌的网卡、交换机和软件不再被单一供应商“套牢”。运维更统一如果数据中心能够统一采用增强型以太网那么运维团队只需要维护一套网络技术栈而不是同时管理以太网和InfiniBand两套截然不同的系统复杂度和成本都会下降。对开发者的影响标准的、高性能的网络API将简化分布式AI应用的开发。开发者可以更专注于算法本身而不是耗费大量精力进行底层的通信优化。5. 挑战与未来展望前路并非坦途尽管前景光明但UEC要取得成功仍面临一系列严峻挑战。5.1 技术整合的复杂性UEC并非一个单一的协议而是一整套从物理层到应用层的规范集。将这些规范整合成一个稳定、高效、可互操作的整体系统需要巨大的工程努力。各成员公司之间如何协调技术路线、平衡各自利益将是一大考验。5.2 生态建设的漫漫长路英伟达的CUDAInfiniBandNCCL生态是经过十多年耕耘建立的。UEC需要从零开始构建一个同样强大的软件生态。这包括稳定可靠的驱动和固件。与主流AI框架PyTorch, TensorFlow, JAX的深度集成。成熟的管理、监控、诊断工具链。广泛的ISV独立软件开发商支持。5.3 性能的终极考验一切都要用性能说话。UEC方案必须在真实的、超大规模AI训练工作负载中证明其端到端的性能特别是尾部延迟和稳定性能够媲美甚至超越优化到极致的InfiniBand方案。这需要大量的基准测试和实际部署验证。5.4 时间窗口市场不会等待太久。英伟达在快速迭代各大公司对AI算力的需求呈指数级增长。UEC联盟计划在2024年推出首批符合规范的产品这只是一个开始。从产品上市到被大规模采纳再到生态成熟还需要数年时间。UEC能否在这个时间窗口内快速推进至关重要。 个人观点与建议从我过去跟踪类似技术标准演进的经验来看UEC的诞生是必然的。当某一领域的技术被单一公司主导并形成事实垄断时由其他主要玩家联合推动一个开放标准是打破僵局的经典剧本。对于行业从业者我的建议是保持关注积极学习无论你是网络工程师、系统架构师还是AI开发者都应该开始了解UEC的核心概念和技术方向。这很可能成为未来几年的热门技能。谨慎评估分步尝试对于计划新建或扩建大型AI集群的企业在2024-2025年可以开始将UEC纳入技术选型的评估范围。但对于生产关键业务可能仍需以成熟的InfiniBand方案为主在非核心或研发环境尝试UEC。关注软件栈的演进硬件的进步需要软件的释放。多关注PyTorch等主流框架对新型网络通信后端的支持进展这比单纯关注硬件规格更有实际意义。这场由超以太网联盟掀起的风暴本质上是对未来算力基础设施架构定义权的争夺。它预示着AI算力正在从“专用封闭集成”走向“开放标准解耦”的新阶段。无论最终胜负如何更激烈的竞争和更开放的选择对整个行业的健康发展和终端用户而言都是一件好事。我们正站在一个新时代的门口而网络将是开启这扇门的关键钥匙之一。