数据中心重新布线能否使 AI 速度提高 6 倍?
在过去,网络就是连接少量本地计算机。但时代已经变了。在 AI 主导的世界中,诀窍是协调数以万计的服务器的活动来训练大型语言模型,而不会延迟通信。现在有一个经过优化的架构来做到这一点。Cornelis Networks 表示,其 CN500 网络结构最大限度地提高了 AI 性能,支持多达 500,000 台计算机或处理器的部署(比现在高出一个数量级),并且不会增加延迟。
这项新技术为网络世界带来了第三个主要产品,即以太网和 InfiniBand。它旨在使 AI 和高性能计算机(HPC 或超级计算机)能够以更高的效率实现更快、更可预测的完成时间。对于 HPC,Cornelis 声称其技术的性能优于 InfiniBand NDR(2022 年推出的版本),每秒传递的消息数量是 InfiniBand 的两倍,延迟减少了 35%。对于 AI 应用程序,与基于以太网的协议相比,它的通信速度提高了 6 倍。
长期以来,以太网一直是局域网 (LAN) 的代名词。软件补丁使其通信协议经得起时间的考验。InfiniBand 的发明是一项改进,但它的设计目标仍然相同:连接少量本地设备。“当这些技术被发明出来时,它们与并行计算无关,”总部位于宾夕法尼亚州的 Cornelis 的联合创始人、总裁兼首席运营官 Philip Murphy 说。
当数据中心开始涌现时,工程师需要一种新的网络解决方案。由于不同的系统使用不同的软件,因此无法共享资源,因此扩展以太网和 InfiniBand 等设备以适应最繁忙的运营时段被证明是具有挑战性的。“这激发了整个云的发展,”Murphy 说。在不同的计算机甚至不同的组织之间共享基于云的 CPU 成为当今的解决方案。
但是,当数据中心先驱试图最大限度地增加在一台服务器上运行的应用程序数量时,Murphy 和他的同事们看到了相反方法的价值:最大限度地增加在一个应用程序上运行的处理器数量。“这需要一种完全不同的网络解决方案,”他说,而这正是 Cornelis 现在提供的。该公司的 Omni-Path 架构由 Intel 开发,用于超级计算应用,例如模拟气候模型或药物设计的分子相互作用,可提供最大的吞吐量和零数据包丢失。
无拥堵数据高速公路
协调处理器以训练 AI 模型需要以非常高的带宽交换许多消息(数据包)。每毫秒的消息速率很重要,延迟也很重要,即收件人需要多长时间才能响应。
在整个网络中共享如此多的数据包的一个主要挑战是流量拥塞。Murphy 解释说,您需要一种方法来可靠地绕过拥塞点路由数据包,而不会产生其他问题。例如,如果数据包通过不同的路由到达同一目的地,则它们可能会无序到达。
Cornelis 的动态自适应路由算法通过围绕短期拥塞事件进行路由来缓解拥塞,而其拥塞控制架构则围绕“热门”目的地路由流量。“如果一个体育场有我们都想去的活动,你不希望经过体育场的交通也被堵在那里,”Murphy 说。中央起搏技术实现了这种拥塞控制架构。交换机可以看到流量形成的位置,然后告诉发送者放慢速度,直到拥塞消散。“考虑在进入高速公路匝道时缓解交通,”Murphy 解释说。
另一个挑战是避免延迟。在传统的以太网架构中,发送数据包需要在端点有足够的内存。“如果我发送给您,但您的内存耗尽了,您必须回来告诉我,”Murphy 说。这是一个很长的循环,需要不可扩展的大型缓冲区。相反,Cornelis 使用一种称为基于信用的流控制的算法,该算法会提前分配内存。“你不需要告诉我任何事情,我就会知道我还能寄多少钱,”Murphy 说。
最后,如果 GPU 或链路发生故障,系统可以避免陷入停顿。在传统架构中,如果服务器宕机,应用程序也会宕机。修复它需要从最新的检查点重新启动,而该检查点本身需要大量的计算能力来创建。“想象一下,如果每次在文档上点击'保存'时,都必须等待 20 分钟,”Murphy 说。相反,由于 Cornelis Networks 分布在多台计算机上,因此它可以保持应用程序运行,尽管带宽略低,直到可以替换故障链路,而无需检查点。
高效的 AI
从物理上讲,CN5000 产品是围绕定制芯片构建的网卡。网卡插入每台服务器,“就像将以太网卡插入家中的 PC 一样,”Murphy 解释说。架顶式交换机通过电缆连接到每台服务器和其他交换机,而控制器级交换机则带有 48 或 576 个端口,用于连接到机架式交换机。“每台服务器都插入了卡,因此您可以构建数千个终端节点集群,”Murphy 说。
该公司的主要市场是希望升级到新集群以实现 AI 或更快 HPC 模拟的组织。这是通过 Cornelis 合作的三家原始设备制造商之一完成的,这些制造商制造服务器和网络交换机。OEM 从 Cornelis 购买实体卡,并在完成订单之前将其插入服务器。
直到最近,训练神经网络模型还是一次性的。但现在,训练数万亿个参数的 AI 模型意味着反复微调或更新。Cornelis 希望利用这一点。“如果你不采用 AI,你就会倒闭。如果你使用 AI 效率低下,你仍然会倒闭,“Murphy 说。“我们的客户希望以尽可能最有效的方式采用 AI。”

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码