Nvidia 征服了最新的 AI 测试

  作者:Samuel K. Moore 时间:2024-06-26来源:

多年来,英伟达在许多机器学习基准测试中占据主导地位,现在它又多了两个档次。
MLPerf,有时被称为“机器学习的奥林匹克”的人工智能基准测试套件,已经发布了一套新的训练测试,以帮助在竞争计算机系统之间进行更多更好的同类比较。MLPerf 的一项新测试涉及对大型语言模型的微调,该过程采用现有的训练模型,并用专业知识对其进行更多训练,使其适合特定目的。另一个是图神经网络,一种机器学习,一些文献数据库背后的一种机器学习,金融系统中的欺诈检测,以及社交网络。
即使使用谷歌和英特尔的人工智能加速器的计算机增加和参与,由英伟达的Hopper架构驱动的系统再次主导了结果。一个包含 11,616 个 Nvidia H100 GPU 的系统(迄今为止最大的集合)在九个基准测试中名列前茅,其中五个(包括两个新基准测试)创下了记录。
“如果你只是把硬件扔到这个问题上,你就不能肯定地要改进。—DAVE SALVATOR,英伟达
11,616-H100系统是“我们做过的最大系统”,英伟达加速计算产品总监Dave Salvator说。它在不到 3.5 分钟的时间内就完成了 GPT-3 训练试验。相比之下,512 GPU 系统大约需要 51 分钟。(请注意,GPT-3 任务不是完整的训练,可能需要数周时间并花费数百万美元。取而代之的是,计算机在完成之前在商定的点上对数据的代表性部分进行训练。
与英伟达去年在 GPT-3 上最大的参赛者——一台 3,584 台 H100 计算机相比,3.5 分钟的结果代表了 3.2 倍的改进。你可能会从这些系统大小的差异中预料到这一点,但在人工智能计算中,情况并非总是如此,Salvator解释说。“如果你只是把硬件扔到这个问题上,你就不能肯定地要改进,”他说。
“我们基本上是线性扩展的,”Salvator 说。他的意思是,两倍的 GPU 会导致训练时间减半。“[这]代表了我们工程团队的一项伟大成就,”他补充道。
竞争对手也越来越接近线性缩放。这一轮英特尔部署了一个使用 1,024 个 GPU 的系统,该系统在 67 分钟内执行了 GPT-3 任务,而计算机的大小仅为六个月前 224 分钟的四分之一。谷歌最大的 GPT-3 条目使用了 12 倍的 TPU v5p 加速器作为其最小条目,执行任务的速度是其 9 倍。
Salvator 说,线性扩展对于即将拥有 100,000 个或更多 GPU 的“AI 工厂”尤为重要。他表示,预计今年将有一个这样的数据中心上线,另一个使用英伟达的下一个架构Blackwell的数据中心将在2025年启动。
英伟达的连胜势头仍在继续
尽管使用与去年训练结果相同的架构 Hopper,Nvidia 仍继续延长训练时间。这一切都归功于软件的改进,Salvator 说。“通常,在新架构发布后,我们会从软件中获得 2-2.5 倍的 [提升],”他说。
对于 GPT-3 训练,Nvidia 比 2023 年 6 月的 MLPerf 基准测试提高了 27%。Salvator说,在提升的背后有几个软件变化。例如,Nvidia 工程师通过修剪 8 位和 16 位数字之间不必要的转换,并更好地确定神经网络的哪些层可以使用较低精度的数字格式,调整了 Hopper 对不太准确的 8 位浮点运算的使用。他们还找到了一种更智能的方法来调整每个芯片计算引擎的功率预算,并加快了GPU之间的通信速度,Salvator将其比作“在烤面包机中涂黄油”。
此外,该公司还实施了一项称为“闪光关注”的计划。闪速注意力是由Samba Nova创始人Chris Re在斯坦福大学实验室发明的,是一种通过最大限度地减少对内存的写入来加速Transformer网络的算法。当它首次出现在 MLPerf 基准测试中时,闪光注意力比训练时间缩短了 10%。(英特尔也使用了 flash attention 的一个版本,但不是 GPT-3。相反,它将该算法用于其中一个新基准测试,即微调。
与 2023 年 11 月提交的相比,使用其他软件和网络技巧,Nvidia 在文本到图像测试 Stable Diffusion 中实现了 80% 的加速。
新基准
MLPerf 添加了新的基准并升级了旧的基准,以保持与 AI 行业正在发生的事情相关。今年增加了微调和图神经网络。
微调需要已经训练过的 LLM,并将其专门用于特定领域。例如,英伟达(Nvidia)采用了一个经过训练的430亿参数模型,并在GPU制造商的设计文件和文档上对其进行了训练,以创建ChipNeMo,这是一种旨在提高其芯片设计人员生产力的AI。当时,该公司的首席技术官比尔·达利(Bill Dally)表示,培训法学硕士就像给它提供文科教育,而微调就像把它送到研究生院。
MLPerf 基准测试采用预训练的 Llama-2-70B 模型,并要求系统使用政府文档数据集对其进行微调,以生成更准确的文档摘要。
有几种方法可以进行微调。MLPerf 选择了一种称为低秩适应 (LoRA) 的方法。据该组织称,该方法最终只训练了 LLM 参数的一小部分,与其他方法相比,硬件负担降低了 3 倍,内存和存储的使用量减少了 3 倍。
另一个新的基准测试涉及图神经网络(GNN)。这些是针对可以由一组非常大的互连节点表示的问题,例如社交网络或推荐系统。与其他 AI 任务相比,GNN 需要计算机中节点之间的大量通信。
该基准测试在一个数据库上训练了 GNN,该数据库显示了学术作者、论文和机构之间的关系——一个具有 5.47 亿个节点和 58 亿条边的图形。然后对神经网络进行训练,以预测图中每个节点的正确标签。
未来的战斗
2025 年的训练轮可能会看到比较 AMD、英特尔和 Nvidia 的新加速器的正面交锋。AMD 的 MI300 系列大约在六个月前推出,计划于 2024 年底对 MI325x 进行内存增强升级,下一代 MI350 计划于 2025 年推出。英特尔表示,今年晚些时候向计算机制造商推出的Gaudi 3将出现在MLPerf即将推出的推理基准测试中。英特尔高管表示,新芯片有能力在训练LLM时击败H100。但胜利可能是短暂的,因为英伟达已经推出了一种新的架构Blackwell,该架构计划于今年晚些时候推出。

关键词: GPU 神经网络 LLM MLPerf 基准测试 英伟达

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版