英伟达推出开源推理软件Dynamo 为AI工厂降本增效

时间:2025-03-19来源:网易科技

3月19日消息,英伟达在2025GTC大会上推出了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。

据介绍,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通信,并使用分离服务将大语言模型 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用 GPU 资源。

“全世界各行业都在训练 AI 模型以不同的方式进行思考和学习,从而使模型复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。

在 GPU 数量相同的情况下,Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍。在由 GB200 NVL72机架组成的大型集群上运行 DeepSeek-R1模型时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量提高30倍以上。

NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。

这将使用户加速采用 AI 推理,包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

关键词: 英伟达 开源 推理软件 Dynamo AI工厂 NVIDIA Dynamo GTC

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版