Arm终端计算子系统为AI用户体验提供计算平台

  作者:Arm 终端事业部产品管理高级总监Kinjal Dave 时间:2024-06-13来源:EEPW

人工智能 (AI)正在改变消费电子设备,并且革新生产力、创造力和娱乐体验,这将带来更高程度的自动化、沉浸感和个性化,为开发者和最终用户提供海量机会。随着推动移动端系统级芯片 (SoC) 的设备端生成式 AI 的发展,AI 技术正持续演进。

依托于Arm全面计算解决方案的成功,我们宣布推出面向消费电子设备的全新计算子系统,即Arm 终端计算子系统 (CSS)。作为 AI 体验的计算基础,它能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。

Arm终端CSS囊括最新的Armv9.2 Cortex CPU集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。该平台为我们的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm 的合作伙伴能够利用前沿三纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。

深入了解Arm终端CSS

Arm 终端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。这为AI和其他实际用例计算工作负载提供出色的性能和效率。

1718271740278215.png

图 Arm终端CSS涵盖哪些要素?

最新的CoreLink互连实现了Arm终端CSS的系统集成和扩展。集成的系统级缓存 (SLC) 通过减少 DRAM 带宽和访问来实现更出色的系统能效。系统内存管理单元(SMMU)通过第二阶段转换加强安全性,以便支持如安卓虚拟化框架 (AVF) 等虚拟化安全框架。

凭借基于第五代 GPU 架构、面向旗舰智能手机所设计的 Arm Immortalis-G925,Arm 终端 CSS 实现了惊人的图形和主机级别的游戏性能。通过增强的性能和能效,用户可以在移动设备上享受更长时间、更沉浸式的游戏体验。

Arm 终端 CSS 将成为第一代采用三纳米工艺节点的安卓 SoC 的一部分,从而在芯片中实现出色的功耗、性能和面积 (PPA)。作为终端 CSS 的一部分,Arm 的物理实现能够全面释放三纳米工艺技术的潜力,为高端平台充分发挥 PPA 优势,并为我们的合作伙伴打造芯片创建最快途径。

我们携手领先的代工厂合作伙伴,协同设计并交付 CPU 和 GPU 物理实现,其中包括流片就绪的 Cortex-X925 CPU 以及 Immortalis-G925 三纳米工艺的物理实现。这将有助于我们的合作伙伴在三纳米工艺上取得 PPA 优势,同时通过生产就绪的芯片解决方案来缩短芯片的开发与部署时间。此外,我们的合作伙伴能够灵活地使用 Arm 终端 CSS 来构建特定市场、具差异化特色的 CPU 集群和 GPU。

突破计算和AI性能的极限

终端 CSS 是 Arm 目前面向安卓系统速度最快的平台,与 2023 Arm 全面计算解决方案 (TCS23) 平台相比,在关键基准和一般计算用例方面取得了显著改进。其中包括:

●   通过 Geekbench 6 单核分数测量可知,得益于新的 Cortex-X925,峰值性能提高 36%;

●   在前十大应用中,五款应用的平均启动时间加快了 33%,不仅提高了生产力,也带来了流畅的移动体验;

●   通过Speedometer 2.1浏览器基准测量时,网页浏览速度加快了 60%;

●   在包括光线追踪和可变速率着色 (VRS) 基准等七项图形基准中,峰值图形性能平均提高 30%。

1718271777440628.png

图 Arm终端CSS的一些性能优势

Arm 终端 CSS 平台提供由 AI 驱动的消费电子设备体验。今年早些时候,我们展示了大语言模型 (LLM) 如何在移动设备上的 Arm CPU 进行本地运行。借助终端 CSS,LLM 将得以在 Arm CPU 上更好地运行,带来更快的响应速度。当运行 Llama 3 LLM 和 Phi-3 LLM时,该平台可将词元 (Token) 首次响应时间分别缩短 42% 以及 46%。

1718271815347387.png

图 通过Arm终端CSS在Arm CPU上运行LLM

此外,得益于新Arm CPU和GPU所取得的技术进展,在广泛的通用 AI 网络上,Arm 终端 CSS 的 AI 推理性能获得了显著的提升。例如,采用 Cortex-X925 时,推理速度加快 59%;采用 Immortalis-G925 时,AI 推理速度加快 36%。此外,通过在终端 CSS 的 CPU 集群配置中利用一颗额外的 Cortex-X925 CPU,我们观察到在 17 个主流网络中,针对 int8 和 fp16 数据类型的 AI 推理性能提高了惊人的 2.7 倍。这些在 AI 推理方面的改进可在一系列 AI 用例中实现无缝顺畅的用户体验。

1718271857328817.png

图 Arm终端CSS提升AI推理

Arm终端CSS在计算摄影和AI摄像头等AI用例中的表现尤为优异。要想拍摄出美轮美奂且具有逼真焦外成像效果(让背景模糊并聚焦所选主体)的照片和视频,这并非易事。AI 摄像头的焦外成像管线由深度估计、分割、抠图和混合等多个阶段组成,可生成高质量的影像结果。与 TCS23 相比,通过 CPU 上针对焦外成像工作负载的 AI 处理,终端 CSS 的焦外成像性能提升了 24%。这意味着用户可以在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果。

1718271999843234.png

图 通过Arm终端CSS提升AI摄像头性能

此外,通过软件和工具的结合,Arm 终端 CSS 的性能与功耗得以获得进一步优化。Arm 新推出的 Kleidi包含了经高度优化的机器学习 (ML) 软件内核集合 KleidiAI,能让开发者在通过高度优化的生成式 AI 框架运行 AI 工作负载时,全面释放 Arm CPU 的潜力。这意味着开发者能够面向各类设备,基于尽可能高的性能,快速构建 AI 应用。

为了获得更具沉浸感和更长时间的游戏体验,Arm 终端 CSS 实现了两位数的性能和能效提升,其中包括在一系列热门的手游中,平均以每秒 120 帧的速度运行时,在相同功耗下可带来 37% 的平均性能提升,同时 GPU 功耗降低 30%。

可扩展的性能覆盖各类消费电子设备市场

Arm 致力于让每个人都能享有 AI,并通过可应用在各类和各种不同外观设计的消费电子设备的终端 CSS,不断提升性能和效率。

Arm 终端 CSS 可扩展应用至市面上最高性能的消费电子设备,包括新一代 AI PC。其中的 Cortex-X925 与 Cortex-X4 CPU 相比,其TOPS 提高 50%。终端 CSS 为 PC 市场提供专用的可扩展平台。该平台采用 Cortex-X925 以提供一流的单线程性能,并通过近期更新的 DSU-120(在单个 CPU 集群内提供多达 14 个 CPU 核心)提供最佳的性能可扩展性。除了 SVE2,更多的 Armv9 架构的功能,包括已在移动端生态系统验证的安全性技术,如指针验证 (PAC)、分支目标识别 (BTI) 和内存标记扩展 (MTE) 等,也将引入 PC 市场。

通过终端 CSS,Arm 可为消费电子设备市场的各类性能和成本需求提供可获取的 AI 技术。Cortex-A725 是实现高能效 AI 吞吐量的主要处理器,在对成本更敏感的大众消费电子技术市场领域,它是 AI 处理的主力和主要开发者目标。例如,我们曾在一个虚拟助手演示中,展示了在搭载三核 Cortex-A700 系列 CPU 核心的现有安卓智能手机上,运行 Llama2-7B 和 Phi-3-mini (Phi-3 3.8B) LLM 的性能。与此同时,面积经优化的 Cortex-A725 可在广泛的消费电子技术领域中,以高面积效率实现生成式 AI 工作负载的部署。

消费电子技术的AI根基

Arm终端CSS是为各类消费电子设备打造新一代 AI 体验的专用平台。终端 CSS 是 Arm 针对安卓系统速度最快的计算平台,这将使得用户能够在其移动设备上获得前所未有的安卓体验。该平台的 PPA 优势通过物理实现得以达成,助力我们的芯片合作伙伴缩短产品上市时间并顺畅部署。终端 CSS 的可扩展性能有助于在各种类型、不同外观设计的设备的所有成本点上释放 AI 性能,使得人人都能享有 AI。

1718272035715535.png

Arm 终端 CSS 使得我们的生态系统能够实现更多突破,无论是释放更多性能、实现更多 AI 功能和应用体验,还是打造更先进的芯片,Arm 平台是这一切的基础。凭借终端 CSS,Arm 为当前和未来的 AI 体验构建消费电子计算的未来。

关键词:

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版