告别32位移动计算 Arm TCS23再次提升性能极限
为了满足定义未来计算的复杂需求,并确保数百万开发者能够轻松地在 Arm 架构的平台上无缝开发,Arm不断突破计算平台的能力极限。Arm 2023 全面计算解决方案在设计时充分考虑了智能手机的需求,包含了基于全新第五代 GPU架构、可实现终极视觉体验的全新Arm Immortalis™ GPU,助力 Arm 面向下一代人工智能(AI)保持性能领先的全新 Armv9 CPU 集群,以及可为数百万 Arm 开发者提供更易访问软件的全新增强技术。Arm 产品营销副总裁 Ian Smythe直言,Arm将以上元素全部结合在全新的全面计算解决方案中,为整个系统的关键工作负载带来了显著提升。
作为 Arm 2023 全面计算解决方案(TCS23)的重要特点,所有新 CPU 均支持 64 位计算和 Armv9 安全创新功能,能够抵御更高级别的数字威胁,并提供可扩展的解决方案,从而为更广泛的市场带来更多高级的功能。TCS23代表着Arm迁移到 64 位系统的任务已经完成,此次TCS23的产品均基于Arm全新的架构,在Arm内部成为V9.2,代表了完全只支持64位软件生态的全新V9.2架构再次大幅提升Arm内核产品的性能功耗比。此外,Arm 的内存标记扩展(MTE)功能,支持开发者在应用部署前后,都能检测和避免内存安全漏洞,为用户提供功能安全及信息安全的数字体验。通过 Armv9 架构的 CPU,Arm提供了 MTE 功能,它已经努力消除占所有软件漏洞中 70% 的内存安全漏洞。
Arm 所发布的全新的 TCS23 是针对移动计算的最优选的计算平台,它包括了最尖端的 CPU 技术和 GPU 技术,能够让游戏开发者以及人工智能应用开发者实现沉浸式体验的打造。除了在硬件方面,它还包括软件以及安全保驾护航的一些技术。
首款基于第五代架构的 GPU——Immortalis-G720,它专为旗舰智能手机而设计,可带来15%的性能提升,减少了多达40%的内存带宽用量,有助于实现更出色且持久的帧率,最终带来更高质量的图形,实现更扣人心弦的视觉感受。在相同的配置下,相较于前一代产品,Immortalis-G720 的性能提高了 15%,而面积仅增加 2% 。其中,前一代产品已经证实在面积效率方面胜出相近竞品高达 20%。
此次Arm全新的Immortalis-G720采用的是全新的第五代GPU架构。据介绍,该架构专为满足多种图形用例而设计,是Arm迄今为止最高效的GPU架构,重新定义了部分图形管道,以优化内存带宽,从而在移动设备上支持高几何负载的下一代游戏和实时3D应用,同时带来更顺畅、并与PC端和游戏主机媲美的游戏体验。同时,Arm还推出了新的Arm Mali-G720和Mali-G620,该两款分别是去年Mali-G715和Mali-G615的升级产品,旨在将高端移动图形功能快速地推向更广大的消费终端市场。
作为 Arm 2023 全面计算解决方案的一部分,全新 Armv9 Cortex 计算集群已连续三年实现两位数的性能提升。与Cortex-X3相比,新的Cortex-X4作为第四代X内核性能提高了 15%,并带来了一个可以显著降低功耗多达40%的高能效微架构,而面积仅增加了10%。Arm表示,制程工艺和计算能力的结合是实现最高性能和最高效设计的关键。在新一代CPU设计中,Arm在TSMC N3E制程工艺上顺利完成了业内首个Cortex-X4流片。
全新的大核处理器 Cortex-A720 和全新小核 Cortex-A520,与其上一代相比,双双在能效方面都提高了 20%。Cortex-A720 是业界主流的 CPU IP,可提高持续性能,是新 CPU 集群的核心主力,而Cortex-A520 是最出众的的高效性能核心。为了完善全新的CPU集群,arm推出了全新DSU-120 ,专门为了满足高要求的多线程用例而设计。CPU集群提供更多的DSU电源模式,以支持更高效地使用更大的L3缓存,并减少外部 DRAM 流量,从而实现性能更佳、效率更高的 SoC。Arm 的全面计算战略就是通过一整套针对特定工作负载而设计和优化的 IP,这些IP可作为一个完整的系统,无缝地协同工作。Arm 始终站在技术前沿,通过不断提升硬件的机器学习功能,让开发者能充分利用AI 和 ML 工作负载的优势。
Arm 终端事业部产品管理高级总监 Kinjal Dave特别提到,所有产品都是基于最新一代的Armv9.2 架构,同时基于全新的DynamIQ共享单元之上,带来更多的可扩展性和更细致的电源控制模式,确保客户在需要的时候可以获得完整的性能和带宽,在不需要的时候可以通过非常细的颗粒度去降低功率。除此之外,Arm还为最新的工艺节点和库优化了IP,并且利用在 RTL 方面的专长配置物理 IP,以此在先进的技术上,为基于Arm产品的设计、制造提供了优化的EDA流程与物理实现。随着Arm为未来几代开发 TCS 解决方案,Arm将持续扩大物理 IP 产品组合,用以支撑合作伙伴的实施团队,让他们能在 Arm 技术中去攫取所有可能的性能和效率的提升。
同时,TCS23 中的软件,包括三大支柱即性能、安全以及开发者的可访问性。一个非常核心的工作负载就是机器学习,它也是软件工作中非常重要的一部分。因此,在 TCS23 中Arm更新了软件库。比如 Arm NN 以及 Arm Compute Library (ACL),这些都是开源的软件库,开发者可以利用它来优化在 Armv9架构 CPU 和 GPU 上面机器学习的复杂性。自 2023 年 1 月以来,Arm NN和 ACL 已经通过谷歌的 Google Play Store 在安卓系统上提供,而且已经有超过 1 亿日活跃用户。此外,到 2024 年,不管是Arm NN还是 ACL 都可以使用谷歌的移动平台,意味着开发者能够在可下载的项目,在默认状态下更新到网络最新的版本,同时意味着能在基于 Arm 架构上实现开发者获得最高可能的机器学习的潜力。关于机器学习方面的性能表现,ML 已经成了SoC上非常重要的工作负载,所以有效处理 ML 是Arm TCS 核心需求之一。在过去的三代 TCS 中,Arm 为 CPU 和 GPU 都引入了专门矩阵的 ML 指令,在 TCS23 中Arm持续优化硬件和 Arm 计算库软件。
这些全新的CPU设计可用于3A级游戏、全天候生产力和后台任务等用例。同时,为了完善全新的CPU集群,Arm推出了全新DSU-120,专为满足要求苛刻的多线程使用场景而设计,支持从可穿戴设备到智能手机、笔记本电脑的众多设备。一个全面解决方案需要有 DSU 才完整的,DSU 不光可以把所有的 IP 很好地结合在一起,同时也是催化剂,能够实现CPU集群最好的性能和效率。今年的 DSU 实现了三方面的提升,第一是可伸缩性。首先在可伸缩性方面,在一个集群中可以支持高达14核的数量,同时它能够支持 24M 或者最高达 32M 的3级缓存,这可以针对笔记本及笔记本以上的一些设备进行使用。第二个提升体现在新的 PPA 上,它首先可以进一步降低漏电,同时支持更多新的电源模式,总体的目标当然是进一步提高电效,从而延长电池寿命。第三是全新的一些功能,因为它是基于最新的Armv9.2的架构,因此它可以去支持比如带宽分区还有节点最大化和纳入一些新的接口。Arm 终端事业部产品管理总监 Saurabh Pradhan介绍,DSU 的伸缩性可大可小,根据具体的应用,最小的配置可以是一个小核,最大的配置可以是10+4,所以一个DSU最多可以支持14个核,如果合作伙伴的核超过了14个,可以使用多个 DSU。所以 TCS23要性能有性能,要效率也有效率,Cortex-X4 提供的是终极的性能,Cortex-A720 提供的是持续的性能,而 Cortex-A520 能够提供最好的功效。所以所有这三款的 IP 都是基于Armv9.2架构且与最新的 DSU-120 搭配使用。
总体而言,Arm的全面计算战略就是通过一整套针对特定工作负载而设计和优化的IP,这些IP可作为一个完整的系统,无缝地协同工作。此外,Arm为全球开发者提供软件和安全解决方案,其中Arm的开源软件库Arm NN和Arm Compute Library已在安卓平台上面向Google应用开放,目前已拥有超一亿的日活用户,可支持开发者优化运行在Armv9 CPU和Arm GPU的机器学习工作负载。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码