最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

移动世界的新王者 深度解析Cortex-A73

IT圈 admin 33浏览 0评论

2024年9月1日发(作者:多轩昂)

最近华为Mate 9以及其所采用的麒麟960处理器吸引了不少目光,其中后者的性能和功耗表现都令人满意。在它出色表现 

的背后,离不开Cortex-A73架构的支持。那么究竟Cortex-A73有哪些改善和进步?它 ̄Cortex-A72又有什么不同呢?今天本文 

就要带你一起深入了 ̄Cortex—A73。 

Cortex-A73,这个代号 Artemis” 

品发展史,让历史告诉我们答案。 

制于架构问题,除非工艺再次进化, 

否则很难有更进一步的改善。为了 

更清楚地解释这个结论,我们不妨 

的架构是ARM最新推出的处理器核 

心架构。从实际产品的角度来看, 

cortex_A73相比之前就已经比较成功 

 ̄Co rtex—A72而言,在性能和功耗表 

现上继续改善,尤其是性能功耗比有 的c0 rtex-A72在 性能和功耗上的表 

回头看—下ARM之前几款产品的发 

在Co rtex—A73出现之前,ARM 

展历史。 

对ARM架构发展历史比较熟悉 

ex-A72从 的用户应该还记得。Cortex—A9是一款 

极为显著的提升。那么,为什么ARH 

现已然比较出色了。但Cort

要在Cortex—A72发布后没多久就发布 Cortex-A57那里继承来的“问题”依 

非常成功的移动CPU架构,它在当时 

Cortex-A73呢?要了解这个问题,不妨 旧存在——它还是太 大”了一点。 

的制程下很好地平衡了功耗和 性能. 

研发,其中有名的处理器包括三星 

先来简单回顾—下ARM最近数年的产 Cortex-A72整体性能功耗比的表现受 相当一大批移动设备都基于Cortex-A9 

Exynos 4412、Exynos 4210以及TI OMAP 

4430/4460、英伟达Tegra 3等。 

。。。。。。。。。。。。 。。。。。。。。。。。。 。。。  。。。。。。。。。。。。。。。。。。。。—— 。。。。。。。。。。。。。。。。。—— 

High End:More Performance,More Efifciency 

7. 

 ,

1 

I Delivered single thread performance l 

・Pc on'、.n 两———————————1丽赢 3 

rte

x. A|

 

Cortex-A9的成功。让ARM在追求 

性能的道路上越走越远,并在不久 

之后推出了Cortex-A15。从性能角度 

ccele

rated g 

l 5‘ { -^t speed(wlth pr。ce.1 claCodex・A72 , .Il 

, 

来看c0rtex.A15的表现的确令人满意, 

要; 4 L 

哪 一 _ -De1.vered 

-A9 二 二 , :二二二:二’二 二 一一一 .

Co

rte

一一

喇2二1 。mWlunlt performance(iso-proces)t 

羔-A9 " ̄",.Co rt.ex-A/, 

Ⅲ^51lt ・2‘l1■■■■—●●■●

【叫…,I…5・ ■●——■—■■●

0 

口" 

¨nl1.-^’【乇…■■■●■■■_

O O1 0 2 

口 ・ 

O 3 0 4 O 5 0 6 0 7 

ARH 

●各个不同处理器架构的性能和性能功耗比情况 

● E1)Cint21…l恻试中对不同架构处理器每M 

性能的测试结果 

。Com

pu t

r 100 

应用与技术口 

 

它的IPc得到了显著提升。但随之而来 

果突然来袭的64位处理器。

的是更高的功耗和较低的性能功耗 

结果在当13 ̄,28n m/20n m工艺 

多厂商接纳并发布不少新品。从当时 

的状况来看。Co rtex・A17是比较符合 

当时的工艺发展的。市面上相应的产 

品有Rockchip RK3288、海思Hi3536,以 

及联发科 ̄gMT6595等。从一些测试 

结果来看,MT6595在当B,-CB,'9频率和 -

rtex-A57的性能功耗比非常 

比(当然也有受制于工艺的原因)。与 

下,Co 

此相应的是.基于Cortex-A15架构的初 

糟糕。在初步的尝试中,高功耗 

代S0C芯片。L ̄WExynos 5250 ̄DExynos 

等问题使得很多厂商不得不弃用 

5410在功耗方面表现不佳。 

Cortex—A57.包括华为麒麟930、联发 

在这种情况下,ARM设计出了创 

科Helio x10都 吏用了Cortex-A53。凡 

ex-A57 ̄g核心.比如骁 

新的bIg.LITTLE架构,希望通过高性能 

是使用了Cort

工艺下都给出了相当出色的性能、功 

耗表现,甚至超过了高通那颗著名 

的骁龙800处理器(当然也远胜骁龙 

810)。 

高功耗的大核心搭配高性能功耗比但 龙810或者骁龙808、Eynxos 5433等, 

是整体性能较差的小核心来提高系 

实际表现均相比前代产品有一定退 

统整体的性能功耗比,最终实现降低 步,尤其是在功耗效率方面甚至大 

功耗、延长设备使用时间的目的。big. 

幅度倒退。 

LITTLE的推出,很快得到了移动处理 

在这种情况下,ARM不得不继 

器厂商的欢迎,大量使用Cortex-A15搭 续修修补补,推出了更为重视性能 

配Cortex-A7的处理器出现,包括华为 功耗L ̄igCo rtex—A72核心,高通等 

麒麟92 f一-星的Exynos 5422。 

厂商则自行研发了Ky ro架构,不再 

 

ARM此时还没有深刻地认识到 

使用ARM能耗比较低的公版架构。

tex.A72的推出以及16nm/14nm等 

处理器的性能功耗比实际上是移 

Cor

动设备的核心竞争力,毕竟此时工 先进工艺的使用,才使得移动处理 

艺尚有更多潜力可挖。于是,ARM按 器摆脱了之前“大火炉”危机。 

Cortex—A17能够在工艺小幅度落 

后的情况下还提供更高的性能功耗 

比。显然这是一个不寻常的事件。事 

出反常必有妖。在这里,还需要梳理 

下多年来ARM这些处理器架构的 

来源,看看是否能找到一些苗头。 

从ARMBg发展历史中可以看出, 

ARM拥有多个cPu架构设计中心. 

面向不同的用户推出不同的架构家 

族。其中,位于美国德克萨斯州的 

奥斯丁设计团队发布了Cortex-A15、 

Cortex-A57、Cortex-A72,从本刊之前的 

部就班地发布了全新的ARMv8指令 

实际上.我们在讨论的时候, 

集,这是ARM第一个支持64位计算 忽略了两个重要的型号:Cortex—A12 

3Cortex-A17。其中前者是Cortex-A9 

的指令集,与此同时还有支持64位 

 ̄1

Bgc0 rteX-A57大核心和高效能的小 

的改进型产品,后者则是Cortex—A12 

核 ̄C Co rtex.A53。本来在ARM的计划 的深入改进型,原因是Cortex—A12不 

中,Co rtex.A57会用上16nm甚至更好 

支持当B, ̄ARM主推的b_g.LITTLE技 

rtex.A1 7支持了新技术并可以 

的工艺,不过苹果凭借Cyclone架构带 

术,Co 

 rtex—A7搭配成大小核心。按理 

来 ̄Ig64位A7处理器让业界风向为之 

 ̄0Co

转,大量厂商不得不在提前使用 

来说,如果苹果没有那么快推出64 

Cortex.A57 ̄0Cortex.A53来 抵抗”苹 

 ̄2_A7处理器,Co rtex—A17应该会被诸 

l}_ 

}: L上: 

I厂 _—1f一—■_]cot: 1 

] 

I 

篓 : { 

…… 4…∞々… …'0…∞ ……~……’∞ 

^“神 …cof c ‘ o鲫,圳 l 

●骁龙H1fl的离功耗得到了业内一致吐槽,甚至有媒体做出“火热的骁龙H ’对其进行讽刺 

■不同架构处理器性能功耗比和性能分布图 

101 翟 

一Tech 

介绍和实际架构来看,奥斯丁家族的 

架构具有一脉相承的特性。另外一 

个地方则是英国剑桥,ARM剑桥设计 

团队在这里设计了打造了著名Agd', 

核心产品,包括Cortex—A5、Cortex-A7 

 ̄DCortex-A53。最后一个地方就没那 

么有名了一位于法国的索菲亚・安 

迪波斯利,欧洲科技中心,推出了 

Cortex-A12、Cortex-A17 ̄DCortex-A73。 

时间。目前很多SoC芯片的峰值性能 

Cortex-A72是一个拥有超过15级流水 

表现都非常好,但是这些峰值『生能的 线、乱序执行能力的处理器。在指 

功耗表现甚至超过5W,而一些极端 

令端,Cortex-A72设计了一个128bit提 

S o C ̄U超过1 OW,这显然是一个完全 取单元和一个三发射解码级。每个 

无法持续的状态,大部分手机在峰值 

周期将有最多3个指令被解码为uops 

性能下只能维持几分钟就必须降频 (微指令),然后将这些指令送入 

甚至关闭数个大核心,无法提供持续 Rename/Dispatch(重命名,调度)阶段, 

的性能输出。这样一来,更高性能产 

调度单元每个周期能够实现5个uops 

品存在的意义就被严重削弱了。尤其 

的调度.最终通过IsO单元派送7个队 

如果从血缘关系来看的话,索菲亚家 

族的处理器架构才是之前大获成功 

的Co ̄ex-A9的正统继承人。 

现在终于真相大白,Cortex-A73 

和之前的处理器都不太一样。ARH在 

是设备商为了更好看、更吸引人的设 

列并安排排序后Aguops进入8个执行 

计,还在努力将手机造得更加轻薄。 管道。在这8个执行管道中。有2个执 

所以让手机拥有高可持续性能就变 行诸如加法和位移这类基本操作的 

得极为重要,Cortex-A73的意义就在 

ALU(Simple Integer IOTl ̄Simple Integer 

于此,ARM通过这个全新的架构在 

l1),整数的乘法、除法和乘法累加运 

降低功耗、提升能耗效率和维持较 算有专门的多周期整数流水线(Multi 

高峰值性能的同时还能保持和之前 Cycle M),还有专门对AsIMD以jx ̄.:NENO 

Cortex-A72基本相当AgIPC。 

在解析Cortex-A73之前,我们先 

来回顾—下Cortex-A72的架构情况。 

这样浮点运算进行处理的两个管线 

(NENO/FP F0 ̄NENO/FP F1),还有单 

个分支监视器(Branch B)以及两个专 

Cortex—A9后数代产品都选择了奥斯 

丁家族,现在终于回到了索菲亚家 

族。下面我们就一起来看看,索菲亚 

家族A ̄Co rtex-A73优势在哪里,凭什 

么能压倒奥斯丁家族,被ARM选中而 

上位”。, 

__fc,、,‘,v j/\,-一二 73粱淘一一曲实 

凌童高匀皇 皇置童 专j :匕 西≥≥ 

j 

从上面的回顾中可以看到,ARH 

在处理器发展的过程中一度更为偏 

向性能,对功耗的重视程度并没有放 

在首要位置,尤其是在早期制程尚能 

”抵消”更大的核心带来的更高功耗 

时。不过现在这样的情况已经发生了 

变化(尤其是制程进步远没有之前 

那样容易),ARM不但更重视功耗, 

而且还提出了一种全新的 洼能考量 

方法,那就是”可持续性能”。 

所谓可持续性能,是指处理器 

在较高性能输出状态时所能持续的 

一(7ortex—A73,AI<M称之为能效最高的处理器。 

■('.ortex—A72架构图 ■Cortex A73架构图 

应用与技术一 

用的AGu读取和存储单元(AGU LD ̄E] 

行单兀中。 

AGU ST)。 

ARM依旧使用scu一致性单元来保证 

集群中核心之间的一致性。集群的 

包含式L2缓存最高可配置8M B(包括 

L1缓存的数据), ̄Cortex・A17一样, 

是Cortex-A72 ̄9两倍,当然大部分消 

费级产品最多配置1 H B或者2M BA' ̄L2 

缓存。 

附加功能方面,ACP的加速一致 

性端口是可选配置,移动设备一般 

再来看看Cortex・A73B ̄后端, 

再来看Cortex-A73。)),(,Cortex-A73 

它有两个F P流水线,这一设计也 

的架构图可以发现它 ̄[ICo rtex—A17 被Co rtex・A72借鉴学习并应用在自 

相似度非常高,这 ̄DCortex-A72三发 

己的架构中。其余部分C0 rtex-A73 

射设计架构完全不同。Co rtex—A73微 设计了一个分支检测器和两个AG U 

体系结构的特点在于流水线级数较 单元——但是每个AG U单元都可 

短,只有大约11—12级,较短的流水线 

以同时完成读写操作,而不是像 

主要来自于对整个流程的优化。与 

Cortex-A72那样只读或者只写。此外 

Coffex-A72在指令提取端的5级流水线 在整数执行部分。Cortex-A73设计了 

相比,Cortex-A73的指令提取端只有4 两个4级、较复杂的整数单元,其中 

级。更值得一提的是。Cortex-A73较短 

不会配备。ACP主要用于附加模块和 

CPU核心共同运作,同时也可以利用 

L2高速缓存。传统应用中往往和网 

个可以执行乘法,另一个可以执 

的指令解码端只有一级。这使得绝大 行整数除法,这两个都能够执行基 络相关,但在移动计算中这一点并不 

重要。反倒是ARM目前比较关注机器 

多数指令能够在一个周期内完成,而 

本的加法和位移操作。乘法累加不 

不是Cortex-A721 ̄三个周期。在指令 再使用专门的ALU,而需要这两个 

 

执行阶段,只有浮点指令需要额外增 

ALU通力合作。

学习和计算机视觉在未来的发展潜 

力,专门的加速器能够提高平台的 

加一个周期,也就是总计需要1 2级流 

就可以完成。 

对比Cortex-A73和C0rtex.A72大 

那样,Cortex-A73是一个充分优化管 

效能。 

由于Cortex-A733L要针对消费市 

场。因此它不支持AMBA 5 CHI标准,而 

是仅仅通过双向128bit的AMBA 4 ACE 

标准。相比之下,老标准抛弃了那些 

用不到的功能.为芯片节省了面积和 

晶体管,降低了复杂性。目前所有支 

水线,其余整数部分只需要1 1个周期 

相径庭的设计风格,正如ARM宣称的 

与Cortex_A17相比。C0rtex.A73将 

道、资源和接口的架构,它的目的是 

最大的指令调度能力),. ̄4uops提高到 

尽可能在最小的功耗下实现最佳的 

了6ops,FP解码端可以独立向IsQ单 性能。ARM还宣称它Yi]R'3AArch32 ̄1] 

元; ̄DNENO单元发出2uops ̄令,这和 AArch64 ARMv8做出了平衡,因此在 

Come.A17是一致的。但是整数部分却 执行不同命令时性能和功耗都不会 

从C0rtex_A仃的2uDps增加到了4uops, 

经过重命名,调度的指令进入指令排 

有太大的劣势。 

说完了核心,再来看看集群。 

持bIg.Lrr.rLE架构的soc都使用了ACE接 

口相连并保持一致性,比如CCI一400。 

此外,不针对工业应用标准的另一个 

序时。三个XsQ单元每个都可以派送2 Cortex—A73可以支持四核心配置.每 

个队列,从而进入后端的5个整数执 个集群能够容纳一个到四个核心, 

问题是无法提供L1缓存EI ̄ECC校验支 ,

持,但是L2可以完全实现这个功能, 

因此这也变得不是那么必要。 

Cortex—A73:Peak Performance,Best Efficiency 

103^, 。 

囵Tech 

(slot),每个槽可以独立处理指令端 

的所有资源。主要优点是每个”槽” 

可以通过小环路来检测之前”槽”的 

信息,这样能够消除对流水线指令端 

资源的冗余访问,实现最佳功耗比, 

并且每个”槽”都拥有大量资源以获 

的微指令有助于时钟频率,不过也 

保留站的整数部分可以向为ALU、AGU 

相应地减少了整体B ̄IPC。Cortex-A73 

和分支监视器设置B ̄IsQ单元发布队 

能够减少被分成 ̄uops数量,并且改 

列,最多分派4个uops(每个IsO最多接 

进了解码器性能。正如前文所说, 

Cortex-A73的解码器能够在一个时钟 

收2个)。 

寄存器方面,Cortex—A72以及前 

周期内完成大多数指令解码,而不是 代产品最重要的特点是使用物理寄 

之前Cortex—A72所需的3个周期。另外 

存器而不是在架构类型的,这样做 

由于为ASMID/NENO浮点管线增加了 的优点是重命名阶段会简化,并实现 

流水线级数,因JJ: ̄ARM为其配备了两 更高的性能、降低功耗。 ̄Cortex-A17 

个可以直接读,写I ̄AGU单元,实现效 

类似的是。这种做法允许一个理论 

率最大化。在指令分派端,Cortex-A73 

上无限乱序指令的窗口,虽然实际中 

得最佳性能。 

指令预取模块经过优化,提升 

了其最大吞吐量。其中一项优化是 

用于去除无用的 气泡”并可以获得 

更高A ̄IPC。所谓”气泡”,是指那些 

可能存在的危险导致流水线发生指 

令停滞或者延迟。在之前的微架构 

中,即使预测正确,并且指令端能够 

向解码端发送大量的指令。但一旦指 

令输入解码端并被分解成微操作的 

时候,就有很大可能遇到“气泡”。但 

是Cortex—A73的设计可以检测这种情 

况,并直接将微指令发送给解码端, 

导致ARM中几乎没有”气泡”出现,大 

大提高了效率。 

在分支预测方面,Cortex-A73使 

用了一种”体现最高水准”的分支预 

测器,实现了比较准确的分支预测。 

ARM宣称新架构拥有一个更大的BTlAC 

(分支目标地址缓存,Branch Target 

Address Cache),并引入了全新的64通 

路(entry)的“micro-BTAC”用于加速 

分支预测。不过,ARM没有公布更多 

的细节,只是含糊说新的分支预测 

设计能够预测几乎所有情况。对于 

那些发生了错误的预测,微架构设 

置了静态分支预测器和返回堆栈来 

进行处理。 

■高效率的双发射架构 

●离效能的数据优化路径 

A R M有信心在这种双发射的处 

理器上保持性能的同时提高效率。在 

电源管理方面,电源只对当前正在运 

行资源的逻辑有效。解码器在指令融 

合方面也提供了显著的改进。一般来 

State..of-the..Art Branch Prediction 

I 

More e仃icient branch predictor 

Larger BTAC structure.with optimized RAM 

organization 

{ 一卜 驾;篓 _j= 

、 

64 entry Micro-BTAC to accelerate bl anch 

prediction 

一 

I 

I 

说,常用习惯用法的指令融合处理对 

提高整体效能来说是非常重要的,但 

是检测它们却很困难。Cortex-A73能 

够通过检测之前的事件和整个管线 

的信息,来分辨出这些习惯用法。 

2-way X 256 entry Indiect rPredictor,accessed 

only when needed 

Return S=ck and Static Prediction to get 

emairning mispredictions at Iow power 

l 0£I_删 

I 霄" i 

ARM 1 

在解码端,将指令分解为更多 

Co mp ut

一体现最高木准的分支预测器 

_e1 104 

应用与技术 

依旧存在限制,但它消除了某些情况 

高速缓存地址转换上,Cortex-A73已 

下的指令窗口瓶颈。ARM甚至宣称这 经从物理索引物理标签(PIPT)切 

VIPT)。在 

种设计为“乱序微架构方法哲学层 

换至虚拟地址物理标签(

在读写方面,Cortex—A73的两个 

AG U读写单元,这个设计对提高系统 

效能起到了很明显的作用,尤其是存 

储系统。在内存带宽方面,Cortex-A73 

 ̄CTLB进行了改进。在之前的微架构 

中,当需要切换到主要TLBB ̄,数据集 

的存在会导致性能下降,Cortex-A73 

通过为TLB提供自己的预存器来解决 

了这个问题,即使对于数据集也能实 

现可持续的流式传输。 

面的变革”。另外,Cortex-A73还特别 

PIPT中,遇到的最大问题是地址转 

优化了从重命名阶段到IsQ阶段的资 

换产生索引,这是CPU核心的关键路 

源问题。IsQ阶段所使用的乱序执行 径数据。但是在VIPT中,这个问题不 

策略和方法对最终性能有很大影响, 

复存在,系统使用扩展 ̄64KB数据 

因此需要特别注意有关指令调度问 缓存(Cortex—A72 ̄Cortex—A17只允许 

题,比如队列的排序可以取决于很多 32KB),ARM宣称较大的缓存带来了 

种事件,举例来说当处在一个流式任 

4%的性能提升。另一点需要指出的 

务时,最好将所有的存储任务依次排 是,一般VIPT中车欠1牛需要处理重命名 

列,这样内存系统中将存在一个完整 的问题,但是ARM称Cortex-A73使用硬 

的缓存数据结构,以方便处理。 件完成了这一点。在硬件上,缓存实 

在架构上说了这么多,最终还是 

要落在实际的性能和功耗上来。ARM 

在数据端,Cortex-A73A, ̄NENO单 现的是4路关联性,但是在软件上则 

元基本还是继承自Cortex-A72,但依 看作PIPTA ̄8路32KB或者16路64KB, 

旧做出了不少改进。在Cortex・A73上, 

NENO ̄令级单元混杂了FP传输和FP 

这一点是非常特殊的。 

在缓存部分,Co rtex-A73 ̄L1缓 

给出了一些官方模拟的数据,展示 

Cortex-A73可以带来怎样的提升。ARM 

宣称Cortex-A73在BBench(网站加载基 

移动等功能,并且面积进行了一些 

存为4路设计且固定为64KB,这是对 

tex-A17上32KB/64KB可选配置 

优化,更小巧了。实际上,Cortex-A73 

之前Cor

准测试)、SIMD性能以及内存性能方 

面, ̄Cortex-A72有着5%一15%A ̄性能 

提升。 

和cortex—A72A ̄区别主要在于整数部 的升级,也多于Cortex-A72A ̄48KB。L1 

分,前者使用了一个复杂的、多周期 指令缓存的提升是Cortex—A73在性能 

ALU,而后者则使用了简单ALU。它们 上得到改善的一个关键性因素,ARM 

能力存在显著差异:Co rtex・A73中, 

当然,由于Cortex—A73的解码发射 

表示他们花费了很多时间来优化指 

宽度降低至双发射,因此在某些情 

况下相比三发射A ̄Cortex—A72,性能 

个ALU做乘法时,另一个可以做除 令缓存的性能和功耗。其中一个例 

法,但是乘法累积则需要两个ALU同 子是访问缓存的方式,如果正在执 

时出现。在Cortex-A72上。乘法累积 

行的一个访问请求实际上是不需要 

可能有所下降,比如在Dhrystone这样 

偏重于微观角度的测试软件中。但是 

ARM宣称Cortex-A73B ̄SPEC性能将和 

Co rtex A72相当,所以其性能还是值 

得期待。 

功耗方面,这也是CO rtex-A73 

的最大改进。A RM的数据表示 

Cortex-A73在整数、浮点和L2缓存复 

有专门的的单元操作,ALU ̄U可以解 传递数据的,那么这个访问可以被 

放出来进行其他简单工作。实际上 终止,起到节约能源的作用。在L2方 

Cortex-A73的设计对一些并行计算和 面,ARM改善了CPU之间的资源共享 

杂项数据处理还是有意义的,尤其 

销量,每个CPU ̄B有自己单独的资源, 

是最大执行吞吐量已经翻倍的情况 单 ̄]gCPU数据流不会为其他CPU核 

下,效能会更为出色一些。 

心带来性能影响,因此并行计算时 

最后来看看存储方面。在数据 CPU性能不会发生损失。 

制方面都有了显著下降,综合下来相 

Sustaining High Memory Bandwidth 

0prJmized MainTL8 for performance 

I High Throughput Memo ̄ Y 

FulI Ou of-order dual-issue load,store 

PlainTLB prefe ̄cherforlargeworkload streaming 

H曲er issuig nnte t。memory systern 

2 simuita ̄neous P ̄eTrebleWalks 

Abilityto h inTLB durig PTW n

J ・VIPT Data Cache to increase performance 

1.2 cache oprJmisations 

I 

1 

。Allowsfor 64kB data cache 

-Index roll,sig nsuppo ̄t。mimmi=e software 

manN ̄ement  ̄ustain parallel St ̄&ms with no performance loss or f

better multi.core performance scaling 

Decorrdated Cachemble and No Cacheable accesses 

Enhanced arbitration for interleavig^ccesses n

Impm ̄d and smai ̄c cache m幽cement potlcy 

} 

ARM l 

! 

j 

StOre Bufferoptimisedforwrite streams 

。Enhanced LI and 1.2 auto-prefetching 

‘Aurora=tic complex P|nern detection 

A削H I 

●持久高技的内存带宽 

i 

一高吞吐率的内存系统 

一Tech 

 ̄Corltex・A72节约了大约20%的功耗。 

当然这里面还有一些硬件因素,比如 

时钟门控技术的更新、硬件控制电路 

的加强等。 

最后ARM还展示了新工艺下的 

位。目前华为麒麟960已经开始使用 构。高通有自己的Kyro,三星也研发出 

Cortex-A73架构,性能表现非常出色。 

了Mongoose。这些内核 ̄DCortex-A73有 

在1 6n m工艺下,麒麟960能够运行在 什么差别呢?孰优孰劣呢?未来我们 

2.3GHz,相信未来换用更先进的工艺 将进一步研究这些内容。并在合适的 

后,频率、性能还会进一步拔高。相 

时候和大家一起讨论。 

信接下来诸如高通、联发科等厂商也 总的来看,Cortex-A73基本实现 

的目的。在功耗、性能上实现了新的 

会快速跟上,在未来的新处理器中 7ARM改善移动SoC“可持续性能” 

Cortex—A73在面积方面的改善。ARM 

宣称在即将到来的1 0nm工艺下, 

Cortex—A73相比20nm的C0rtex-A57降 

低了大约70%的面积,相比16nm的 

使用Cortex-A73架构。 

现在还有一个新问题:依然有 平衡,法国索菲亚团队也证明了自己 

Co rtex-A73 ̄1]此优秀的公版架构存 的卓越和成功。从性能到性能功耗 

在,是否还有厂商会花大力气自研架 

比,ARM ̄U用Cortex-A73实现了自己 

Cortex-A72面积减少了46%。在相同的 

工艺下,相比cortex-A72降低25%的 

面积。另外,ARM还比较了目前比较 

流行的八核心Cortex—A53架构。ARM 

宣称在相同的面积下可以实现2个 

Cortex—A73搭配4个Cortex-A53,这样搭 

配的多核心性能能够提升30%,单核 

性能能够提高最多90%。 

构呢?我们看到苹果A系列soC自从 的改变。口 

Cortex-AgZ_后就再没有使用过公版架 

可以说,CO rtex-A73依靠和 

Cortex—A72相当甚至更强的性能,但 

是却更低的功耗、更高的性能功耗 

比成功站上了移动世界新王者的地 

一ARM宣称10nm FinFET 

工艺下.四核  ̄Cortex—A73 

的大小约为sff-方毫米.频 

率约为2 8GHz.比28nm下 

的双核  ̄2Cortex—A53还略 

小一些。 

一ARM给出的官方资料.详细介绍TCortex—A73的功耗和性能情况。 

o mp

引ute

月r 106 

2024年9月1日发(作者:多轩昂)

最近华为Mate 9以及其所采用的麒麟960处理器吸引了不少目光,其中后者的性能和功耗表现都令人满意。在它出色表现 

的背后,离不开Cortex-A73架构的支持。那么究竟Cortex-A73有哪些改善和进步?它 ̄Cortex-A72又有什么不同呢?今天本文 

就要带你一起深入了 ̄Cortex—A73。 

Cortex-A73,这个代号 Artemis” 

品发展史,让历史告诉我们答案。 

制于架构问题,除非工艺再次进化, 

否则很难有更进一步的改善。为了 

更清楚地解释这个结论,我们不妨 

的架构是ARM最新推出的处理器核 

心架构。从实际产品的角度来看, 

cortex_A73相比之前就已经比较成功 

 ̄Co rtex—A72而言,在性能和功耗表 

现上继续改善,尤其是性能功耗比有 的c0 rtex-A72在 性能和功耗上的表 

回头看—下ARM之前几款产品的发 

在Co rtex—A73出现之前,ARM 

展历史。 

对ARM架构发展历史比较熟悉 

ex-A72从 的用户应该还记得。Cortex—A9是一款 

极为显著的提升。那么,为什么ARH 

现已然比较出色了。但Cort

要在Cortex—A72发布后没多久就发布 Cortex-A57那里继承来的“问题”依 

非常成功的移动CPU架构,它在当时 

Cortex-A73呢?要了解这个问题,不妨 旧存在——它还是太 大”了一点。 

的制程下很好地平衡了功耗和 性能. 

研发,其中有名的处理器包括三星 

先来简单回顾—下ARM最近数年的产 Cortex-A72整体性能功耗比的表现受 相当一大批移动设备都基于Cortex-A9 

Exynos 4412、Exynos 4210以及TI OMAP 

4430/4460、英伟达Tegra 3等。 

。。。。。。。。。。。。 。。。。。。。。。。。。 。。。  。。。。。。。。。。。。。。。。。。。。—— 。。。。。。。。。。。。。。。。。—— 

High End:More Performance,More Efifciency 

7. 

 ,

1 

I Delivered single thread performance l 

・Pc on'、.n 两———————————1丽赢 3 

rte

x. A|

 

Cortex-A9的成功。让ARM在追求 

性能的道路上越走越远,并在不久 

之后推出了Cortex-A15。从性能角度 

ccele

rated g 

l 5‘ { -^t speed(wlth pr。ce.1 claCodex・A72 , .Il 

, 

来看c0rtex.A15的表现的确令人满意, 

要; 4 L 

哪 一 _ -De1.vered 

-A9 二 二 , :二二二:二’二 二 一一一 .

Co

rte

一一

喇2二1 。mWlunlt performance(iso-proces)t 

羔-A9 " ̄",.Co rt.ex-A/, 

Ⅲ^51lt ・2‘l1■■■■—●●■●

【叫…,I…5・ ■●——■—■■●

0 

口" 

¨nl1.-^’【乇…■■■●■■■_

O O1 0 2 

口 ・ 

O 3 0 4 O 5 0 6 0 7 

ARH 

●各个不同处理器架构的性能和性能功耗比情况 

● E1)Cint21…l恻试中对不同架构处理器每M 

性能的测试结果 

。Com

pu t

r 100 

应用与技术口 

 

它的IPc得到了显著提升。但随之而来 

果突然来袭的64位处理器。

的是更高的功耗和较低的性能功耗 

结果在当13 ̄,28n m/20n m工艺 

多厂商接纳并发布不少新品。从当时 

的状况来看。Co rtex・A17是比较符合 

当时的工艺发展的。市面上相应的产 

品有Rockchip RK3288、海思Hi3536,以 

及联发科 ̄gMT6595等。从一些测试 

结果来看,MT6595在当B,-CB,'9频率和 -

rtex-A57的性能功耗比非常 

比(当然也有受制于工艺的原因)。与 

下,Co 

此相应的是.基于Cortex-A15架构的初 

糟糕。在初步的尝试中,高功耗 

代S0C芯片。L ̄WExynos 5250 ̄DExynos 

等问题使得很多厂商不得不弃用 

5410在功耗方面表现不佳。 

Cortex—A57.包括华为麒麟930、联发 

在这种情况下,ARM设计出了创 

科Helio x10都 吏用了Cortex-A53。凡 

ex-A57 ̄g核心.比如骁 

新的bIg.LITTLE架构,希望通过高性能 

是使用了Cort

工艺下都给出了相当出色的性能、功 

耗表现,甚至超过了高通那颗著名 

的骁龙800处理器(当然也远胜骁龙 

810)。 

高功耗的大核心搭配高性能功耗比但 龙810或者骁龙808、Eynxos 5433等, 

是整体性能较差的小核心来提高系 

实际表现均相比前代产品有一定退 

统整体的性能功耗比,最终实现降低 步,尤其是在功耗效率方面甚至大 

功耗、延长设备使用时间的目的。big. 

幅度倒退。 

LITTLE的推出,很快得到了移动处理 

在这种情况下,ARM不得不继 

器厂商的欢迎,大量使用Cortex-A15搭 续修修补补,推出了更为重视性能 

配Cortex-A7的处理器出现,包括华为 功耗L ̄igCo rtex—A72核心,高通等 

麒麟92 f一-星的Exynos 5422。 

厂商则自行研发了Ky ro架构,不再 

 

ARM此时还没有深刻地认识到 

使用ARM能耗比较低的公版架构。

tex.A72的推出以及16nm/14nm等 

处理器的性能功耗比实际上是移 

Cor

动设备的核心竞争力,毕竟此时工 先进工艺的使用,才使得移动处理 

艺尚有更多潜力可挖。于是,ARM按 器摆脱了之前“大火炉”危机。 

Cortex—A17能够在工艺小幅度落 

后的情况下还提供更高的性能功耗 

比。显然这是一个不寻常的事件。事 

出反常必有妖。在这里,还需要梳理 

下多年来ARM这些处理器架构的 

来源,看看是否能找到一些苗头。 

从ARMBg发展历史中可以看出, 

ARM拥有多个cPu架构设计中心. 

面向不同的用户推出不同的架构家 

族。其中,位于美国德克萨斯州的 

奥斯丁设计团队发布了Cortex-A15、 

Cortex-A57、Cortex-A72,从本刊之前的 

部就班地发布了全新的ARMv8指令 

实际上.我们在讨论的时候, 

集,这是ARM第一个支持64位计算 忽略了两个重要的型号:Cortex—A12 

3Cortex-A17。其中前者是Cortex-A9 

的指令集,与此同时还有支持64位 

 ̄1

Bgc0 rteX-A57大核心和高效能的小 

的改进型产品,后者则是Cortex—A12 

核 ̄C Co rtex.A53。本来在ARM的计划 的深入改进型,原因是Cortex—A12不 

中,Co rtex.A57会用上16nm甚至更好 

支持当B, ̄ARM主推的b_g.LITTLE技 

rtex.A1 7支持了新技术并可以 

的工艺,不过苹果凭借Cyclone架构带 

术,Co 

 rtex—A7搭配成大小核心。按理 

来 ̄Ig64位A7处理器让业界风向为之 

 ̄0Co

转,大量厂商不得不在提前使用 

来说,如果苹果没有那么快推出64 

Cortex.A57 ̄0Cortex.A53来 抵抗”苹 

 ̄2_A7处理器,Co rtex—A17应该会被诸 

l}_ 

}: L上: 

I厂 _—1f一—■_]cot: 1 

] 

I 

篓 : { 

…… 4…∞々… …'0…∞ ……~……’∞ 

^“神 …cof c ‘ o鲫,圳 l 

●骁龙H1fl的离功耗得到了业内一致吐槽,甚至有媒体做出“火热的骁龙H ’对其进行讽刺 

■不同架构处理器性能功耗比和性能分布图 

101 翟 

一Tech 

介绍和实际架构来看,奥斯丁家族的 

架构具有一脉相承的特性。另外一 

个地方则是英国剑桥,ARM剑桥设计 

团队在这里设计了打造了著名Agd', 

核心产品,包括Cortex—A5、Cortex-A7 

 ̄DCortex-A53。最后一个地方就没那 

么有名了一位于法国的索菲亚・安 

迪波斯利,欧洲科技中心,推出了 

Cortex-A12、Cortex-A17 ̄DCortex-A73。 

时间。目前很多SoC芯片的峰值性能 

Cortex-A72是一个拥有超过15级流水 

表现都非常好,但是这些峰值『生能的 线、乱序执行能力的处理器。在指 

功耗表现甚至超过5W,而一些极端 

令端,Cortex-A72设计了一个128bit提 

S o C ̄U超过1 OW,这显然是一个完全 取单元和一个三发射解码级。每个 

无法持续的状态,大部分手机在峰值 

周期将有最多3个指令被解码为uops 

性能下只能维持几分钟就必须降频 (微指令),然后将这些指令送入 

甚至关闭数个大核心,无法提供持续 Rename/Dispatch(重命名,调度)阶段, 

的性能输出。这样一来,更高性能产 

调度单元每个周期能够实现5个uops 

品存在的意义就被严重削弱了。尤其 

的调度.最终通过IsO单元派送7个队 

如果从血缘关系来看的话,索菲亚家 

族的处理器架构才是之前大获成功 

的Co ̄ex-A9的正统继承人。 

现在终于真相大白,Cortex-A73 

和之前的处理器都不太一样。ARH在 

是设备商为了更好看、更吸引人的设 

列并安排排序后Aguops进入8个执行 

计,还在努力将手机造得更加轻薄。 管道。在这8个执行管道中。有2个执 

所以让手机拥有高可持续性能就变 行诸如加法和位移这类基本操作的 

得极为重要,Cortex-A73的意义就在 

ALU(Simple Integer IOTl ̄Simple Integer 

于此,ARM通过这个全新的架构在 

l1),整数的乘法、除法和乘法累加运 

降低功耗、提升能耗效率和维持较 算有专门的多周期整数流水线(Multi 

高峰值性能的同时还能保持和之前 Cycle M),还有专门对AsIMD以jx ̄.:NENO 

Cortex-A72基本相当AgIPC。 

在解析Cortex-A73之前,我们先 

来回顾—下Cortex-A72的架构情况。 

这样浮点运算进行处理的两个管线 

(NENO/FP F0 ̄NENO/FP F1),还有单 

个分支监视器(Branch B)以及两个专 

Cortex—A9后数代产品都选择了奥斯 

丁家族,现在终于回到了索菲亚家 

族。下面我们就一起来看看,索菲亚 

家族A ̄Co rtex-A73优势在哪里,凭什 

么能压倒奥斯丁家族,被ARM选中而 

上位”。, 

__fc,、,‘,v j/\,-一二 73粱淘一一曲实 

凌童高匀皇 皇置童 专j :匕 西≥≥ 

j 

从上面的回顾中可以看到,ARH 

在处理器发展的过程中一度更为偏 

向性能,对功耗的重视程度并没有放 

在首要位置,尤其是在早期制程尚能 

”抵消”更大的核心带来的更高功耗 

时。不过现在这样的情况已经发生了 

变化(尤其是制程进步远没有之前 

那样容易),ARM不但更重视功耗, 

而且还提出了一种全新的 洼能考量 

方法,那就是”可持续性能”。 

所谓可持续性能,是指处理器 

在较高性能输出状态时所能持续的 

一(7ortex—A73,AI<M称之为能效最高的处理器。 

■('.ortex—A72架构图 ■Cortex A73架构图 

应用与技术一 

用的AGu读取和存储单元(AGU LD ̄E] 

行单兀中。 

AGU ST)。 

ARM依旧使用scu一致性单元来保证 

集群中核心之间的一致性。集群的 

包含式L2缓存最高可配置8M B(包括 

L1缓存的数据), ̄Cortex・A17一样, 

是Cortex-A72 ̄9两倍,当然大部分消 

费级产品最多配置1 H B或者2M BA' ̄L2 

缓存。 

附加功能方面,ACP的加速一致 

性端口是可选配置,移动设备一般 

再来看看Cortex・A73B ̄后端, 

再来看Cortex-A73。)),(,Cortex-A73 

它有两个F P流水线,这一设计也 

的架构图可以发现它 ̄[ICo rtex—A17 被Co rtex・A72借鉴学习并应用在自 

相似度非常高,这 ̄DCortex-A72三发 

己的架构中。其余部分C0 rtex-A73 

射设计架构完全不同。Co rtex—A73微 设计了一个分支检测器和两个AG U 

体系结构的特点在于流水线级数较 单元——但是每个AG U单元都可 

短,只有大约11—12级,较短的流水线 

以同时完成读写操作,而不是像 

主要来自于对整个流程的优化。与 

Cortex-A72那样只读或者只写。此外 

Coffex-A72在指令提取端的5级流水线 在整数执行部分。Cortex-A73设计了 

相比,Cortex-A73的指令提取端只有4 两个4级、较复杂的整数单元,其中 

级。更值得一提的是。Cortex-A73较短 

不会配备。ACP主要用于附加模块和 

CPU核心共同运作,同时也可以利用 

L2高速缓存。传统应用中往往和网 

个可以执行乘法,另一个可以执 

的指令解码端只有一级。这使得绝大 行整数除法,这两个都能够执行基 络相关,但在移动计算中这一点并不 

重要。反倒是ARM目前比较关注机器 

多数指令能够在一个周期内完成,而 

本的加法和位移操作。乘法累加不 

不是Cortex-A721 ̄三个周期。在指令 再使用专门的ALU,而需要这两个 

 

执行阶段,只有浮点指令需要额外增 

ALU通力合作。

学习和计算机视觉在未来的发展潜 

力,专门的加速器能够提高平台的 

加一个周期,也就是总计需要1 2级流 

就可以完成。 

对比Cortex-A73和C0rtex.A72大 

那样,Cortex-A73是一个充分优化管 

效能。 

由于Cortex-A733L要针对消费市 

场。因此它不支持AMBA 5 CHI标准,而 

是仅仅通过双向128bit的AMBA 4 ACE 

标准。相比之下,老标准抛弃了那些 

用不到的功能.为芯片节省了面积和 

晶体管,降低了复杂性。目前所有支 

水线,其余整数部分只需要1 1个周期 

相径庭的设计风格,正如ARM宣称的 

与Cortex_A17相比。C0rtex.A73将 

道、资源和接口的架构,它的目的是 

最大的指令调度能力),. ̄4uops提高到 

尽可能在最小的功耗下实现最佳的 

了6ops,FP解码端可以独立向IsQ单 性能。ARM还宣称它Yi]R'3AArch32 ̄1] 

元; ̄DNENO单元发出2uops ̄令,这和 AArch64 ARMv8做出了平衡,因此在 

Come.A17是一致的。但是整数部分却 执行不同命令时性能和功耗都不会 

从C0rtex_A仃的2uDps增加到了4uops, 

经过重命名,调度的指令进入指令排 

有太大的劣势。 

说完了核心,再来看看集群。 

持bIg.Lrr.rLE架构的soc都使用了ACE接 

口相连并保持一致性,比如CCI一400。 

此外,不针对工业应用标准的另一个 

序时。三个XsQ单元每个都可以派送2 Cortex—A73可以支持四核心配置.每 

个队列,从而进入后端的5个整数执 个集群能够容纳一个到四个核心, 

问题是无法提供L1缓存EI ̄ECC校验支 ,

持,但是L2可以完全实现这个功能, 

因此这也变得不是那么必要。 

Cortex—A73:Peak Performance,Best Efficiency 

103^, 。 

囵Tech 

(slot),每个槽可以独立处理指令端 

的所有资源。主要优点是每个”槽” 

可以通过小环路来检测之前”槽”的 

信息,这样能够消除对流水线指令端 

资源的冗余访问,实现最佳功耗比, 

并且每个”槽”都拥有大量资源以获 

的微指令有助于时钟频率,不过也 

保留站的整数部分可以向为ALU、AGU 

相应地减少了整体B ̄IPC。Cortex-A73 

和分支监视器设置B ̄IsQ单元发布队 

能够减少被分成 ̄uops数量,并且改 

列,最多分派4个uops(每个IsO最多接 

进了解码器性能。正如前文所说, 

Cortex-A73的解码器能够在一个时钟 

收2个)。 

寄存器方面,Cortex—A72以及前 

周期内完成大多数指令解码,而不是 代产品最重要的特点是使用物理寄 

之前Cortex—A72所需的3个周期。另外 

存器而不是在架构类型的,这样做 

由于为ASMID/NENO浮点管线增加了 的优点是重命名阶段会简化,并实现 

流水线级数,因JJ: ̄ARM为其配备了两 更高的性能、降低功耗。 ̄Cortex-A17 

个可以直接读,写I ̄AGU单元,实现效 

类似的是。这种做法允许一个理论 

率最大化。在指令分派端,Cortex-A73 

上无限乱序指令的窗口,虽然实际中 

得最佳性能。 

指令预取模块经过优化,提升 

了其最大吞吐量。其中一项优化是 

用于去除无用的 气泡”并可以获得 

更高A ̄IPC。所谓”气泡”,是指那些 

可能存在的危险导致流水线发生指 

令停滞或者延迟。在之前的微架构 

中,即使预测正确,并且指令端能够 

向解码端发送大量的指令。但一旦指 

令输入解码端并被分解成微操作的 

时候,就有很大可能遇到“气泡”。但 

是Cortex—A73的设计可以检测这种情 

况,并直接将微指令发送给解码端, 

导致ARM中几乎没有”气泡”出现,大 

大提高了效率。 

在分支预测方面,Cortex-A73使 

用了一种”体现最高水准”的分支预 

测器,实现了比较准确的分支预测。 

ARM宣称新架构拥有一个更大的BTlAC 

(分支目标地址缓存,Branch Target 

Address Cache),并引入了全新的64通 

路(entry)的“micro-BTAC”用于加速 

分支预测。不过,ARM没有公布更多 

的细节,只是含糊说新的分支预测 

设计能够预测几乎所有情况。对于 

那些发生了错误的预测,微架构设 

置了静态分支预测器和返回堆栈来 

进行处理。 

■高效率的双发射架构 

●离效能的数据优化路径 

A R M有信心在这种双发射的处 

理器上保持性能的同时提高效率。在 

电源管理方面,电源只对当前正在运 

行资源的逻辑有效。解码器在指令融 

合方面也提供了显著的改进。一般来 

State..of-the..Art Branch Prediction 

I 

More e仃icient branch predictor 

Larger BTAC structure.with optimized RAM 

organization 

{ 一卜 驾;篓 _j= 

、 

64 entry Micro-BTAC to accelerate bl anch 

prediction 

一 

I 

I 

说,常用习惯用法的指令融合处理对 

提高整体效能来说是非常重要的,但 

是检测它们却很困难。Cortex-A73能 

够通过检测之前的事件和整个管线 

的信息,来分辨出这些习惯用法。 

2-way X 256 entry Indiect rPredictor,accessed 

only when needed 

Return S=ck and Static Prediction to get 

emairning mispredictions at Iow power 

l 0£I_删 

I 霄" i 

ARM 1 

在解码端,将指令分解为更多 

Co mp ut

一体现最高木准的分支预测器 

_e1 104 

应用与技术 

依旧存在限制,但它消除了某些情况 

高速缓存地址转换上,Cortex-A73已 

下的指令窗口瓶颈。ARM甚至宣称这 经从物理索引物理标签(PIPT)切 

VIPT)。在 

种设计为“乱序微架构方法哲学层 

换至虚拟地址物理标签(

在读写方面,Cortex—A73的两个 

AG U读写单元,这个设计对提高系统 

效能起到了很明显的作用,尤其是存 

储系统。在内存带宽方面,Cortex-A73 

 ̄CTLB进行了改进。在之前的微架构 

中,当需要切换到主要TLBB ̄,数据集 

的存在会导致性能下降,Cortex-A73 

通过为TLB提供自己的预存器来解决 

了这个问题,即使对于数据集也能实 

现可持续的流式传输。 

面的变革”。另外,Cortex-A73还特别 

PIPT中,遇到的最大问题是地址转 

优化了从重命名阶段到IsQ阶段的资 

换产生索引,这是CPU核心的关键路 

源问题。IsQ阶段所使用的乱序执行 径数据。但是在VIPT中,这个问题不 

策略和方法对最终性能有很大影响, 

复存在,系统使用扩展 ̄64KB数据 

因此需要特别注意有关指令调度问 缓存(Cortex—A72 ̄Cortex—A17只允许 

题,比如队列的排序可以取决于很多 32KB),ARM宣称较大的缓存带来了 

种事件,举例来说当处在一个流式任 

4%的性能提升。另一点需要指出的 

务时,最好将所有的存储任务依次排 是,一般VIPT中车欠1牛需要处理重命名 

列,这样内存系统中将存在一个完整 的问题,但是ARM称Cortex-A73使用硬 

的缓存数据结构,以方便处理。 件完成了这一点。在硬件上,缓存实 

在架构上说了这么多,最终还是 

要落在实际的性能和功耗上来。ARM 

在数据端,Cortex-A73A, ̄NENO单 现的是4路关联性,但是在软件上则 

元基本还是继承自Cortex-A72,但依 看作PIPTA ̄8路32KB或者16路64KB, 

旧做出了不少改进。在Cortex・A73上, 

NENO ̄令级单元混杂了FP传输和FP 

这一点是非常特殊的。 

在缓存部分,Co rtex-A73 ̄L1缓 

给出了一些官方模拟的数据,展示 

Cortex-A73可以带来怎样的提升。ARM 

宣称Cortex-A73在BBench(网站加载基 

移动等功能,并且面积进行了一些 

存为4路设计且固定为64KB,这是对 

tex-A17上32KB/64KB可选配置 

优化,更小巧了。实际上,Cortex-A73 

之前Cor

准测试)、SIMD性能以及内存性能方 

面, ̄Cortex-A72有着5%一15%A ̄性能 

提升。 

和cortex—A72A ̄区别主要在于整数部 的升级,也多于Cortex-A72A ̄48KB。L1 

分,前者使用了一个复杂的、多周期 指令缓存的提升是Cortex—A73在性能 

ALU,而后者则使用了简单ALU。它们 上得到改善的一个关键性因素,ARM 

能力存在显著差异:Co rtex・A73中, 

当然,由于Cortex—A73的解码发射 

表示他们花费了很多时间来优化指 

宽度降低至双发射,因此在某些情 

况下相比三发射A ̄Cortex—A72,性能 

个ALU做乘法时,另一个可以做除 令缓存的性能和功耗。其中一个例 

法,但是乘法累积则需要两个ALU同 子是访问缓存的方式,如果正在执 

时出现。在Cortex-A72上。乘法累积 

行的一个访问请求实际上是不需要 

可能有所下降,比如在Dhrystone这样 

偏重于微观角度的测试软件中。但是 

ARM宣称Cortex-A73B ̄SPEC性能将和 

Co rtex A72相当,所以其性能还是值 

得期待。 

功耗方面,这也是CO rtex-A73 

的最大改进。A RM的数据表示 

Cortex-A73在整数、浮点和L2缓存复 

有专门的的单元操作,ALU ̄U可以解 传递数据的,那么这个访问可以被 

放出来进行其他简单工作。实际上 终止,起到节约能源的作用。在L2方 

Cortex-A73的设计对一些并行计算和 面,ARM改善了CPU之间的资源共享 

杂项数据处理还是有意义的,尤其 

销量,每个CPU ̄B有自己单独的资源, 

是最大执行吞吐量已经翻倍的情况 单 ̄]gCPU数据流不会为其他CPU核 

下,效能会更为出色一些。 

心带来性能影响,因此并行计算时 

最后来看看存储方面。在数据 CPU性能不会发生损失。 

制方面都有了显著下降,综合下来相 

Sustaining High Memory Bandwidth 

0prJmized MainTL8 for performance 

I High Throughput Memo ̄ Y 

FulI Ou of-order dual-issue load,store 

PlainTLB prefe ̄cherforlargeworkload streaming 

H曲er issuig nnte t。memory systern 

2 simuita ̄neous P ̄eTrebleWalks 

Abilityto h inTLB durig PTW n

J ・VIPT Data Cache to increase performance 

1.2 cache oprJmisations 

I 

1 

。Allowsfor 64kB data cache 

-Index roll,sig nsuppo ̄t。mimmi=e software 

manN ̄ement  ̄ustain parallel St ̄&ms with no performance loss or f

better multi.core performance scaling 

Decorrdated Cachemble and No Cacheable accesses 

Enhanced arbitration for interleavig^ccesses n

Impm ̄d and smai ̄c cache m幽cement potlcy 

} 

ARM l 

! 

j 

StOre Bufferoptimisedforwrite streams 

。Enhanced LI and 1.2 auto-prefetching 

‘Aurora=tic complex P|nern detection 

A削H I 

●持久高技的内存带宽 

i 

一高吞吐率的内存系统 

一Tech 

 ̄Corltex・A72节约了大约20%的功耗。 

当然这里面还有一些硬件因素,比如 

时钟门控技术的更新、硬件控制电路 

的加强等。 

最后ARM还展示了新工艺下的 

位。目前华为麒麟960已经开始使用 构。高通有自己的Kyro,三星也研发出 

Cortex-A73架构,性能表现非常出色。 

了Mongoose。这些内核 ̄DCortex-A73有 

在1 6n m工艺下,麒麟960能够运行在 什么差别呢?孰优孰劣呢?未来我们 

2.3GHz,相信未来换用更先进的工艺 将进一步研究这些内容。并在合适的 

后,频率、性能还会进一步拔高。相 

时候和大家一起讨论。 

信接下来诸如高通、联发科等厂商也 总的来看,Cortex-A73基本实现 

的目的。在功耗、性能上实现了新的 

会快速跟上,在未来的新处理器中 7ARM改善移动SoC“可持续性能” 

Cortex—A73在面积方面的改善。ARM 

宣称在即将到来的1 0nm工艺下, 

Cortex—A73相比20nm的C0rtex-A57降 

低了大约70%的面积,相比16nm的 

使用Cortex-A73架构。 

现在还有一个新问题:依然有 平衡,法国索菲亚团队也证明了自己 

Co rtex-A73 ̄1]此优秀的公版架构存 的卓越和成功。从性能到性能功耗 

在,是否还有厂商会花大力气自研架 

比,ARM ̄U用Cortex-A73实现了自己 

Cortex-A72面积减少了46%。在相同的 

工艺下,相比cortex-A72降低25%的 

面积。另外,ARM还比较了目前比较 

流行的八核心Cortex—A53架构。ARM 

宣称在相同的面积下可以实现2个 

Cortex—A73搭配4个Cortex-A53,这样搭 

配的多核心性能能够提升30%,单核 

性能能够提高最多90%。 

构呢?我们看到苹果A系列soC自从 的改变。口 

Cortex-AgZ_后就再没有使用过公版架 

可以说,CO rtex-A73依靠和 

Cortex—A72相当甚至更强的性能,但 

是却更低的功耗、更高的性能功耗 

比成功站上了移动世界新王者的地 

一ARM宣称10nm FinFET 

工艺下.四核  ̄Cortex—A73 

的大小约为sff-方毫米.频 

率约为2 8GHz.比28nm下 

的双核  ̄2Cortex—A53还略 

小一些。 

一ARM给出的官方资料.详细介绍TCortex—A73的功耗和性能情况。 

o mp

引ute

月r 106 

发布评论

评论列表 (0)

  1. 暂无评论