2024年9月1日发(作者:多轩昂)
最近华为Mate 9以及其所采用的麒麟960处理器吸引了不少目光,其中后者的性能和功耗表现都令人满意。在它出色表现
的背后,离不开Cortex-A73架构的支持。那么究竟Cortex-A73有哪些改善和进步?它 ̄Cortex-A72又有什么不同呢?今天本文
就要带你一起深入了 ̄Cortex—A73。
Cortex-A73,这个代号 Artemis”
品发展史,让历史告诉我们答案。
制于架构问题,除非工艺再次进化,
否则很难有更进一步的改善。为了
更清楚地解释这个结论,我们不妨
的架构是ARM最新推出的处理器核
心架构。从实际产品的角度来看,
cortex_A73相比之前就已经比较成功
 ̄Co rtex—A72而言,在性能和功耗表
现上继续改善,尤其是性能功耗比有 的c0 rtex-A72在 性能和功耗上的表
回头看—下ARM之前几款产品的发
在Co rtex—A73出现之前,ARM
展历史。
对ARM架构发展历史比较熟悉
ex-A72从 的用户应该还记得。Cortex—A9是一款
极为显著的提升。那么,为什么ARH
现已然比较出色了。但Cort
要在Cortex—A72发布后没多久就发布 Cortex-A57那里继承来的“问题”依
非常成功的移动CPU架构,它在当时
Cortex-A73呢?要了解这个问题,不妨 旧存在——它还是太 大”了一点。
的制程下很好地平衡了功耗和 性能.
研发,其中有名的处理器包括三星
先来简单回顾—下ARM最近数年的产 Cortex-A72整体性能功耗比的表现受 相当一大批移动设备都基于Cortex-A9
Exynos 4412、Exynos 4210以及TI OMAP
4430/4460、英伟达Tegra 3等。
。。。。。。。。。。。。 。。。。。。。。。。。。 。。。 。。。。。。。。。。。。。。。。。。。。—— 。。。。。。。。。。。。。。。。。——
High End:More Performance,More Efifciency
7.
,
1
h
I Delivered single thread performance l
・Pc on'、.n 两———————————1丽赢 3
rte
x. A|
,
,
Cortex-A9的成功。让ARM在追求
性能的道路上越走越远,并在不久
之后推出了Cortex-A15。从性能角度
A
ccele
rated g
l 5‘ { -^t speed(wlth pr。ce.1 claCodex・A72 , .Il
,
,
.
…
…
来看c0rtex.A15的表现的确令人满意,
要; 4 L
x
哪 一 _ -De1.vered
-A9 二 二 , :二二二:二’二 二 一一一 .
Co
rte
一一
—
t
喇2二1 。mWlunlt performance(iso-proces)t
羔-A9 " ̄",.Co rt.ex-A/,
 ̄
一
Ⅲ^51lt ・2‘l1■■■■—●●■●
【叫…,I…5・ ■●——■—■■●
0
口"
¨nl1.-^’【乇…■■■●■■■_
O O1 0 2
口 ・
O 3 0 4 O 5 0 6 0 7
ARH
●各个不同处理器架构的性能和性能功耗比情况
● E1)Cint21…l恻试中对不同架构处理器每M
性能的测试结果
。Com
pu t
e
.
、
.
r 100
应用与技术口
它的IPc得到了显著提升。但随之而来
果突然来袭的64位处理器。
的是更高的功耗和较低的性能功耗
结果在当13 ̄,28n m/20n m工艺
多厂商接纳并发布不少新品。从当时
的状况来看。Co rtex・A17是比较符合
当时的工艺发展的。市面上相应的产
品有Rockchip RK3288、海思Hi3536,以
及联发科 ̄gMT6595等。从一些测试
结果来看,MT6595在当B,-CB,'9频率和 -
rtex-A57的性能功耗比非常
比(当然也有受制于工艺的原因)。与
下,Co
此相应的是.基于Cortex-A15架构的初
糟糕。在初步的尝试中,高功耗
代S0C芯片。L ̄WExynos 5250 ̄DExynos
等问题使得很多厂商不得不弃用
5410在功耗方面表现不佳。
Cortex—A57.包括华为麒麟930、联发
在这种情况下,ARM设计出了创
科Helio x10都 吏用了Cortex-A53。凡
ex-A57 ̄g核心.比如骁
新的bIg.LITTLE架构,希望通过高性能
是使用了Cort
工艺下都给出了相当出色的性能、功
耗表现,甚至超过了高通那颗著名
的骁龙800处理器(当然也远胜骁龙
810)。
高功耗的大核心搭配高性能功耗比但 龙810或者骁龙808、Eynxos 5433等,
是整体性能较差的小核心来提高系
实际表现均相比前代产品有一定退
统整体的性能功耗比,最终实现降低 步,尤其是在功耗效率方面甚至大
功耗、延长设备使用时间的目的。big.
幅度倒退。
LITTLE的推出,很快得到了移动处理
在这种情况下,ARM不得不继
器厂商的欢迎,大量使用Cortex-A15搭 续修修补补,推出了更为重视性能
配Cortex-A7的处理器出现,包括华为 功耗L ̄igCo rtex—A72核心,高通等
麒麟92 f一-星的Exynos 5422。
厂商则自行研发了Ky ro架构,不再
ARM此时还没有深刻地认识到
使用ARM能耗比较低的公版架构。
tex.A72的推出以及16nm/14nm等
处理器的性能功耗比实际上是移
Cor
动设备的核心竞争力,毕竟此时工 先进工艺的使用,才使得移动处理
艺尚有更多潜力可挖。于是,ARM按 器摆脱了之前“大火炉”危机。
Cortex—A17能够在工艺小幅度落
后的情况下还提供更高的性能功耗
比。显然这是一个不寻常的事件。事
出反常必有妖。在这里,还需要梳理
—
下多年来ARM这些处理器架构的
来源,看看是否能找到一些苗头。
从ARMBg发展历史中可以看出,
ARM拥有多个cPu架构设计中心.
面向不同的用户推出不同的架构家
族。其中,位于美国德克萨斯州的
奥斯丁设计团队发布了Cortex-A15、
Cortex-A57、Cortex-A72,从本刊之前的
部就班地发布了全新的ARMv8指令
实际上.我们在讨论的时候,
集,这是ARM第一个支持64位计算 忽略了两个重要的型号:Cortex—A12
3Cortex-A17。其中前者是Cortex-A9
的指令集,与此同时还有支持64位
 ̄1
Bgc0 rteX-A57大核心和高效能的小
的改进型产品,后者则是Cortex—A12
核 ̄C Co rtex.A53。本来在ARM的计划 的深入改进型,原因是Cortex—A12不
中,Co rtex.A57会用上16nm甚至更好
支持当B, ̄ARM主推的b_g.LITTLE技
rtex.A1 7支持了新技术并可以
的工艺,不过苹果凭借Cyclone架构带
术,Co
rtex—A7搭配成大小核心。按理
来 ̄Ig64位A7处理器让业界风向为之
 ̄0Co
一
转,大量厂商不得不在提前使用
来说,如果苹果没有那么快推出64
Cortex.A57 ̄0Cortex.A53来 抵抗”苹
 ̄2_A7处理器,Co rtex—A17应该会被诸
l}_
}: L上:
I厂 _—1f一—■_]cot: 1
]
I
篓 : {
…… 4…∞々… …'0…∞ ……~……’∞
^“神 …cof c ‘ o鲫,圳 l
●骁龙H1fl的离功耗得到了业内一致吐槽,甚至有媒体做出“火热的骁龙H ’对其进行讽刺
■不同架构处理器性能功耗比和性能分布图
101 翟
一Tech
介绍和实际架构来看,奥斯丁家族的
架构具有一脉相承的特性。另外一
个地方则是英国剑桥,ARM剑桥设计
团队在这里设计了打造了著名Agd',
核心产品,包括Cortex—A5、Cortex-A7
 ̄DCortex-A53。最后一个地方就没那
么有名了一位于法国的索菲亚・安
迪波斯利,欧洲科技中心,推出了
Cortex-A12、Cortex-A17 ̄DCortex-A73。
时间。目前很多SoC芯片的峰值性能
Cortex-A72是一个拥有超过15级流水
表现都非常好,但是这些峰值『生能的 线、乱序执行能力的处理器。在指
功耗表现甚至超过5W,而一些极端
令端,Cortex-A72设计了一个128bit提
S o C ̄U超过1 OW,这显然是一个完全 取单元和一个三发射解码级。每个
无法持续的状态,大部分手机在峰值
周期将有最多3个指令被解码为uops
性能下只能维持几分钟就必须降频 (微指令),然后将这些指令送入
甚至关闭数个大核心,无法提供持续 Rename/Dispatch(重命名,调度)阶段,
的性能输出。这样一来,更高性能产
调度单元每个周期能够实现5个uops
品存在的意义就被严重削弱了。尤其
的调度.最终通过IsO单元派送7个队
如果从血缘关系来看的话,索菲亚家
族的处理器架构才是之前大获成功
的Co ̄ex-A9的正统继承人。
现在终于真相大白,Cortex-A73
和之前的处理器都不太一样。ARH在
是设备商为了更好看、更吸引人的设
列并安排排序后Aguops进入8个执行
计,还在努力将手机造得更加轻薄。 管道。在这8个执行管道中。有2个执
所以让手机拥有高可持续性能就变 行诸如加法和位移这类基本操作的
得极为重要,Cortex-A73的意义就在
ALU(Simple Integer IOTl ̄Simple Integer
于此,ARM通过这个全新的架构在
l1),整数的乘法、除法和乘法累加运
降低功耗、提升能耗效率和维持较 算有专门的多周期整数流水线(Multi
高峰值性能的同时还能保持和之前 Cycle M),还有专门对AsIMD以jx ̄.:NENO
Cortex-A72基本相当AgIPC。
在解析Cortex-A73之前,我们先
来回顾—下Cortex-A72的架构情况。
这样浮点运算进行处理的两个管线
(NENO/FP F0 ̄NENO/FP F1),还有单
个分支监视器(Branch B)以及两个专
Cortex—A9后数代产品都选择了奥斯
丁家族,现在终于回到了索菲亚家
族。下面我们就一起来看看,索菲亚
家族A ̄Co rtex-A73优势在哪里,凭什
么能压倒奥斯丁家族,被ARM选中而
上位”。,
__fc,、,‘,v j/\,-一二 73粱淘一一曲实
凌童高匀皇 皇置童 专j :匕 西≥≥
j
从上面的回顾中可以看到,ARH
在处理器发展的过程中一度更为偏
向性能,对功耗的重视程度并没有放
在首要位置,尤其是在早期制程尚能
”抵消”更大的核心带来的更高功耗
时。不过现在这样的情况已经发生了
变化(尤其是制程进步远没有之前
那样容易),ARM不但更重视功耗,
而且还提出了一种全新的 洼能考量
方法,那就是”可持续性能”。
所谓可持续性能,是指处理器
在较高性能输出状态时所能持续的
一(7ortex—A73,AI<M称之为能效最高的处理器。
■('.ortex—A72架构图 ■Cortex A73架构图
应用与技术一
用的AGu读取和存储单元(AGU LD ̄E]
行单兀中。
AGU ST)。
ARM依旧使用scu一致性单元来保证
集群中核心之间的一致性。集群的
包含式L2缓存最高可配置8M B(包括
L1缓存的数据), ̄Cortex・A17一样,
是Cortex-A72 ̄9两倍,当然大部分消
费级产品最多配置1 H B或者2M BA' ̄L2
缓存。
附加功能方面,ACP的加速一致
性端口是可选配置,移动设备一般
再来看看Cortex・A73B ̄后端,
再来看Cortex-A73。)),(,Cortex-A73
它有两个F P流水线,这一设计也
的架构图可以发现它 ̄[ICo rtex—A17 被Co rtex・A72借鉴学习并应用在自
相似度非常高,这 ̄DCortex-A72三发
己的架构中。其余部分C0 rtex-A73
射设计架构完全不同。Co rtex—A73微 设计了一个分支检测器和两个AG U
体系结构的特点在于流水线级数较 单元——但是每个AG U单元都可
短,只有大约11—12级,较短的流水线
以同时完成读写操作,而不是像
主要来自于对整个流程的优化。与
Cortex-A72那样只读或者只写。此外
Coffex-A72在指令提取端的5级流水线 在整数执行部分。Cortex-A73设计了
相比,Cortex-A73的指令提取端只有4 两个4级、较复杂的整数单元,其中
级。更值得一提的是。Cortex-A73较短
一
不会配备。ACP主要用于附加模块和
CPU核心共同运作,同时也可以利用
L2高速缓存。传统应用中往往和网
个可以执行乘法,另一个可以执
的指令解码端只有一级。这使得绝大 行整数除法,这两个都能够执行基 络相关,但在移动计算中这一点并不
重要。反倒是ARM目前比较关注机器
多数指令能够在一个周期内完成,而
本的加法和位移操作。乘法累加不
不是Cortex-A721 ̄三个周期。在指令 再使用专门的ALU,而需要这两个
执行阶段,只有浮点指令需要额外增
ALU通力合作。
学习和计算机视觉在未来的发展潜
力,专门的加速器能够提高平台的
加一个周期,也就是总计需要1 2级流
就可以完成。
对比Cortex-A73和C0rtex.A72大
那样,Cortex-A73是一个充分优化管
效能。
由于Cortex-A733L要针对消费市
场。因此它不支持AMBA 5 CHI标准,而
是仅仅通过双向128bit的AMBA 4 ACE
标准。相比之下,老标准抛弃了那些
用不到的功能.为芯片节省了面积和
晶体管,降低了复杂性。目前所有支
水线,其余整数部分只需要1 1个周期
相径庭的设计风格,正如ARM宣称的
与Cortex_A17相比。C0rtex.A73将
道、资源和接口的架构,它的目的是
最大的指令调度能力),. ̄4uops提高到
尽可能在最小的功耗下实现最佳的
了6ops,FP解码端可以独立向IsQ单 性能。ARM还宣称它Yi]R'3AArch32 ̄1]
元; ̄DNENO单元发出2uops ̄令,这和 AArch64 ARMv8做出了平衡,因此在
Come.A17是一致的。但是整数部分却 执行不同命令时性能和功耗都不会
从C0rtex_A仃的2uDps增加到了4uops,
经过重命名,调度的指令进入指令排
有太大的劣势。
说完了核心,再来看看集群。
持bIg.Lrr.rLE架构的soc都使用了ACE接
口相连并保持一致性,比如CCI一400。
此外,不针对工业应用标准的另一个
序时。三个XsQ单元每个都可以派送2 Cortex—A73可以支持四核心配置.每
个队列,从而进入后端的5个整数执 个集群能够容纳一个到四个核心,
问题是无法提供L1缓存EI ̄ECC校验支 ,
持,但是L2可以完全实现这个功能,
因此这也变得不是那么必要。
Cortex—A73:Peak Performance,Best Efficiency
103^, 。
囵Tech
(slot),每个槽可以独立处理指令端
的所有资源。主要优点是每个”槽”
可以通过小环路来检测之前”槽”的
信息,这样能够消除对流水线指令端
资源的冗余访问,实现最佳功耗比,
并且每个”槽”都拥有大量资源以获
的微指令有助于时钟频率,不过也
保留站的整数部分可以向为ALU、AGU
相应地减少了整体B ̄IPC。Cortex-A73
和分支监视器设置B ̄IsQ单元发布队
能够减少被分成 ̄uops数量,并且改
列,最多分派4个uops(每个IsO最多接
进了解码器性能。正如前文所说,
Cortex-A73的解码器能够在一个时钟
收2个)。
寄存器方面,Cortex—A72以及前
周期内完成大多数指令解码,而不是 代产品最重要的特点是使用物理寄
之前Cortex—A72所需的3个周期。另外
存器而不是在架构类型的,这样做
由于为ASMID/NENO浮点管线增加了 的优点是重命名阶段会简化,并实现
流水线级数,因JJ: ̄ARM为其配备了两 更高的性能、降低功耗。 ̄Cortex-A17
个可以直接读,写I ̄AGU单元,实现效
类似的是。这种做法允许一个理论
率最大化。在指令分派端,Cortex-A73
上无限乱序指令的窗口,虽然实际中
得最佳性能。
指令预取模块经过优化,提升
了其最大吞吐量。其中一项优化是
用于去除无用的 气泡”并可以获得
更高A ̄IPC。所谓”气泡”,是指那些
可能存在的危险导致流水线发生指
令停滞或者延迟。在之前的微架构
中,即使预测正确,并且指令端能够
向解码端发送大量的指令。但一旦指
令输入解码端并被分解成微操作的
时候,就有很大可能遇到“气泡”。但
是Cortex—A73的设计可以检测这种情
况,并直接将微指令发送给解码端,
导致ARM中几乎没有”气泡”出现,大
大提高了效率。
在分支预测方面,Cortex-A73使
用了一种”体现最高水准”的分支预
测器,实现了比较准确的分支预测。
ARM宣称新架构拥有一个更大的BTlAC
(分支目标地址缓存,Branch Target
Address Cache),并引入了全新的64通
路(entry)的“micro-BTAC”用于加速
分支预测。不过,ARM没有公布更多
的细节,只是含糊说新的分支预测
设计能够预测几乎所有情况。对于
那些发生了错误的预测,微架构设
置了静态分支预测器和返回堆栈来
进行处理。
■高效率的双发射架构
●离效能的数据优化路径
A R M有信心在这种双发射的处
理器上保持性能的同时提高效率。在
电源管理方面,电源只对当前正在运
行资源的逻辑有效。解码器在指令融
合方面也提供了显著的改进。一般来
State..of-the..Art Branch Prediction
・
I
More e仃icient branch predictor
・
Larger BTAC structure.with optimized RAM
organization
{ 一卜 驾;篓 _j=
、
・
64 entry Micro-BTAC to accelerate bl anch
prediction
一
I
I
说,常用习惯用法的指令融合处理对
・
提高整体效能来说是非常重要的,但
是检测它们却很困难。Cortex-A73能
够通过检测之前的事件和整个管线
的信息,来分辨出这些习惯用法。
-
2-way X 256 entry Indiect rPredictor,accessed
only when needed
Return S=ck and Static Prediction to get
emairning mispredictions at Iow power
l 0£I_删
I 霄" i
ARM 1
在解码端,将指令分解为更多
Co mp ut
+
一体现最高木准的分支预测器
_e1 104
应用与技术
依旧存在限制,但它消除了某些情况
高速缓存地址转换上,Cortex-A73已
下的指令窗口瓶颈。ARM甚至宣称这 经从物理索引物理标签(PIPT)切
VIPT)。在
种设计为“乱序微架构方法哲学层
换至虚拟地址物理标签(
在读写方面,Cortex—A73的两个
AG U读写单元,这个设计对提高系统
效能起到了很明显的作用,尤其是存
储系统。在内存带宽方面,Cortex-A73
 ̄CTLB进行了改进。在之前的微架构
中,当需要切换到主要TLBB ̄,数据集
的存在会导致性能下降,Cortex-A73
通过为TLB提供自己的预存器来解决
了这个问题,即使对于数据集也能实
现可持续的流式传输。
面的变革”。另外,Cortex-A73还特别
PIPT中,遇到的最大问题是地址转
优化了从重命名阶段到IsQ阶段的资
换产生索引,这是CPU核心的关键路
源问题。IsQ阶段所使用的乱序执行 径数据。但是在VIPT中,这个问题不
策略和方法对最终性能有很大影响,
复存在,系统使用扩展 ̄64KB数据
因此需要特别注意有关指令调度问 缓存(Cortex—A72 ̄Cortex—A17只允许
题,比如队列的排序可以取决于很多 32KB),ARM宣称较大的缓存带来了
种事件,举例来说当处在一个流式任
4%的性能提升。另一点需要指出的
务时,最好将所有的存储任务依次排 是,一般VIPT中车欠1牛需要处理重命名
列,这样内存系统中将存在一个完整 的问题,但是ARM称Cortex-A73使用硬
的缓存数据结构,以方便处理。 件完成了这一点。在硬件上,缓存实
在架构上说了这么多,最终还是
要落在实际的性能和功耗上来。ARM
在数据端,Cortex-A73A, ̄NENO单 现的是4路关联性,但是在软件上则
元基本还是继承自Cortex-A72,但依 看作PIPTA ̄8路32KB或者16路64KB,
旧做出了不少改进。在Cortex・A73上,
NENO ̄令级单元混杂了FP传输和FP
这一点是非常特殊的。
在缓存部分,Co rtex-A73 ̄L1缓
给出了一些官方模拟的数据,展示
Cortex-A73可以带来怎样的提升。ARM
宣称Cortex-A73在BBench(网站加载基
移动等功能,并且面积进行了一些
存为4路设计且固定为64KB,这是对
tex-A17上32KB/64KB可选配置
优化,更小巧了。实际上,Cortex-A73
之前Cor
准测试)、SIMD性能以及内存性能方
面, ̄Cortex-A72有着5%一15%A ̄性能
提升。
和cortex—A72A ̄区别主要在于整数部 的升级,也多于Cortex-A72A ̄48KB。L1
分,前者使用了一个复杂的、多周期 指令缓存的提升是Cortex—A73在性能
ALU,而后者则使用了简单ALU。它们 上得到改善的一个关键性因素,ARM
能力存在显著差异:Co rtex・A73中,
~
当然,由于Cortex—A73的解码发射
表示他们花费了很多时间来优化指
宽度降低至双发射,因此在某些情
况下相比三发射A ̄Cortex—A72,性能
个ALU做乘法时,另一个可以做除 令缓存的性能和功耗。其中一个例
法,但是乘法累积则需要两个ALU同 子是访问缓存的方式,如果正在执
时出现。在Cortex-A72上。乘法累积
行的一个访问请求实际上是不需要
可能有所下降,比如在Dhrystone这样
偏重于微观角度的测试软件中。但是
ARM宣称Cortex-A73B ̄SPEC性能将和
Co rtex A72相当,所以其性能还是值
得期待。
功耗方面,这也是CO rtex-A73
的最大改进。A RM的数据表示
Cortex-A73在整数、浮点和L2缓存复
有专门的的单元操作,ALU ̄U可以解 传递数据的,那么这个访问可以被
放出来进行其他简单工作。实际上 终止,起到节约能源的作用。在L2方
Cortex-A73的设计对一些并行计算和 面,ARM改善了CPU之间的资源共享
杂项数据处理还是有意义的,尤其
销量,每个CPU ̄B有自己单独的资源,
是最大执行吞吐量已经翻倍的情况 单 ̄]gCPU数据流不会为其他CPU核
下,效能会更为出色一些。
心带来性能影响,因此并行计算时
最后来看看存储方面。在数据 CPU性能不会发生损失。
制方面都有了显著下降,综合下来相
Sustaining High Memory Bandwidth
0prJmized MainTL8 for performance
・
I High Throughput Memo ̄ Y
・
FulI Ou of-order dual-issue load,store
・
PlainTLB prefe ̄cherforlargeworkload streaming
H曲er issuig nnte t。memory systern
。
2 simuita ̄neous P ̄eTrebleWalks
Abilityto h inTLB durig PTW n
・
J ・VIPT Data Cache to increase performance
1.2 cache oprJmisations
・
I
1
。Allowsfor 64kB data cache
-Index roll,sig nsuppo ̄t。mimmi=e software
manN ̄ement  ̄ustain parallel St ̄&ms with no performance loss or f
better multi.core performance scaling
Decorrdated Cachemble and No Cacheable accesses
Enhanced arbitration for interleavig^ccesses n
Impm ̄d and smai ̄c cache m幽cement potlcy
-
}
ARM l
!
j
StOre Bufferoptimisedforwrite streams
。Enhanced LI and 1.2 auto-prefetching
‘Aurora=tic complex P|nern detection
A削H I
・
・
●持久高技的内存带宽
i
一高吞吐率的内存系统
一Tech
 ̄Corltex・A72节约了大约20%的功耗。
当然这里面还有一些硬件因素,比如
时钟门控技术的更新、硬件控制电路
的加强等。
最后ARM还展示了新工艺下的
位。目前华为麒麟960已经开始使用 构。高通有自己的Kyro,三星也研发出
Cortex-A73架构,性能表现非常出色。
了Mongoose。这些内核 ̄DCortex-A73有
在1 6n m工艺下,麒麟960能够运行在 什么差别呢?孰优孰劣呢?未来我们
2.3GHz,相信未来换用更先进的工艺 将进一步研究这些内容。并在合适的
后,频率、性能还会进一步拔高。相
时候和大家一起讨论。
信接下来诸如高通、联发科等厂商也 总的来看,Cortex-A73基本实现
的目的。在功耗、性能上实现了新的
会快速跟上,在未来的新处理器中 7ARM改善移动SoC“可持续性能”
Cortex—A73在面积方面的改善。ARM
宣称在即将到来的1 0nm工艺下,
Cortex—A73相比20nm的C0rtex-A57降
低了大约70%的面积,相比16nm的
使用Cortex-A73架构。
现在还有一个新问题:依然有 平衡,法国索菲亚团队也证明了自己
Co rtex-A73 ̄1]此优秀的公版架构存 的卓越和成功。从性能到性能功耗
在,是否还有厂商会花大力气自研架
比,ARM ̄U用Cortex-A73实现了自己
Cortex-A72面积减少了46%。在相同的
工艺下,相比cortex-A72降低25%的
面积。另外,ARM还比较了目前比较
流行的八核心Cortex—A53架构。ARM
宣称在相同的面积下可以实现2个
Cortex—A73搭配4个Cortex-A53,这样搭
配的多核心性能能够提升30%,单核
性能能够提高最多90%。
构呢?我们看到苹果A系列soC自从 的改变。口
Cortex-AgZ_后就再没有使用过公版架
J
可以说,CO rtex-A73依靠和
Cortex—A72相当甚至更强的性能,但
是却更低的功耗、更高的性能功耗
比成功站上了移动世界新王者的地
一ARM宣称10nm FinFET
工艺下.四核  ̄Cortex—A73
的大小约为sff-方毫米.频
率约为2 8GHz.比28nm下
的双核  ̄2Cortex—A53还略
小一些。
一ARM给出的官方资料.详细介绍TCortex—A73的功耗和性能情况。
C
o mp
引ute
2
月r 106
2024年9月1日发(作者:多轩昂)
最近华为Mate 9以及其所采用的麒麟960处理器吸引了不少目光,其中后者的性能和功耗表现都令人满意。在它出色表现
的背后,离不开Cortex-A73架构的支持。那么究竟Cortex-A73有哪些改善和进步?它 ̄Cortex-A72又有什么不同呢?今天本文
就要带你一起深入了 ̄Cortex—A73。
Cortex-A73,这个代号 Artemis”
品发展史,让历史告诉我们答案。
制于架构问题,除非工艺再次进化,
否则很难有更进一步的改善。为了
更清楚地解释这个结论,我们不妨
的架构是ARM最新推出的处理器核
心架构。从实际产品的角度来看,
cortex_A73相比之前就已经比较成功
 ̄Co rtex—A72而言,在性能和功耗表
现上继续改善,尤其是性能功耗比有 的c0 rtex-A72在 性能和功耗上的表
回头看—下ARM之前几款产品的发
在Co rtex—A73出现之前,ARM
展历史。
对ARM架构发展历史比较熟悉
ex-A72从 的用户应该还记得。Cortex—A9是一款
极为显著的提升。那么,为什么ARH
现已然比较出色了。但Cort
要在Cortex—A72发布后没多久就发布 Cortex-A57那里继承来的“问题”依
非常成功的移动CPU架构,它在当时
Cortex-A73呢?要了解这个问题,不妨 旧存在——它还是太 大”了一点。
的制程下很好地平衡了功耗和 性能.
研发,其中有名的处理器包括三星
先来简单回顾—下ARM最近数年的产 Cortex-A72整体性能功耗比的表现受 相当一大批移动设备都基于Cortex-A9
Exynos 4412、Exynos 4210以及TI OMAP
4430/4460、英伟达Tegra 3等。
。。。。。。。。。。。。 。。。。。。。。。。。。 。。。 。。。。。。。。。。。。。。。。。。。。—— 。。。。。。。。。。。。。。。。。——
High End:More Performance,More Efifciency
7.
,
1
h
I Delivered single thread performance l
・Pc on'、.n 两———————————1丽赢 3
rte
x. A|
,
,
Cortex-A9的成功。让ARM在追求
性能的道路上越走越远,并在不久
之后推出了Cortex-A15。从性能角度
A
ccele
rated g
l 5‘ { -^t speed(wlth pr。ce.1 claCodex・A72 , .Il
,
,
.
…
…
来看c0rtex.A15的表现的确令人满意,
要; 4 L
x
哪 一 _ -De1.vered
-A9 二 二 , :二二二:二’二 二 一一一 .
Co
rte
一一
—
t
喇2二1 。mWlunlt performance(iso-proces)t
羔-A9 " ̄",.Co rt.ex-A/,
 ̄
一
Ⅲ^51lt ・2‘l1■■■■—●●■●
【叫…,I…5・ ■●——■—■■●
0
口"
¨nl1.-^’【乇…■■■●■■■_
O O1 0 2
口 ・
O 3 0 4 O 5 0 6 0 7
ARH
●各个不同处理器架构的性能和性能功耗比情况
● E1)Cint21…l恻试中对不同架构处理器每M
性能的测试结果
。Com
pu t
e
.
、
.
r 100
应用与技术口
它的IPc得到了显著提升。但随之而来
果突然来袭的64位处理器。
的是更高的功耗和较低的性能功耗
结果在当13 ̄,28n m/20n m工艺
多厂商接纳并发布不少新品。从当时
的状况来看。Co rtex・A17是比较符合
当时的工艺发展的。市面上相应的产
品有Rockchip RK3288、海思Hi3536,以
及联发科 ̄gMT6595等。从一些测试
结果来看,MT6595在当B,-CB,'9频率和 -
rtex-A57的性能功耗比非常
比(当然也有受制于工艺的原因)。与
下,Co
此相应的是.基于Cortex-A15架构的初
糟糕。在初步的尝试中,高功耗
代S0C芯片。L ̄WExynos 5250 ̄DExynos
等问题使得很多厂商不得不弃用
5410在功耗方面表现不佳。
Cortex—A57.包括华为麒麟930、联发
在这种情况下,ARM设计出了创
科Helio x10都 吏用了Cortex-A53。凡
ex-A57 ̄g核心.比如骁
新的bIg.LITTLE架构,希望通过高性能
是使用了Cort
工艺下都给出了相当出色的性能、功
耗表现,甚至超过了高通那颗著名
的骁龙800处理器(当然也远胜骁龙
810)。
高功耗的大核心搭配高性能功耗比但 龙810或者骁龙808、Eynxos 5433等,
是整体性能较差的小核心来提高系
实际表现均相比前代产品有一定退
统整体的性能功耗比,最终实现降低 步,尤其是在功耗效率方面甚至大
功耗、延长设备使用时间的目的。big.
幅度倒退。
LITTLE的推出,很快得到了移动处理
在这种情况下,ARM不得不继
器厂商的欢迎,大量使用Cortex-A15搭 续修修补补,推出了更为重视性能
配Cortex-A7的处理器出现,包括华为 功耗L ̄igCo rtex—A72核心,高通等
麒麟92 f一-星的Exynos 5422。
厂商则自行研发了Ky ro架构,不再
ARM此时还没有深刻地认识到
使用ARM能耗比较低的公版架构。
tex.A72的推出以及16nm/14nm等
处理器的性能功耗比实际上是移
Cor
动设备的核心竞争力,毕竟此时工 先进工艺的使用,才使得移动处理
艺尚有更多潜力可挖。于是,ARM按 器摆脱了之前“大火炉”危机。
Cortex—A17能够在工艺小幅度落
后的情况下还提供更高的性能功耗
比。显然这是一个不寻常的事件。事
出反常必有妖。在这里,还需要梳理
—
下多年来ARM这些处理器架构的
来源,看看是否能找到一些苗头。
从ARMBg发展历史中可以看出,
ARM拥有多个cPu架构设计中心.
面向不同的用户推出不同的架构家
族。其中,位于美国德克萨斯州的
奥斯丁设计团队发布了Cortex-A15、
Cortex-A57、Cortex-A72,从本刊之前的
部就班地发布了全新的ARMv8指令
实际上.我们在讨论的时候,
集,这是ARM第一个支持64位计算 忽略了两个重要的型号:Cortex—A12
3Cortex-A17。其中前者是Cortex-A9
的指令集,与此同时还有支持64位
 ̄1
Bgc0 rteX-A57大核心和高效能的小
的改进型产品,后者则是Cortex—A12
核 ̄C Co rtex.A53。本来在ARM的计划 的深入改进型,原因是Cortex—A12不
中,Co rtex.A57会用上16nm甚至更好
支持当B, ̄ARM主推的b_g.LITTLE技
rtex.A1 7支持了新技术并可以
的工艺,不过苹果凭借Cyclone架构带
术,Co
rtex—A7搭配成大小核心。按理
来 ̄Ig64位A7处理器让业界风向为之
 ̄0Co
一
转,大量厂商不得不在提前使用
来说,如果苹果没有那么快推出64
Cortex.A57 ̄0Cortex.A53来 抵抗”苹
 ̄2_A7处理器,Co rtex—A17应该会被诸
l}_
}: L上:
I厂 _—1f一—■_]cot: 1
]
I
篓 : {
…… 4…∞々… …'0…∞ ……~……’∞
^“神 …cof c ‘ o鲫,圳 l
●骁龙H1fl的离功耗得到了业内一致吐槽,甚至有媒体做出“火热的骁龙H ’对其进行讽刺
■不同架构处理器性能功耗比和性能分布图
101 翟
一Tech
介绍和实际架构来看,奥斯丁家族的
架构具有一脉相承的特性。另外一
个地方则是英国剑桥,ARM剑桥设计
团队在这里设计了打造了著名Agd',
核心产品,包括Cortex—A5、Cortex-A7
 ̄DCortex-A53。最后一个地方就没那
么有名了一位于法国的索菲亚・安
迪波斯利,欧洲科技中心,推出了
Cortex-A12、Cortex-A17 ̄DCortex-A73。
时间。目前很多SoC芯片的峰值性能
Cortex-A72是一个拥有超过15级流水
表现都非常好,但是这些峰值『生能的 线、乱序执行能力的处理器。在指
功耗表现甚至超过5W,而一些极端
令端,Cortex-A72设计了一个128bit提
S o C ̄U超过1 OW,这显然是一个完全 取单元和一个三发射解码级。每个
无法持续的状态,大部分手机在峰值
周期将有最多3个指令被解码为uops
性能下只能维持几分钟就必须降频 (微指令),然后将这些指令送入
甚至关闭数个大核心,无法提供持续 Rename/Dispatch(重命名,调度)阶段,
的性能输出。这样一来,更高性能产
调度单元每个周期能够实现5个uops
品存在的意义就被严重削弱了。尤其
的调度.最终通过IsO单元派送7个队
如果从血缘关系来看的话,索菲亚家
族的处理器架构才是之前大获成功
的Co ̄ex-A9的正统继承人。
现在终于真相大白,Cortex-A73
和之前的处理器都不太一样。ARH在
是设备商为了更好看、更吸引人的设
列并安排排序后Aguops进入8个执行
计,还在努力将手机造得更加轻薄。 管道。在这8个执行管道中。有2个执
所以让手机拥有高可持续性能就变 行诸如加法和位移这类基本操作的
得极为重要,Cortex-A73的意义就在
ALU(Simple Integer IOTl ̄Simple Integer
于此,ARM通过这个全新的架构在
l1),整数的乘法、除法和乘法累加运
降低功耗、提升能耗效率和维持较 算有专门的多周期整数流水线(Multi
高峰值性能的同时还能保持和之前 Cycle M),还有专门对AsIMD以jx ̄.:NENO
Cortex-A72基本相当AgIPC。
在解析Cortex-A73之前,我们先
来回顾—下Cortex-A72的架构情况。
这样浮点运算进行处理的两个管线
(NENO/FP F0 ̄NENO/FP F1),还有单
个分支监视器(Branch B)以及两个专
Cortex—A9后数代产品都选择了奥斯
丁家族,现在终于回到了索菲亚家
族。下面我们就一起来看看,索菲亚
家族A ̄Co rtex-A73优势在哪里,凭什
么能压倒奥斯丁家族,被ARM选中而
上位”。,
__fc,、,‘,v j/\,-一二 73粱淘一一曲实
凌童高匀皇 皇置童 专j :匕 西≥≥
j
从上面的回顾中可以看到,ARH
在处理器发展的过程中一度更为偏
向性能,对功耗的重视程度并没有放
在首要位置,尤其是在早期制程尚能
”抵消”更大的核心带来的更高功耗
时。不过现在这样的情况已经发生了
变化(尤其是制程进步远没有之前
那样容易),ARM不但更重视功耗,
而且还提出了一种全新的 洼能考量
方法,那就是”可持续性能”。
所谓可持续性能,是指处理器
在较高性能输出状态时所能持续的
一(7ortex—A73,AI<M称之为能效最高的处理器。
■('.ortex—A72架构图 ■Cortex A73架构图
应用与技术一
用的AGu读取和存储单元(AGU LD ̄E]
行单兀中。
AGU ST)。
ARM依旧使用scu一致性单元来保证
集群中核心之间的一致性。集群的
包含式L2缓存最高可配置8M B(包括
L1缓存的数据), ̄Cortex・A17一样,
是Cortex-A72 ̄9两倍,当然大部分消
费级产品最多配置1 H B或者2M BA' ̄L2
缓存。
附加功能方面,ACP的加速一致
性端口是可选配置,移动设备一般
再来看看Cortex・A73B ̄后端,
再来看Cortex-A73。)),(,Cortex-A73
它有两个F P流水线,这一设计也
的架构图可以发现它 ̄[ICo rtex—A17 被Co rtex・A72借鉴学习并应用在自
相似度非常高,这 ̄DCortex-A72三发
己的架构中。其余部分C0 rtex-A73
射设计架构完全不同。Co rtex—A73微 设计了一个分支检测器和两个AG U
体系结构的特点在于流水线级数较 单元——但是每个AG U单元都可
短,只有大约11—12级,较短的流水线
以同时完成读写操作,而不是像
主要来自于对整个流程的优化。与
Cortex-A72那样只读或者只写。此外
Coffex-A72在指令提取端的5级流水线 在整数执行部分。Cortex-A73设计了
相比,Cortex-A73的指令提取端只有4 两个4级、较复杂的整数单元,其中
级。更值得一提的是。Cortex-A73较短
一
不会配备。ACP主要用于附加模块和
CPU核心共同运作,同时也可以利用
L2高速缓存。传统应用中往往和网
个可以执行乘法,另一个可以执
的指令解码端只有一级。这使得绝大 行整数除法,这两个都能够执行基 络相关,但在移动计算中这一点并不
重要。反倒是ARM目前比较关注机器
多数指令能够在一个周期内完成,而
本的加法和位移操作。乘法累加不
不是Cortex-A721 ̄三个周期。在指令 再使用专门的ALU,而需要这两个
执行阶段,只有浮点指令需要额外增
ALU通力合作。
学习和计算机视觉在未来的发展潜
力,专门的加速器能够提高平台的
加一个周期,也就是总计需要1 2级流
就可以完成。
对比Cortex-A73和C0rtex.A72大
那样,Cortex-A73是一个充分优化管
效能。
由于Cortex-A733L要针对消费市
场。因此它不支持AMBA 5 CHI标准,而
是仅仅通过双向128bit的AMBA 4 ACE
标准。相比之下,老标准抛弃了那些
用不到的功能.为芯片节省了面积和
晶体管,降低了复杂性。目前所有支
水线,其余整数部分只需要1 1个周期
相径庭的设计风格,正如ARM宣称的
与Cortex_A17相比。C0rtex.A73将
道、资源和接口的架构,它的目的是
最大的指令调度能力),. ̄4uops提高到
尽可能在最小的功耗下实现最佳的
了6ops,FP解码端可以独立向IsQ单 性能。ARM还宣称它Yi]R'3AArch32 ̄1]
元; ̄DNENO单元发出2uops ̄令,这和 AArch64 ARMv8做出了平衡,因此在
Come.A17是一致的。但是整数部分却 执行不同命令时性能和功耗都不会
从C0rtex_A仃的2uDps增加到了4uops,
经过重命名,调度的指令进入指令排
有太大的劣势。
说完了核心,再来看看集群。
持bIg.Lrr.rLE架构的soc都使用了ACE接
口相连并保持一致性,比如CCI一400。
此外,不针对工业应用标准的另一个
序时。三个XsQ单元每个都可以派送2 Cortex—A73可以支持四核心配置.每
个队列,从而进入后端的5个整数执 个集群能够容纳一个到四个核心,
问题是无法提供L1缓存EI ̄ECC校验支 ,
持,但是L2可以完全实现这个功能,
因此这也变得不是那么必要。
Cortex—A73:Peak Performance,Best Efficiency
103^, 。
囵Tech
(slot),每个槽可以独立处理指令端
的所有资源。主要优点是每个”槽”
可以通过小环路来检测之前”槽”的
信息,这样能够消除对流水线指令端
资源的冗余访问,实现最佳功耗比,
并且每个”槽”都拥有大量资源以获
的微指令有助于时钟频率,不过也
保留站的整数部分可以向为ALU、AGU
相应地减少了整体B ̄IPC。Cortex-A73
和分支监视器设置B ̄IsQ单元发布队
能够减少被分成 ̄uops数量,并且改
列,最多分派4个uops(每个IsO最多接
进了解码器性能。正如前文所说,
Cortex-A73的解码器能够在一个时钟
收2个)。
寄存器方面,Cortex—A72以及前
周期内完成大多数指令解码,而不是 代产品最重要的特点是使用物理寄
之前Cortex—A72所需的3个周期。另外
存器而不是在架构类型的,这样做
由于为ASMID/NENO浮点管线增加了 的优点是重命名阶段会简化,并实现
流水线级数,因JJ: ̄ARM为其配备了两 更高的性能、降低功耗。 ̄Cortex-A17
个可以直接读,写I ̄AGU单元,实现效
类似的是。这种做法允许一个理论
率最大化。在指令分派端,Cortex-A73
上无限乱序指令的窗口,虽然实际中
得最佳性能。
指令预取模块经过优化,提升
了其最大吞吐量。其中一项优化是
用于去除无用的 气泡”并可以获得
更高A ̄IPC。所谓”气泡”,是指那些
可能存在的危险导致流水线发生指
令停滞或者延迟。在之前的微架构
中,即使预测正确,并且指令端能够
向解码端发送大量的指令。但一旦指
令输入解码端并被分解成微操作的
时候,就有很大可能遇到“气泡”。但
是Cortex—A73的设计可以检测这种情
况,并直接将微指令发送给解码端,
导致ARM中几乎没有”气泡”出现,大
大提高了效率。
在分支预测方面,Cortex-A73使
用了一种”体现最高水准”的分支预
测器,实现了比较准确的分支预测。
ARM宣称新架构拥有一个更大的BTlAC
(分支目标地址缓存,Branch Target
Address Cache),并引入了全新的64通
路(entry)的“micro-BTAC”用于加速
分支预测。不过,ARM没有公布更多
的细节,只是含糊说新的分支预测
设计能够预测几乎所有情况。对于
那些发生了错误的预测,微架构设
置了静态分支预测器和返回堆栈来
进行处理。
■高效率的双发射架构
●离效能的数据优化路径
A R M有信心在这种双发射的处
理器上保持性能的同时提高效率。在
电源管理方面,电源只对当前正在运
行资源的逻辑有效。解码器在指令融
合方面也提供了显著的改进。一般来
State..of-the..Art Branch Prediction
・
I
More e仃icient branch predictor
・
Larger BTAC structure.with optimized RAM
organization
{ 一卜 驾;篓 _j=
、
・
64 entry Micro-BTAC to accelerate bl anch
prediction
一
I
I
说,常用习惯用法的指令融合处理对
・
提高整体效能来说是非常重要的,但
是检测它们却很困难。Cortex-A73能
够通过检测之前的事件和整个管线
的信息,来分辨出这些习惯用法。
-
2-way X 256 entry Indiect rPredictor,accessed
only when needed
Return S=ck and Static Prediction to get
emairning mispredictions at Iow power
l 0£I_删
I 霄" i
ARM 1
在解码端,将指令分解为更多
Co mp ut
+
一体现最高木准的分支预测器
_e1 104
应用与技术
依旧存在限制,但它消除了某些情况
高速缓存地址转换上,Cortex-A73已
下的指令窗口瓶颈。ARM甚至宣称这 经从物理索引物理标签(PIPT)切
VIPT)。在
种设计为“乱序微架构方法哲学层
换至虚拟地址物理标签(
在读写方面,Cortex—A73的两个
AG U读写单元,这个设计对提高系统
效能起到了很明显的作用,尤其是存
储系统。在内存带宽方面,Cortex-A73
 ̄CTLB进行了改进。在之前的微架构
中,当需要切换到主要TLBB ̄,数据集
的存在会导致性能下降,Cortex-A73
通过为TLB提供自己的预存器来解决
了这个问题,即使对于数据集也能实
现可持续的流式传输。
面的变革”。另外,Cortex-A73还特别
PIPT中,遇到的最大问题是地址转
优化了从重命名阶段到IsQ阶段的资
换产生索引,这是CPU核心的关键路
源问题。IsQ阶段所使用的乱序执行 径数据。但是在VIPT中,这个问题不
策略和方法对最终性能有很大影响,
复存在,系统使用扩展 ̄64KB数据
因此需要特别注意有关指令调度问 缓存(Cortex—A72 ̄Cortex—A17只允许
题,比如队列的排序可以取决于很多 32KB),ARM宣称较大的缓存带来了
种事件,举例来说当处在一个流式任
4%的性能提升。另一点需要指出的
务时,最好将所有的存储任务依次排 是,一般VIPT中车欠1牛需要处理重命名
列,这样内存系统中将存在一个完整 的问题,但是ARM称Cortex-A73使用硬
的缓存数据结构,以方便处理。 件完成了这一点。在硬件上,缓存实
在架构上说了这么多,最终还是
要落在实际的性能和功耗上来。ARM
在数据端,Cortex-A73A, ̄NENO单 现的是4路关联性,但是在软件上则
元基本还是继承自Cortex-A72,但依 看作PIPTA ̄8路32KB或者16路64KB,
旧做出了不少改进。在Cortex・A73上,
NENO ̄令级单元混杂了FP传输和FP
这一点是非常特殊的。
在缓存部分,Co rtex-A73 ̄L1缓
给出了一些官方模拟的数据,展示
Cortex-A73可以带来怎样的提升。ARM
宣称Cortex-A73在BBench(网站加载基
移动等功能,并且面积进行了一些
存为4路设计且固定为64KB,这是对
tex-A17上32KB/64KB可选配置
优化,更小巧了。实际上,Cortex-A73
之前Cor
准测试)、SIMD性能以及内存性能方
面, ̄Cortex-A72有着5%一15%A ̄性能
提升。
和cortex—A72A ̄区别主要在于整数部 的升级,也多于Cortex-A72A ̄48KB。L1
分,前者使用了一个复杂的、多周期 指令缓存的提升是Cortex—A73在性能
ALU,而后者则使用了简单ALU。它们 上得到改善的一个关键性因素,ARM
能力存在显著差异:Co rtex・A73中,
~
当然,由于Cortex—A73的解码发射
表示他们花费了很多时间来优化指
宽度降低至双发射,因此在某些情
况下相比三发射A ̄Cortex—A72,性能
个ALU做乘法时,另一个可以做除 令缓存的性能和功耗。其中一个例
法,但是乘法累积则需要两个ALU同 子是访问缓存的方式,如果正在执
时出现。在Cortex-A72上。乘法累积
行的一个访问请求实际上是不需要
可能有所下降,比如在Dhrystone这样
偏重于微观角度的测试软件中。但是
ARM宣称Cortex-A73B ̄SPEC性能将和
Co rtex A72相当,所以其性能还是值
得期待。
功耗方面,这也是CO rtex-A73
的最大改进。A RM的数据表示
Cortex-A73在整数、浮点和L2缓存复
有专门的的单元操作,ALU ̄U可以解 传递数据的,那么这个访问可以被
放出来进行其他简单工作。实际上 终止,起到节约能源的作用。在L2方
Cortex-A73的设计对一些并行计算和 面,ARM改善了CPU之间的资源共享
杂项数据处理还是有意义的,尤其
销量,每个CPU ̄B有自己单独的资源,
是最大执行吞吐量已经翻倍的情况 单 ̄]gCPU数据流不会为其他CPU核
下,效能会更为出色一些。
心带来性能影响,因此并行计算时
最后来看看存储方面。在数据 CPU性能不会发生损失。
制方面都有了显著下降,综合下来相
Sustaining High Memory Bandwidth
0prJmized MainTL8 for performance
・
I High Throughput Memo ̄ Y
・
FulI Ou of-order dual-issue load,store
・
PlainTLB prefe ̄cherforlargeworkload streaming
H曲er issuig nnte t。memory systern
。
2 simuita ̄neous P ̄eTrebleWalks
Abilityto h inTLB durig PTW n
・
J ・VIPT Data Cache to increase performance
1.2 cache oprJmisations
・
I
1
。Allowsfor 64kB data cache
-Index roll,sig nsuppo ̄t。mimmi=e software
manN ̄ement  ̄ustain parallel St ̄&ms with no performance loss or f
better multi.core performance scaling
Decorrdated Cachemble and No Cacheable accesses
Enhanced arbitration for interleavig^ccesses n
Impm ̄d and smai ̄c cache m幽cement potlcy
-
}
ARM l
!
j
StOre Bufferoptimisedforwrite streams
。Enhanced LI and 1.2 auto-prefetching
‘Aurora=tic complex P|nern detection
A削H I
・
・
●持久高技的内存带宽
i
一高吞吐率的内存系统
一Tech
 ̄Corltex・A72节约了大约20%的功耗。
当然这里面还有一些硬件因素,比如
时钟门控技术的更新、硬件控制电路
的加强等。
最后ARM还展示了新工艺下的
位。目前华为麒麟960已经开始使用 构。高通有自己的Kyro,三星也研发出
Cortex-A73架构,性能表现非常出色。
了Mongoose。这些内核 ̄DCortex-A73有
在1 6n m工艺下,麒麟960能够运行在 什么差别呢?孰优孰劣呢?未来我们
2.3GHz,相信未来换用更先进的工艺 将进一步研究这些内容。并在合适的
后,频率、性能还会进一步拔高。相
时候和大家一起讨论。
信接下来诸如高通、联发科等厂商也 总的来看,Cortex-A73基本实现
的目的。在功耗、性能上实现了新的
会快速跟上,在未来的新处理器中 7ARM改善移动SoC“可持续性能”
Cortex—A73在面积方面的改善。ARM
宣称在即将到来的1 0nm工艺下,
Cortex—A73相比20nm的C0rtex-A57降
低了大约70%的面积,相比16nm的
使用Cortex-A73架构。
现在还有一个新问题:依然有 平衡,法国索菲亚团队也证明了自己
Co rtex-A73 ̄1]此优秀的公版架构存 的卓越和成功。从性能到性能功耗
在,是否还有厂商会花大力气自研架
比,ARM ̄U用Cortex-A73实现了自己
Cortex-A72面积减少了46%。在相同的
工艺下,相比cortex-A72降低25%的
面积。另外,ARM还比较了目前比较
流行的八核心Cortex—A53架构。ARM
宣称在相同的面积下可以实现2个
Cortex—A73搭配4个Cortex-A53,这样搭
配的多核心性能能够提升30%,单核
性能能够提高最多90%。
构呢?我们看到苹果A系列soC自从 的改变。口
Cortex-AgZ_后就再没有使用过公版架
J
可以说,CO rtex-A73依靠和
Cortex—A72相当甚至更强的性能,但
是却更低的功耗、更高的性能功耗
比成功站上了移动世界新王者的地
一ARM宣称10nm FinFET
工艺下.四核  ̄Cortex—A73
的大小约为sff-方毫米.频
率约为2 8GHz.比28nm下
的双核  ̄2Cortex—A53还略
小一些。
一ARM给出的官方资料.详细介绍TCortex—A73的功耗和性能情况。
C
o mp
引ute
2
月r 106