最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

ARM Cortex各系列处理器分类比较

IT圈 admin 24浏览 0评论

2024年3月21日发(作者:屈子美)

Cortex-M系列

M0

Cortex-M0是目前最小的ARM处理器,该处理器的芯片面积非常小,能耗极低,且编程所需

的代码占用量很少,这就使得开发人员可以直接跳过16位系统,以 接近8 位系统的成本

开销获取 32 位系统的性能。Cortex-M0 处理器超低的门数开销,使得它可以用在仿真和数

模混合设备中。

M0+

以Cortex-M0 处理器为基础,保留了全部指令集和数据兼容性,同时进一步降低了能耗,提

高了性能。2级流水线,性能效率可达1.08 DMIPS/MHz。

M1

第一个专为 FPGA 中的实现设计的 ARM 处理器。Cortex-M1 处理器面向所有主要 FPGA

设备并包括对领先的 FPGA 综合工具的支持,允许设计者为每个项目选择最佳实现。

M3

适用于具有较高确定性的实时应用,它经过专门开发,可使合作伙伴针对广泛的设备(包括

微控制器、汽车车身系统、工业控制系统以及无线网络和传感器)开发高性能低成本平台。

此处理器具有出色的计算性能以及对事件的优异系统响应能力,同时可应实际中对低动态和

静态功率需求的挑战。

M4

由 ARM 专门开发的最新嵌入式处理器,用以满足需要有效且易于使用的控制和信号处理功

能混合的数字信号控制市场。

M7

在 ARM Cortex-M 处理器系列中,Cortex-M7 的性能最为出色。它拥有六级超标量流水线、

灵活的系统和内存接口(包括 AXI 和 AHB)、缓存(Cache)以及高度耦合内存(TCM),为

MCU 提供出色的整数、浮点和 DSP 性能。

互联:64位 AMBA4 AXI, AHB外设端口 (64MB 到 512MB)

指令缓存:0 到 64kB,双路组相联,带有可选 ECC

数据缓存:0 到 64kB,四路组相联,带有可选 ECC

指令TCM:0 到 16MB,带有可选 ECC

数据TCM:0 到 16MB,带有可选 ECC

1

By Harley

Cortex-M系列规格对比

类别

体系结构

ISA支持

DSP扩展

M0

ARMv6M(冯诺依曼)

Thumb,Thumb-2

M3

ARMv6M(哈佛)

Thumb,Thumb-2

M4

ARMv6M(哈佛)

Thumb,Thumb-2

单周期16/32位 MAC

单周期双16位 MAC

8/16位 SIMD 运算

硬件除法(2-12 周期)

单精度浮点单元

符合 IEEE 754

3级+分支预测

1.25~1.52

NMI + 1~240物理中断

8~256

最多240个

M7

ARMv7-M(哈佛)

Thumb,Thumb-2

单周期16/32位 MAC

单周期双16位 MAC

8/16位 SIMD 运算

硬件除法(2-12 周期)

单和双精度浮点单元

与IEEE 754 兼容

6级超标量 + 分支预测

2.14/2.55/3.23

NMI + 1~240物理中断

8~256

最多240个

可选的8/16区域 MPU,

带有子区域和背景区域

集成 WFI 和 WFE 指令

以及Sleep On Exit功能。

休眠和深度休眠信号。

ARM 电源管理工具包

及可选Retention模式

浮点单元

流水线

DMISP/MHz

中断

中断优先级

内存保护

3级

0.9~0.99

NMI+1-32物理中断

3级

1.25~1.50

NMI+ 1-240物理中断

8~256

最多240个 唤醒中断控制器

带有子区域和后台区带有子区域和后台区域

域的可选 8 区域 的可选8区域 MPU

MPU

集成的 WFI 和 WFE

指令和“退出时睡眠”

功能。

睡眠和深度睡眠信号。

随 ARM 电源管理工

具包提供的可选保留

模式

集成WFI 和WFE 指令和

“退出时睡眠”功能。

睡眠和深度睡眠信号。

随 ARM 电源管理工具

包提供的可选 Retention

模式

睡眠模式 集成的 WFI 和 WFE 指

令和“退出时睡眠”功

能。

睡眠和深度睡眠信号随

ARM 电源管理工具包

提供的可选的Retention

模式

硬件单周期 (32x32) 乘

法选项

增强的指令 硬件除法(2-12 个周

期)和单周期 (32x32)

乘法、饱和数学支持。

调试 可选 JTAG 和Serial-可选 JTAG 和串行线可选 JTAG 和Serial-Wire 可选的 JTAG 和 串行线

Wire 调试端口。最多 4 调试端口。最多 8 个调试端口。最多 8 个断调试 端口。最多 8 个

个断点和 2 个观察点 断点和 4 个检测点。 点和 4 个检测点。 断点和 4 个观察点。

可选指令跟踪 (ETM)、可选指令跟踪 (ETM)、数

数据跟踪 (DWT) 和据跟踪 (DWT) 和测量跟

测量跟踪 (ITM) 踪 (ITM)

可选指令跟踪 (ETM)、数

据跟踪 (DWT) 和测量

跟踪 (ITM)

跟踪

2

By Harley

Cortex-A系列:

ARM Cortex-A 系列是一系列用于复杂操作系统和用户应用程序的应用程序处理器。Cortex-A

系列处理器支持 ARM、Thumb 和 Thumb-2 指令集。

A5

一个高性能、低功耗的ARM宏单元,带有L1高速缓存子系统,能提供完全的虚拟内存功

能。Cortex-A5 处理器实现了 ARMv7 体系结构并运行 32 位 ARM 指令、16 位和 32 位

Thumb 指令,还可在 Jazelle 状态下运行 8 位 Java 字节码。Cortex A-5 是最小以及最低功

耗的 Cortex-A 处理器,但处理性能比其他A系列差。

A7

Cortex-A7 处理器的功耗和面积与超高效 Cortex-A5 相似,但性能提升 15~20%,Cortex-A7

是ARM的大小核设计中的小核部分,并且与高端 Cortex-A15 CPU 体系结构完全兼容。Cortex-

A7处理器包括了高性能处理器Cortex-A15的一切特性,包括虚拟化(virtualization)、大容量

物理内存地址扩展(Large Physical Address Extensions (LPAE),可以寻址到1TB的存储空间)、

NEON、VFP以及AMBA 4 ACE coherency (AMBA4 Cache Coherent Interconnect (CCI))。Cortex-

A7支持多核MPCore的设计以及Big+Little的大小核设计。小型高能效的 Cortex-A7 是最新

低成本智能手机和平板电脑中独立 CPU 的理想之选,并可在 处理配置中与

Cortex-A15 结合。

A8

第一个使用ARMv7-A架构的处理器,很多应用处理器以Cortex-A8为核心。

Cortex-A8 处理器是一个双指令执行的有序超标量处理器,针对高度优化的能效实现可提

供 2.0 Dhrystone MIPS(每 MHz),这些实现可提供基于传统单核处理器的设备所需的高级别

的性能。Cortex-A8 在市场中构建了 ARMv7 体 系结构,可用于不同应用,包括智能手机、智

能本、便携式媒体播放器以及其他消费类和企业平台。分开的L1指令和数据cache大小可

以为16KB或者 32KB,指令和数据共享L2 cache,容量可以到1MB。L1和L2 cache的cache

数据宽度为128比特,L1 cache是虚拟索引,物理上连续,而L2完全使用物理地址。Cortex-

A8的L1 cache行宽度为64byte,L2 cache在片内集成。另外和Cortex-A9相比,由于Cortex-

A8支持的浮点VFP运算非常有限,其VFP的速度非常慢,往往相同的浮点运 算,其速度是

Cortex-A9的1/10。Cortex-A8能并发某些NEON指令(如NEON的load/store和其他的NEON

指令),而 Cortex-A9因为NEON位宽限制不能并发。Cortex-A8的NEON和ARM是分开的,

即ARM核和NEON核的执行流水线分开,NEON访 问ARM寄存器很快,但是ARM端需要

NEON寄存器的数据会非常慢。

A9

Cortex-A9 MPCore或者单核处理器单MHz性能比Cortex-A5 或者 Cortex-A8高,支持

ARM, Thumb, Thumb-2, TrustZone, Jazelle RCT,Jazelle DBX技术。L1的cache控制器提供了硬

件的cache一致性维护支持多核的cache一致性。核外的L2 cache控制器(L2C-

310, or PL310) 支持最多8MB的cache。Cortex-A9的L1 cache行宽度为32byte,L2 cache因

为多核的原因在核外集成,即通过SCU来访问多核共享的L2 cache。

常见的Cortex-A9处理器包括nVidia's 双核Tegra-2, 以及TI's OMAP4平台。使用Cortex-A9处

3

By Harley

理器的设备包括Apple的ipad2(apple A5处理器),LG Optimus 2X (nVidia Tegra-2),

Samsung Galaxy S II 等

A15

Cortex-A15 MPCore处理器是目前Cortex-A系列中性能最高的处理器,一个突出的特性是其

硬件的虚拟化技术(Hardware virtualization)以及大物理内存的扩展

(Large Physical Address Extension (LPAE), 能寻址到1TB的内存)。

目前集成Cortex-A15的处理器量产的只有Samsung的Exynos 5系列处理器,但TI的OMAP5

系列处理器也采用Cortex-A15的核。具体的设备有Arndale Board 。

A17

:

A12的提升版,也就将A12合并到A17中,最新的高性能ARMv7-A核处理器,以更小和更

节能的优势,提供与A15相仿的性能。相比A9 有60%的性能提升。

仍为32位ARMv7

Cortex-A17处理器提供了优质的性能和高端的特性使它理想的适合每一个屏幕,从智能手机

到智能电视。 Cortex-A17处理器架构上与广泛使用Cortex-A7处理器一致,促使下一代中档

设备基于技术。

A53

最低功耗的ARMv8处理器,能够无缝支持32和64位代码。是世界上能效最高,面积最小

的64位处理器。

使用高效的8-stage顺序管道和提升的获取数据技术性能平衡。

Cortex-A53提供比Cortex-A7更高的性能,并能作为一个独立的应用处理器或在配

置下,搭配Cortex-A57处理器,达到最优性能、可伸缩性和能效。

A57

最高效的64位处理器,用于扩展移动和企业计算应用程序功能,包括计算密集型64位应

用,比如高端电脑、平板电脑和服务器产品。

性能比A15提升一倍。

A72

Cortex-A72 是 ARM 性能最出色、最先进的处理器。于 2015 年年初正式发布的Cortex-A72

是基于 ARMv8-A 架构、并构建于 Cortex-A57 处理器在移动和企业设备领域成功的基础之

上。在相同的移动设备电池寿命限制下,Cortex-A72 能相较基于 Cortex-A15 处理器,28纳

米工艺节点的设备,提供3.5倍的性能表现,展现优异的整体功耗效率。

Cortex-A72 的强化性能和功耗水平重新定义了 2016 年高端设备为消费者带来的丰富连接

和情境感知(context-aware)的体验。

Cortex-A72 可在芯片上单独实现,也可以搭配 Cortex-A53 处理器与ARM CoreLinkTM CCI高

速缓存一致性互连(Cache Coherent Interconnect)构成 ARM TM 配置,进一步提

升能效。

4

By Harley

Cortex-A列规格对比

类别

发布时间

时钟频率

执行顺序

多核支持

MIPS/MHz

VFP/NEON 支持

半精度扩展(16-

bit floating-

point)

FP/NEON 寄存器

重命名

硬件的除法器

LPAE (40-bit

physical

address)

硬件虚拟化

Cortex-A5

2009年12

~1GHz

顺序执行

1 to 4

1.6

Cortex-A7

2011年10

~1GHz on

28nm

顺序执行

1 to 4

1.9

Cortex-A8 Cortex-A9 Cortex-A15

2011年4月

~2.5GHz on

28nm

乱序执行

1 to 4

3.5

VFPv4/NEON

2006年7月 2008年3月

~1GHz on

65nm

顺序执行

1

2

~2GHz on 40nm

乱序执行

1 to 4

2.5

VFPv4/NEON VFPv4/NEON VFPv3/NEON VFPv3/NEON

否,只有32-

bit单精度

和64-bit双

精度浮点

No

No

是 是 是

否 否

LITTLE

Big

GP寄存器重命名 否

No

融合的MAC 乘累

流水线级数

pipeline

stages

指令译码

decodes

返回堆栈stack

条目

浮点运算单元

FPU

8 8 13 9 to 12 15+

1

4

Optional

Partial 2 (dual-

dual issue issue)

8

Optional

8

Yes

2 (dual-issue) 3

8

Optional

48

Optional

AMBA总线宽度

64 or 128-

64-bit I/F 128-bit I/F

bit I/F

AMBA 3 AMBA 4

AMBA 3

2× 64-bit I/F

128-bit

AMBA 3

16KB/32KB/64KB 32KB

16KB/32KB/64KB 32KB

L1 Data Cache

Size

4K to 64K 8KB to 64KB 16/32KB

8KB to 64KB 16/32KB

5

L1 Instruction

4K to 64K

Cache Size

By Harley

2-way set 2-way set 4-way set 2-way set

associative

(Inst)

4-way set

associative

(Data)

Integrated

512KB to

1MB

8-way set

L1 Cache

Structure

associative associative associative

(Inst) (Inst) 4-way set (Inst)

4-way set 4-way set associative 4-way set

associative associative

(Data) (Data)

associative

(Data)

128KB to

1MB

L2 Cache type

L2 Cache size

L2 Cache

Structure

Cache line

(bytes)

External

-

Integrated Integrated External

128KB to

1MB

-

8-way set 8-way set

-

associative associative

32 32 64 32

-

associative

64

Classic处理器

ARM7

1994年推出,使用范围最广的 32 位嵌入式处理器系列。

0.9MIPS/MHz的三级流水线和冯诺依曼结构

ARM9

ARM9 系列技术特点

基于 ARMv5TE 架构

高效的 5 级流水线,更快的吞吐量和系统性能,哈佛结构

o

提取/解码/执行/内存/写回

同时支持 ARM和 Thumb指令集

o

高效 ARM-Thumb 交互工作允许最佳组合性能和代码密度

哈佛架构 - 独立的指令和数据内存接口

o

可用内存带宽增加

o

同时访问 I & D 内存

o

更高性能

31 x 32 位寄存器

32 位 ALU 和桶行移位器

32 位 MAC 块增强

CoreSight™ ETM9接口用于增强调试和 trace

标准 AMBA

®

AHB™ 接口

协处理器接口

内存控制器

内存操作受 MMU 或 MPU 控制

6

By Harley

MMU 提供

o

虚拟内存支持

o

快速上下文切换扩展 (FCSE)

MPU 支持

o

内存保护和边界

o

应用沙坑效应

写缓冲

o

从外部内存解耦内部处理器

o

可在 4 个独立地址中存储 16 个字

o

清除缓冲脏行

灵活的缓存设计

硬件缓存架构

大小可从 4 KB 到 128 KB(以 2 的方幂形式增长)

I & D 缓存可具有独立大小

行长度固定为 8 个字

固定 4 向集关联

零等待状态存取

关键词首先缓存行填充

无阻塞

虚拟寻址

灵活的 TCM 设计

哈佛机构

大小可为 0 KB 或 4 KB 到 1 MB(以二次方形式增长)

可具有独立大小

可为 RAM 或 ROM

允许等待状态

ARM968上的双存储 TCM

物理寻址

o

将非顺序存取停止一个周期以允许地址转换

DSP 增强

单周期 32x16 乘法器实现

o

加快所有乘法指令

o

流水线设计允许一个 16x16 或 32x16 开始每个周期

新的 32x16 和 16x16 乘法指令

o

允许独立存取 16 位半寄存器

o

允许压缩的 16 位操作数高效使用 32 位带宽

o

ARM ISA 提供 32x32 乘法指令

有效微小数字饱和算法

o

QADD、QSUB、QDADD、QDSUB

前导零计数指令

o

CLZ 加快标准化和除法

ARM11

ARM11处理器系列所提供的引擎可用于当前生产领域中的很多智能手机,还广泛用于消费

7

By Harley

类、家庭和嵌入式应用程序。该处理器的功耗非常低,提供的性能范围为小面积设计中的

350 MHz 到速度优化设计中的 1 GHz(45 纳米和 65 纳米)。ARM11 处理器软件可以与以

前所有 ARM 处理器兼容,并引入了用于媒体处理的 32 位 SIMD、用于提高操作系统上下

文切换性能的物理标记 cache、强制实施硬件安全性的 TrustZone 以及针对实时应用的紧密

耦合内存。

ARM11 处理器系列功能:

强大的 ARMv6 指令集架构

ARM Thumb

®

指令集可以减少高达 35% 的内存带宽和大小需求

用于执行高效嵌入式 Java 的 ARM Jazelle

®

技术

ARM DSP 扩展

SIMD(单指令多数据)媒体处理扩展可提供高达 2 倍的视频处理性能

作为片上安全基础的 ARM TrustZone

®

技术(ARM1176JZ-S 和 ARM1176JZF-S 处理器)

Thumb-2 技术(仅 ARM1156(F)-S),可提高性能、能效和代码密度

低功耗:

o

0.21 mW/MHz (65G),包括 cache 控制器

o

节能关闭模式能够处理高级工艺中的静态漏电情况

高性能整数处理器

o

8 级整数流水线可提供高时钟频率(对于 ARM1156T2(F)-S 为 9 级)

o

单独的加载-存储和算术流水线

o

分支预测和返回栈

高性能内存系统设计

o

支持 4-64k cache 大小

o

针对多媒体应用领域的、带 DMA 的可选紧密耦合内存

o

对于媒体处理和网络应用领域,高性能 64 位内存系统加快了数据存取速度

o

ARMv6 内存系统架构加快了操作系统上下文切换速度

矢量中断接口和低中断延迟模式提高了中断响应速度和实时性能

用于汽车/工业控制和三维图形加速的可选矢量浮点协处理器(ARM1136JF-S、

ARM1176JZF-S 和 ARM1156T2F-S 处理器)

所有 ARM11 系列处理器都作为符合 ARM-Synopsys 参考方法的可交付项来提供,

从而显著缩短了生成内核的特定技术实现的时间,以及生成一组完整的行业标准视

图和模型的时间。

Classic处理器比较

ARM7 ARM9 ARM11

类别

体系结构

指令集

流水线

DMIPS/MHz

NMU

DSP扩展

单指令多数据扩展

浮点支持

Cache支持

密集耦合内存

冯·诺依曼

ARM、Thumb

3级

0.9

ARMv5TE(哈佛)

ARM、Thumb

5级

1.1

是(VFP9)

8

ARMv6M(哈佛)

ARM、Thumb、Thumb-2

8级

1.2

是(VFP11)

是(仅ARM1176JZ(F)-S)

By Harley

TrustZone安全扩展 否

Cortex-R系列

R4

第一个基于ARMv7-R体系的嵌入式实时处理器。专用于大容量深层嵌入式片上系统应用,

如硬盘驱动控制器、无限基带处理器、消费产品手机MTK平台和汽车系统的电子控制单元。

R5

2010年推出,基于ARMv7-R体系,扩展了 Cortex-R4 处理器的功能集,支持在可靠的实时

系统中获得更高级别的系统性能、提高效率和可靠性并加强错误管理。这些系统级功能包括

高优先级的低延迟外设端口 (LLPP) 和加速器一致性端口 (ACP),前者用于快速外设读写,后

来用于提高效率并与外部数据源达成更可靠的高速缓存一致性。

基于 40 nm G 工艺,Cortex-R5 处理器可以实现以将近 1 GHz 的频率运行,此时它可提供

1,500 Dhrystone MIPS 的性能。该处理器提供高度灵活且有效的双周期本地内存接口,使 SoC

设计者可以最大限度地降低系统成本和功耗。

R7

Cortex-R7 处理器是性能最高的 Cortex-R 系列处理器。它是高性能实时 SoC 的标准。Cortex-

R7 处理器是为基于 65 nm 至 28 nm 的高级芯片工艺的实现而设计的,此外其设计重点在

于提升能效、实时响应性、高级功能和简化系统设计。基于 40 nm G 工艺,Cortex-R7 处理

器可以实现以超过 1 GHz 的频率运行,此时它可提供 2,700 Dhrystone MIPS 的性能。该处

理器提供支持紧密耦合内存 (TCM) 本地共享内存和外设端口的灵活的本地内存系统,使

SoC 设计人员可在受限制的芯片资源内达到高标准的硬实时要求。

Cortex-R系列处理器比较

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

1.68 / 2.02 / 2.45

DMIPS/MHz*

3.47 CoreMark/MHz**

1.67 / 2.01 / 2.45

DMIPS/MHz*

3.47 CoreMark/MHz***

2.50 / 2.90 / 3.77 DMIPS/MHz*

4.35 CoreMark/MHz****

Lockstep configuration

Lockstep configuration

Dual-core Asymmetric

Multi-Processing (AMP)

configuration

Lockstep configuration

Dual-core Asymmetric Multi-Processing

(AMP) with QoS configuration

Dual core Symmetric Multi-Processing

(SMP) configuration

9

By Harley

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

Tightly Coupled Memory

Low Latency Peripheral

Tightly Coupled Memory

(TCM)

Port

Accelerator Coherency

Port

Micro Snoop Control Unit

(µSCU)

Tightly Coupled Memory

Low Latency Peripheral Port

Accelerator Coherency Port

Snoop Control Unit (SCU)

8-stage dual issue

pipeline with instruction

pre-fetch and branch

prediction

8-stage dual issue

pipeline with instruction

pre-fetch and branch

prediction

11-stage superscalar pipeline with out-

of-order execution and register

renaming and advanced dynamic and

static branch prediction with instruction

loop buffer

I-Cache and D-Cache I-Cache and D-Cache I-Cache and D-Cache

Hardware divide, SIMD,

DSP

Hardware divide, SIMD,

DSP

Hardware divide, SIMD, DSP

IEEE754 Double

IEEE754 Double

Precision FPU

Precision FPU or

optimized SP Floating

Point Unit

IEEE754 Double Precision FPU or

optimized SP Floating Point Unit

Memory Protection Unit

(MPU) with 8 or 12

memory regions

Memory Protection Unit

(MPU) with 12 or 16

memory regions

Memory Protection Unit (MPU) with 12

or 16 memory regions

ECC and Parity

protection on L1

memories

ECC and Parity protection

on L1 memories and AXI

bus ports

ECC and Parity protection on L1

memories

Error management with error bank

Vectored Interrupt

Controller (VIC) Port or

Vectored Interrupt

Controller (VIC) or

Integrated Generic Interrupt Controller

(GIC)

10

By Harley

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

Generic Interrupt Generic Interrupt

Controller (GIC) Controller (GIC)

总结:

Cortex-A:面向尖端的基于虚拟内存的操作系统和用户应用

Cortex-R:针对实时系统

Cortex-M:微控制器

11

By Harley

2024年3月21日发(作者:屈子美)

Cortex-M系列

M0

Cortex-M0是目前最小的ARM处理器,该处理器的芯片面积非常小,能耗极低,且编程所需

的代码占用量很少,这就使得开发人员可以直接跳过16位系统,以 接近8 位系统的成本

开销获取 32 位系统的性能。Cortex-M0 处理器超低的门数开销,使得它可以用在仿真和数

模混合设备中。

M0+

以Cortex-M0 处理器为基础,保留了全部指令集和数据兼容性,同时进一步降低了能耗,提

高了性能。2级流水线,性能效率可达1.08 DMIPS/MHz。

M1

第一个专为 FPGA 中的实现设计的 ARM 处理器。Cortex-M1 处理器面向所有主要 FPGA

设备并包括对领先的 FPGA 综合工具的支持,允许设计者为每个项目选择最佳实现。

M3

适用于具有较高确定性的实时应用,它经过专门开发,可使合作伙伴针对广泛的设备(包括

微控制器、汽车车身系统、工业控制系统以及无线网络和传感器)开发高性能低成本平台。

此处理器具有出色的计算性能以及对事件的优异系统响应能力,同时可应实际中对低动态和

静态功率需求的挑战。

M4

由 ARM 专门开发的最新嵌入式处理器,用以满足需要有效且易于使用的控制和信号处理功

能混合的数字信号控制市场。

M7

在 ARM Cortex-M 处理器系列中,Cortex-M7 的性能最为出色。它拥有六级超标量流水线、

灵活的系统和内存接口(包括 AXI 和 AHB)、缓存(Cache)以及高度耦合内存(TCM),为

MCU 提供出色的整数、浮点和 DSP 性能。

互联:64位 AMBA4 AXI, AHB外设端口 (64MB 到 512MB)

指令缓存:0 到 64kB,双路组相联,带有可选 ECC

数据缓存:0 到 64kB,四路组相联,带有可选 ECC

指令TCM:0 到 16MB,带有可选 ECC

数据TCM:0 到 16MB,带有可选 ECC

1

By Harley

Cortex-M系列规格对比

类别

体系结构

ISA支持

DSP扩展

M0

ARMv6M(冯诺依曼)

Thumb,Thumb-2

M3

ARMv6M(哈佛)

Thumb,Thumb-2

M4

ARMv6M(哈佛)

Thumb,Thumb-2

单周期16/32位 MAC

单周期双16位 MAC

8/16位 SIMD 运算

硬件除法(2-12 周期)

单精度浮点单元

符合 IEEE 754

3级+分支预测

1.25~1.52

NMI + 1~240物理中断

8~256

最多240个

M7

ARMv7-M(哈佛)

Thumb,Thumb-2

单周期16/32位 MAC

单周期双16位 MAC

8/16位 SIMD 运算

硬件除法(2-12 周期)

单和双精度浮点单元

与IEEE 754 兼容

6级超标量 + 分支预测

2.14/2.55/3.23

NMI + 1~240物理中断

8~256

最多240个

可选的8/16区域 MPU,

带有子区域和背景区域

集成 WFI 和 WFE 指令

以及Sleep On Exit功能。

休眠和深度休眠信号。

ARM 电源管理工具包

及可选Retention模式

浮点单元

流水线

DMISP/MHz

中断

中断优先级

内存保护

3级

0.9~0.99

NMI+1-32物理中断

3级

1.25~1.50

NMI+ 1-240物理中断

8~256

最多240个 唤醒中断控制器

带有子区域和后台区带有子区域和后台区域

域的可选 8 区域 的可选8区域 MPU

MPU

集成的 WFI 和 WFE

指令和“退出时睡眠”

功能。

睡眠和深度睡眠信号。

随 ARM 电源管理工

具包提供的可选保留

模式

集成WFI 和WFE 指令和

“退出时睡眠”功能。

睡眠和深度睡眠信号。

随 ARM 电源管理工具

包提供的可选 Retention

模式

睡眠模式 集成的 WFI 和 WFE 指

令和“退出时睡眠”功

能。

睡眠和深度睡眠信号随

ARM 电源管理工具包

提供的可选的Retention

模式

硬件单周期 (32x32) 乘

法选项

增强的指令 硬件除法(2-12 个周

期)和单周期 (32x32)

乘法、饱和数学支持。

调试 可选 JTAG 和Serial-可选 JTAG 和串行线可选 JTAG 和Serial-Wire 可选的 JTAG 和 串行线

Wire 调试端口。最多 4 调试端口。最多 8 个调试端口。最多 8 个断调试 端口。最多 8 个

个断点和 2 个观察点 断点和 4 个检测点。 点和 4 个检测点。 断点和 4 个观察点。

可选指令跟踪 (ETM)、可选指令跟踪 (ETM)、数

数据跟踪 (DWT) 和据跟踪 (DWT) 和测量跟

测量跟踪 (ITM) 踪 (ITM)

可选指令跟踪 (ETM)、数

据跟踪 (DWT) 和测量

跟踪 (ITM)

跟踪

2

By Harley

Cortex-A系列:

ARM Cortex-A 系列是一系列用于复杂操作系统和用户应用程序的应用程序处理器。Cortex-A

系列处理器支持 ARM、Thumb 和 Thumb-2 指令集。

A5

一个高性能、低功耗的ARM宏单元,带有L1高速缓存子系统,能提供完全的虚拟内存功

能。Cortex-A5 处理器实现了 ARMv7 体系结构并运行 32 位 ARM 指令、16 位和 32 位

Thumb 指令,还可在 Jazelle 状态下运行 8 位 Java 字节码。Cortex A-5 是最小以及最低功

耗的 Cortex-A 处理器,但处理性能比其他A系列差。

A7

Cortex-A7 处理器的功耗和面积与超高效 Cortex-A5 相似,但性能提升 15~20%,Cortex-A7

是ARM的大小核设计中的小核部分,并且与高端 Cortex-A15 CPU 体系结构完全兼容。Cortex-

A7处理器包括了高性能处理器Cortex-A15的一切特性,包括虚拟化(virtualization)、大容量

物理内存地址扩展(Large Physical Address Extensions (LPAE),可以寻址到1TB的存储空间)、

NEON、VFP以及AMBA 4 ACE coherency (AMBA4 Cache Coherent Interconnect (CCI))。Cortex-

A7支持多核MPCore的设计以及Big+Little的大小核设计。小型高能效的 Cortex-A7 是最新

低成本智能手机和平板电脑中独立 CPU 的理想之选,并可在 处理配置中与

Cortex-A15 结合。

A8

第一个使用ARMv7-A架构的处理器,很多应用处理器以Cortex-A8为核心。

Cortex-A8 处理器是一个双指令执行的有序超标量处理器,针对高度优化的能效实现可提

供 2.0 Dhrystone MIPS(每 MHz),这些实现可提供基于传统单核处理器的设备所需的高级别

的性能。Cortex-A8 在市场中构建了 ARMv7 体 系结构,可用于不同应用,包括智能手机、智

能本、便携式媒体播放器以及其他消费类和企业平台。分开的L1指令和数据cache大小可

以为16KB或者 32KB,指令和数据共享L2 cache,容量可以到1MB。L1和L2 cache的cache

数据宽度为128比特,L1 cache是虚拟索引,物理上连续,而L2完全使用物理地址。Cortex-

A8的L1 cache行宽度为64byte,L2 cache在片内集成。另外和Cortex-A9相比,由于Cortex-

A8支持的浮点VFP运算非常有限,其VFP的速度非常慢,往往相同的浮点运 算,其速度是

Cortex-A9的1/10。Cortex-A8能并发某些NEON指令(如NEON的load/store和其他的NEON

指令),而 Cortex-A9因为NEON位宽限制不能并发。Cortex-A8的NEON和ARM是分开的,

即ARM核和NEON核的执行流水线分开,NEON访 问ARM寄存器很快,但是ARM端需要

NEON寄存器的数据会非常慢。

A9

Cortex-A9 MPCore或者单核处理器单MHz性能比Cortex-A5 或者 Cortex-A8高,支持

ARM, Thumb, Thumb-2, TrustZone, Jazelle RCT,Jazelle DBX技术。L1的cache控制器提供了硬

件的cache一致性维护支持多核的cache一致性。核外的L2 cache控制器(L2C-

310, or PL310) 支持最多8MB的cache。Cortex-A9的L1 cache行宽度为32byte,L2 cache因

为多核的原因在核外集成,即通过SCU来访问多核共享的L2 cache。

常见的Cortex-A9处理器包括nVidia's 双核Tegra-2, 以及TI's OMAP4平台。使用Cortex-A9处

3

By Harley

理器的设备包括Apple的ipad2(apple A5处理器),LG Optimus 2X (nVidia Tegra-2),

Samsung Galaxy S II 等

A15

Cortex-A15 MPCore处理器是目前Cortex-A系列中性能最高的处理器,一个突出的特性是其

硬件的虚拟化技术(Hardware virtualization)以及大物理内存的扩展

(Large Physical Address Extension (LPAE), 能寻址到1TB的内存)。

目前集成Cortex-A15的处理器量产的只有Samsung的Exynos 5系列处理器,但TI的OMAP5

系列处理器也采用Cortex-A15的核。具体的设备有Arndale Board 。

A17

:

A12的提升版,也就将A12合并到A17中,最新的高性能ARMv7-A核处理器,以更小和更

节能的优势,提供与A15相仿的性能。相比A9 有60%的性能提升。

仍为32位ARMv7

Cortex-A17处理器提供了优质的性能和高端的特性使它理想的适合每一个屏幕,从智能手机

到智能电视。 Cortex-A17处理器架构上与广泛使用Cortex-A7处理器一致,促使下一代中档

设备基于技术。

A53

最低功耗的ARMv8处理器,能够无缝支持32和64位代码。是世界上能效最高,面积最小

的64位处理器。

使用高效的8-stage顺序管道和提升的获取数据技术性能平衡。

Cortex-A53提供比Cortex-A7更高的性能,并能作为一个独立的应用处理器或在配

置下,搭配Cortex-A57处理器,达到最优性能、可伸缩性和能效。

A57

最高效的64位处理器,用于扩展移动和企业计算应用程序功能,包括计算密集型64位应

用,比如高端电脑、平板电脑和服务器产品。

性能比A15提升一倍。

A72

Cortex-A72 是 ARM 性能最出色、最先进的处理器。于 2015 年年初正式发布的Cortex-A72

是基于 ARMv8-A 架构、并构建于 Cortex-A57 处理器在移动和企业设备领域成功的基础之

上。在相同的移动设备电池寿命限制下,Cortex-A72 能相较基于 Cortex-A15 处理器,28纳

米工艺节点的设备,提供3.5倍的性能表现,展现优异的整体功耗效率。

Cortex-A72 的强化性能和功耗水平重新定义了 2016 年高端设备为消费者带来的丰富连接

和情境感知(context-aware)的体验。

Cortex-A72 可在芯片上单独实现,也可以搭配 Cortex-A53 处理器与ARM CoreLinkTM CCI高

速缓存一致性互连(Cache Coherent Interconnect)构成 ARM TM 配置,进一步提

升能效。

4

By Harley

Cortex-A列规格对比

类别

发布时间

时钟频率

执行顺序

多核支持

MIPS/MHz

VFP/NEON 支持

半精度扩展(16-

bit floating-

point)

FP/NEON 寄存器

重命名

硬件的除法器

LPAE (40-bit

physical

address)

硬件虚拟化

Cortex-A5

2009年12

~1GHz

顺序执行

1 to 4

1.6

Cortex-A7

2011年10

~1GHz on

28nm

顺序执行

1 to 4

1.9

Cortex-A8 Cortex-A9 Cortex-A15

2011年4月

~2.5GHz on

28nm

乱序执行

1 to 4

3.5

VFPv4/NEON

2006年7月 2008年3月

~1GHz on

65nm

顺序执行

1

2

~2GHz on 40nm

乱序执行

1 to 4

2.5

VFPv4/NEON VFPv4/NEON VFPv3/NEON VFPv3/NEON

否,只有32-

bit单精度

和64-bit双

精度浮点

No

No

是 是 是

否 否

LITTLE

Big

GP寄存器重命名 否

No

融合的MAC 乘累

流水线级数

pipeline

stages

指令译码

decodes

返回堆栈stack

条目

浮点运算单元

FPU

8 8 13 9 to 12 15+

1

4

Optional

Partial 2 (dual-

dual issue issue)

8

Optional

8

Yes

2 (dual-issue) 3

8

Optional

48

Optional

AMBA总线宽度

64 or 128-

64-bit I/F 128-bit I/F

bit I/F

AMBA 3 AMBA 4

AMBA 3

2× 64-bit I/F

128-bit

AMBA 3

16KB/32KB/64KB 32KB

16KB/32KB/64KB 32KB

L1 Data Cache

Size

4K to 64K 8KB to 64KB 16/32KB

8KB to 64KB 16/32KB

5

L1 Instruction

4K to 64K

Cache Size

By Harley

2-way set 2-way set 4-way set 2-way set

associative

(Inst)

4-way set

associative

(Data)

Integrated

512KB to

1MB

8-way set

L1 Cache

Structure

associative associative associative

(Inst) (Inst) 4-way set (Inst)

4-way set 4-way set associative 4-way set

associative associative

(Data) (Data)

associative

(Data)

128KB to

1MB

L2 Cache type

L2 Cache size

L2 Cache

Structure

Cache line

(bytes)

External

-

Integrated Integrated External

128KB to

1MB

-

8-way set 8-way set

-

associative associative

32 32 64 32

-

associative

64

Classic处理器

ARM7

1994年推出,使用范围最广的 32 位嵌入式处理器系列。

0.9MIPS/MHz的三级流水线和冯诺依曼结构

ARM9

ARM9 系列技术特点

基于 ARMv5TE 架构

高效的 5 级流水线,更快的吞吐量和系统性能,哈佛结构

o

提取/解码/执行/内存/写回

同时支持 ARM和 Thumb指令集

o

高效 ARM-Thumb 交互工作允许最佳组合性能和代码密度

哈佛架构 - 独立的指令和数据内存接口

o

可用内存带宽增加

o

同时访问 I & D 内存

o

更高性能

31 x 32 位寄存器

32 位 ALU 和桶行移位器

32 位 MAC 块增强

CoreSight™ ETM9接口用于增强调试和 trace

标准 AMBA

®

AHB™ 接口

协处理器接口

内存控制器

内存操作受 MMU 或 MPU 控制

6

By Harley

MMU 提供

o

虚拟内存支持

o

快速上下文切换扩展 (FCSE)

MPU 支持

o

内存保护和边界

o

应用沙坑效应

写缓冲

o

从外部内存解耦内部处理器

o

可在 4 个独立地址中存储 16 个字

o

清除缓冲脏行

灵活的缓存设计

硬件缓存架构

大小可从 4 KB 到 128 KB(以 2 的方幂形式增长)

I & D 缓存可具有独立大小

行长度固定为 8 个字

固定 4 向集关联

零等待状态存取

关键词首先缓存行填充

无阻塞

虚拟寻址

灵活的 TCM 设计

哈佛机构

大小可为 0 KB 或 4 KB 到 1 MB(以二次方形式增长)

可具有独立大小

可为 RAM 或 ROM

允许等待状态

ARM968上的双存储 TCM

物理寻址

o

将非顺序存取停止一个周期以允许地址转换

DSP 增强

单周期 32x16 乘法器实现

o

加快所有乘法指令

o

流水线设计允许一个 16x16 或 32x16 开始每个周期

新的 32x16 和 16x16 乘法指令

o

允许独立存取 16 位半寄存器

o

允许压缩的 16 位操作数高效使用 32 位带宽

o

ARM ISA 提供 32x32 乘法指令

有效微小数字饱和算法

o

QADD、QSUB、QDADD、QDSUB

前导零计数指令

o

CLZ 加快标准化和除法

ARM11

ARM11处理器系列所提供的引擎可用于当前生产领域中的很多智能手机,还广泛用于消费

7

By Harley

类、家庭和嵌入式应用程序。该处理器的功耗非常低,提供的性能范围为小面积设计中的

350 MHz 到速度优化设计中的 1 GHz(45 纳米和 65 纳米)。ARM11 处理器软件可以与以

前所有 ARM 处理器兼容,并引入了用于媒体处理的 32 位 SIMD、用于提高操作系统上下

文切换性能的物理标记 cache、强制实施硬件安全性的 TrustZone 以及针对实时应用的紧密

耦合内存。

ARM11 处理器系列功能:

强大的 ARMv6 指令集架构

ARM Thumb

®

指令集可以减少高达 35% 的内存带宽和大小需求

用于执行高效嵌入式 Java 的 ARM Jazelle

®

技术

ARM DSP 扩展

SIMD(单指令多数据)媒体处理扩展可提供高达 2 倍的视频处理性能

作为片上安全基础的 ARM TrustZone

®

技术(ARM1176JZ-S 和 ARM1176JZF-S 处理器)

Thumb-2 技术(仅 ARM1156(F)-S),可提高性能、能效和代码密度

低功耗:

o

0.21 mW/MHz (65G),包括 cache 控制器

o

节能关闭模式能够处理高级工艺中的静态漏电情况

高性能整数处理器

o

8 级整数流水线可提供高时钟频率(对于 ARM1156T2(F)-S 为 9 级)

o

单独的加载-存储和算术流水线

o

分支预测和返回栈

高性能内存系统设计

o

支持 4-64k cache 大小

o

针对多媒体应用领域的、带 DMA 的可选紧密耦合内存

o

对于媒体处理和网络应用领域,高性能 64 位内存系统加快了数据存取速度

o

ARMv6 内存系统架构加快了操作系统上下文切换速度

矢量中断接口和低中断延迟模式提高了中断响应速度和实时性能

用于汽车/工业控制和三维图形加速的可选矢量浮点协处理器(ARM1136JF-S、

ARM1176JZF-S 和 ARM1156T2F-S 处理器)

所有 ARM11 系列处理器都作为符合 ARM-Synopsys 参考方法的可交付项来提供,

从而显著缩短了生成内核的特定技术实现的时间,以及生成一组完整的行业标准视

图和模型的时间。

Classic处理器比较

ARM7 ARM9 ARM11

类别

体系结构

指令集

流水线

DMIPS/MHz

NMU

DSP扩展

单指令多数据扩展

浮点支持

Cache支持

密集耦合内存

冯·诺依曼

ARM、Thumb

3级

0.9

ARMv5TE(哈佛)

ARM、Thumb

5级

1.1

是(VFP9)

8

ARMv6M(哈佛)

ARM、Thumb、Thumb-2

8级

1.2

是(VFP11)

是(仅ARM1176JZ(F)-S)

By Harley

TrustZone安全扩展 否

Cortex-R系列

R4

第一个基于ARMv7-R体系的嵌入式实时处理器。专用于大容量深层嵌入式片上系统应用,

如硬盘驱动控制器、无限基带处理器、消费产品手机MTK平台和汽车系统的电子控制单元。

R5

2010年推出,基于ARMv7-R体系,扩展了 Cortex-R4 处理器的功能集,支持在可靠的实时

系统中获得更高级别的系统性能、提高效率和可靠性并加强错误管理。这些系统级功能包括

高优先级的低延迟外设端口 (LLPP) 和加速器一致性端口 (ACP),前者用于快速外设读写,后

来用于提高效率并与外部数据源达成更可靠的高速缓存一致性。

基于 40 nm G 工艺,Cortex-R5 处理器可以实现以将近 1 GHz 的频率运行,此时它可提供

1,500 Dhrystone MIPS 的性能。该处理器提供高度灵活且有效的双周期本地内存接口,使 SoC

设计者可以最大限度地降低系统成本和功耗。

R7

Cortex-R7 处理器是性能最高的 Cortex-R 系列处理器。它是高性能实时 SoC 的标准。Cortex-

R7 处理器是为基于 65 nm 至 28 nm 的高级芯片工艺的实现而设计的,此外其设计重点在

于提升能效、实时响应性、高级功能和简化系统设计。基于 40 nm G 工艺,Cortex-R7 处理

器可以实现以超过 1 GHz 的频率运行,此时它可提供 2,700 Dhrystone MIPS 的性能。该处

理器提供支持紧密耦合内存 (TCM) 本地共享内存和外设端口的灵活的本地内存系统,使

SoC 设计人员可在受限制的芯片资源内达到高标准的硬实时要求。

Cortex-R系列处理器比较

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

1.68 / 2.02 / 2.45

DMIPS/MHz*

3.47 CoreMark/MHz**

1.67 / 2.01 / 2.45

DMIPS/MHz*

3.47 CoreMark/MHz***

2.50 / 2.90 / 3.77 DMIPS/MHz*

4.35 CoreMark/MHz****

Lockstep configuration

Lockstep configuration

Dual-core Asymmetric

Multi-Processing (AMP)

configuration

Lockstep configuration

Dual-core Asymmetric Multi-Processing

(AMP) with QoS configuration

Dual core Symmetric Multi-Processing

(SMP) configuration

9

By Harley

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

Tightly Coupled Memory

Low Latency Peripheral

Tightly Coupled Memory

(TCM)

Port

Accelerator Coherency

Port

Micro Snoop Control Unit

(µSCU)

Tightly Coupled Memory

Low Latency Peripheral Port

Accelerator Coherency Port

Snoop Control Unit (SCU)

8-stage dual issue

pipeline with instruction

pre-fetch and branch

prediction

8-stage dual issue

pipeline with instruction

pre-fetch and branch

prediction

11-stage superscalar pipeline with out-

of-order execution and register

renaming and advanced dynamic and

static branch prediction with instruction

loop buffer

I-Cache and D-Cache I-Cache and D-Cache I-Cache and D-Cache

Hardware divide, SIMD,

DSP

Hardware divide, SIMD,

DSP

Hardware divide, SIMD, DSP

IEEE754 Double

IEEE754 Double

Precision FPU

Precision FPU or

optimized SP Floating

Point Unit

IEEE754 Double Precision FPU or

optimized SP Floating Point Unit

Memory Protection Unit

(MPU) with 8 or 12

memory regions

Memory Protection Unit

(MPU) with 12 or 16

memory regions

Memory Protection Unit (MPU) with 12

or 16 memory regions

ECC and Parity

protection on L1

memories

ECC and Parity protection

on L1 memories and AXI

bus ports

ECC and Parity protection on L1

memories

Error management with error bank

Vectored Interrupt

Controller (VIC) Port or

Vectored Interrupt

Controller (VIC) or

Integrated Generic Interrupt Controller

(GIC)

10

By Harley

ARM Cortex-R4 ARM Cortex-R5 ARM Cortex-R7

Generic Interrupt Generic Interrupt

Controller (GIC) Controller (GIC)

总结:

Cortex-A:面向尖端的基于虚拟内存的操作系统和用户应用

Cortex-R:针对实时系统

Cortex-M:微控制器

11

By Harley

发布评论

评论列表 (0)

  1. 暂无评论