2024年3月11日发(作者:区范)
更多核心,更高效率
强可扩展处理器采用10nm工艺制
造、最大核心数量从前代产品的28个
提升至40个;全新的Sunny Cove架构
带来了大约20%的IPC提升;综合性
能大约是上代产品的1.46倍(整数、
浮点、Stream TRIAD和Linpack测试的
平均值)、AI性能大约是上代产品的
1.74倍;和5年前的产品相比,综合性
能大约是其2.56倍。
在功能方面,第三代至强可扩
展处理器是目前唯一的、面向数据
中心市场且拥有AI加速计算能力的
处理器产品(支持Deep Learning Boost
功能),并且还带来包括安全特性、
SpeedSelect、AVX-512以及英特尔One
API在内的诸多功能。内存方面,新
处理器最高支持6TB内存、每颗处理
器最高可支持8个插槽,内存容量是
上代产品的2.6倍、支持最多64个PCIe
4.0通道,支持傲腾内存、傲腾SSD以
及SSD产品,支持英特尔80系列网络
设备以及英特尔Agilex FPGA加速等。
英特尔全新第三代至强
可扩展处理器解读
英特尔在企业级处理器产品市场上拥有非常明显的优势地位,即
使是在最近几年AMD发布Zen 2、Zen 3架构的相关服务器处理
器产品之后,这种优势地位依旧很稳固。这是因为英特尔的企业级
解决方案是建立在一整套面向企业用户的解决方案之上,拥有非
常深的技术护城河。2021年4月,英特尔发布了最新面向双路市场
的第三代至强可扩展处理器,其全新的生产工艺、新增的功能技术
以及平台的整体情况,都值得我们进一步了解。
文/图 徐昌宇 本刊记者 袁怡男
英特尔在2021年4月7日发布了
全新的第三代至强可扩展处理器的
双路型号。相比之前发布的14nm制
程、面向四路和八路市场的Cooper
Lake系列处理器,新的Ice Lake-SP仅面
向单路和双路市场,因此更为主流,
也更受普通企业和行业用户关注。虽
然定位不同,其扩展能力相比四路和
八路产品存在差异,但从产品和规格
角度来看,全新的第三代至强可扩展
处理器由于涉及制程、核心架构和
规格的变化,堪称英特尔近几年至
强可扩展系列处理器中变化最大的
一代。(若无特殊说明,下文所指的
第三代至强可扩展处理器均为最新
发布的10nm工艺的双路型号。)
综述:第三代至强可扩展处
理器的功能、特性
根据英特尔的介绍,第三代至
全新的第三代至强可扩展处理器的外观
英特尔在2021年4月7日发布了全新的第三代至强可扩展处理器的双路型号
英特尔之前公布的第三代至强可扩展处理器的28核心版本内部结构图
2021
年5月
84
根据不同目标市场,英特尔宣
称第三代至强可扩展处理器的相关
性能分别是:云计算综合性能是前代
产品(下同)的1.5倍、5G领域则是1.62
倍、IoT市场是1.56倍、HPC是1.57倍、
AI计算高达1.74倍。英特尔特别提到
了AI计算性能,在英特尔设定的对比
条件下,在图像识别性能上,新处理
器是AMD EPYC 7763(64核心、Zen 3
架构)的25倍,甚至在20个比较主流
的AI和ML工作负载中,第三代至强
可扩展处理器的性能可达AMD EPYC
7763的1.5倍,甚至是英伟达A100 GPU
的1.3倍。软件方面,英特尔提到利用
TensorFlow架构优化ResNet50模型后,
新的处理器性能提升了10倍;利用
Scikit-Learn优化SVC/kNN后,新的处理
器性能提升了高达100倍等。
在安全特性方面,英特尔在
2013年就推出了名为SGX(Software
Guard eXtensions,软件保护扩展)的
软件保护解决方案,并一直在业内不
断地推广和应用这个扩展平台的相
关技术,目前已经有数百家企业采用
SGX相关技术进行数据保护和安全控
制。在新的第三代至强可扩展处理器
上,英特尔带来两个全新的技术用
第三代至强可扩展处理器的重要性能提升一览
第三代至强可扩展处理器相关的平台技术和规格一览
第三代至强可扩展处理器针对不同目标市场的性能增幅情况
第三代至强可扩展处理器针对不同市场已经拥有大量客户
英特尔特别强调第三代至强可扩展处理器是目前唯一一个面向数据中心市场拥
有AI计算加速能力的产品,并且已经服务了很多客户。
第三代至强可扩展处理器在安全方面的特性
85
2021
年5月
于加强安全性,一个是全内存加密技
术,可以实现内存的批量加密,从而
对整个内存空间起到保护作用。另一
个则是平台固件恢复技术,用于防御
和维护底层固件,提高系统安全性。
在笔者将英特尔透露的基本综述部
分梳理清楚后,接下来本文将进一
步深入分析第三代至强可扩展处理
器架构的相关内容。
上进行优化。因为针对数据中心,需
要对性能一致性、数据计算的弹性
以及高效率等方面进行优化。
有鉴于此,英特尔在第三代至
强可扩展处理器上主要对4个方面做
出优化。一是在微架构方面,采用全
新的Sunny Cove架构,同时加入新的
ISA指令集。二是在内存方面,英特
尔针对企业越来越高的内存带宽需
求,对处理器的内存控制器设置进行
了比较重大的改革。三是在I/O方面,
英特尔将本代处理器升级至支持64
通道PCIe 4.0总线,相比上代产品大
幅提升了外部IO带宽。最后则是处理
器内部和外部的扩展方面,英特尔
通过扩展独特的Mesh架构,保证了缓
存、内存和内核之间的延迟保持平均
和一致。
英特尔给出了简单的双路Ice
Lake-SP处理器的双路搭配的架构
图。从图中可以看出,双路处理器分
别通过三个UPI通道实现互联,每个
处理器都拥有8个内存通道,每个通
道有2个DIMM,其中一个DIMM可以选
择使用傲腾或者DDR4内存,另一个
DIMM只能支持DDR4内存。处理器通
过DMI总线和代号为“Lewisburg R”的
芯片组进行连接。对双路系统而言,
处理器可以选择任意一个和芯片组
连接,这可能需要根据厂商设计的
情况而定。
面向服务器和数据中心设
计:第三代至强可扩展处理
器架构解读
作为面向服务器和数据中心的
产品,第三代至强可扩展处理器在设
计方面和普通的民用处理器存在很
大差异。比如针对服务器方面,英特
尔就需要针对标量、数据并行、低延
迟高带宽、芯片上的节点选择和调配
计算微架构:大幅度升级的
Sunny Cove
英特尔之前的处理器核心微架
构都和工艺制程捆绑,比如14nm工
艺就一直使用Skylake微架构。在14nm
工艺和Skylake微架构鏖战数年之后,
第三代至强可扩展处理器的针对不同市场所做的架构优化
第三代至强可扩展处理重要的技术特性
第三代至强可扩展处理器采用了SunnyCove架构
第三代至强可扩展处理器引入了大量新的指令集
2021
年5月
86
英特尔终于在2019年发布了全新的
Sunny Cove架构,并开始推动微架构
和工艺制程解绑。最终在2021年得以
实现,今年英特尔先是在桌面发布
了第十一代酷睿系列处理器,采用了
Sunny Cove微架构的14nm版本Cypress
Cove之后,终于将Sunny Cove架构引入
至强平台,这也是今天本文谈论的第
三代至强可扩展处理器。
由于Sunny Cove微架构在本刊之
前的文章中介绍过多次,所以在本
文中只做简单介绍。总的来看,Sunny
Cove微架构在下列四个方面做出了增
强:一是前端更高的容量和改进的
分支预测;二是执行部分更大的分配
单元、更大的结构和更多的执行资
源;三是TLB的增强、单线程执行和
预取的增强;四是更大的L2缓存和更
高的向量吞吐能力。上述所有的改
进加起来,带来了Ice Lake核心相比上
代核心大约20%的IPC性能增强。
些指令集以及VBMI矢量操作的指令
集等。
由于这些指令集过于底层,因
此大家不需要太过于关心其中的具
体内容。英特尔给出了一个比较直
观地对比就是在采用的新的指令集
后,一些具体计算的加速情况。通过
矢量CLMUL指令集、矢量AES指令集、
VPMADD52指令集、SHA扩展指令集、
GFNI指令集的加持以及相关软件和
算法的支持,Ice Lake相比Cascade Lake
每个核心能够带来最高5.63倍的性
能增幅(RSA Sign 2048)、最低也有1.5
倍(ZUC),其余的平均可以带来大约
3~4倍的增幅,总的来看,所有10个测
试最终可以带来大约3.264倍的性能
提升,这个幅度已经相当惊人了。
当然,在实际的最终应用中,只
是更换硬件平台也许暂时不太可能
会有这么高的提升。但是考虑到目前
很多软件已经开始支持这些指令集,
以及英特尔软件部门会针对大客户
做很多优化,最终大客户应该也会获
得不错的性能收益。后文英特尔还
对此给出了一些数据。
缓存交错存取,并且将缓存的访问进
行一定程度的限制,从而起到降低
延迟的作用。此外还有一些其他有
关延迟、带宽和SoC扩展的改进,但
是英特尔并未详细提及。内存方面,
目前第三代至强可扩展处理器支持
8通道DDR4 3200内存,在内存控制器
方面做出了改进,降低了延迟并提高
了带宽。外部IO方面,第三代至强可
扩展处理器现在拥有64个PCIe 4.0通
道,CPU之间的UPI链路拥有3条,单条
速率为11.2GT/s,另外还有一些延迟
的降低。
英特尔还给出了有关第三代至
强可扩展处理器对比之前第二代产
品的带宽、延迟的相关测试数据。一
般来说,在启用处理器更多内存通道
并获得更高内存带宽的时候,内存的
延迟会显著提升。但是,在新的第三
代至强可扩展处理器上,当数据占用
内存带宽的数值逐渐提升的时候,相
对应的延迟数值上升幅度要比前代
产品的上升幅度更低。非常典型的情
况是,当至强8280处理器在内存带宽
占用率刚刚达到至强8380处理器大
约一半的情况下,其对应的延迟值就
上升至300ns,此时至强8380的延迟
仅为约100ns,而最终至强8380在内
存带宽翻倍的情况下,延迟也仅仅提
升至400ns。另外的一组数据带来了
相似的结果。这证明英特尔在新一
代处理器的缓存、内存和IO方面的改
善是极其有效的。
英特尔还提及了一些有关SoC层
指令集结构:全新指令集
加入
在全新的微架构之外,是全新
计算体系架构,这里主要是指英特
尔针对矢量计算、并行计算加入的
大量全新指令集。其中包括针对密
码学、大数算术(主要是AVX 512整
数的IFMA操作)、矢量AES和矢量
Carry less乘法指令、有关伽罗华域
(Galois Field)的一些新指令集、有关
SHA压缩和解压缩的一些指令集以
及特殊的SIMD、有关比特代数的一
提升存储效率:缓存、内存
和IO
缓存、内存和IO部分的改进也
是本次第三代至强可扩展处理器的
重点。英特尔给出的资料显示,新处
理器的共享LLC缓存提升至之前产品
的1.5倍,带来了新的缓存Hemisphere
mode模式,这个模式可以允许CPU对
Ice Lake(Sunny Cove家族)对比Cascade Lake(Skylake微架构家族)
核心代号
单位
乱序执行窗口
In-flight 读+取数量
排序窗口
整数+浮点 寄存器:
分配队列
L1数据缓存(KB)
L2通用TLB
STLB-IG页面支持数量
L2(中级)缓存容量
Cascade Lake
每个核心
224
72+56
97
180+168
64/线程
32
1.5K
16
1MB
Ice Lake
每个核心
352
128+72
160
280+224
70/线程;140/1 线程
48
2K
1024
1.25MB
内存和IO方面的改进
第三代至强可扩展处理器在缓存、
87
2021
年5月
面的改进,其中包含无缝的电源管理
架构、片上架构更改以提高整个系
统的性能一致性以及最重要的缓解
了AVX512启用时频率降低的情况。
英特尔用Intel Data Plane Development
Kit(DPDK)BasicFwd应用程序做了测
试,第二代产品的延迟速率大约在
21ns左右,在第三代至强可扩展处理
器上,这个数据降低至大约7~8ns,效
果极为显著。
非常夸张的。因此,本文在下一部分
将详细研究一下有关英特尔Mesh架
构的内容。
英特尔在发布会上对新的处理
器的Mesh架构内容颇为语焉不详,不
过给出了第三代至强可扩展处理器
和AMD EPYC处理器的相关延迟情况
的对比。在缓存延迟方面,英特尔表
示第三代至强可扩展处理器要强于
AMD产品,尤其是在L3缓存方面。这
个数据非常有意思,大家不妨参考
我们列出的表格。
值得注意的是,第三代至强可
扩展处理器在L1、L2、L3访问上的延
迟呈现常态递增的状态,比如其L1和
L2缓存的延迟周期略高于AMD EPYC
7003系列处理器,但是在L3缓存上却
有两种极端的情况。AMD处理器在
32MB以内的数据命中延迟上是比英
特尔新处理器小得多的,但如果是访
问32MB以外的数据,那么AMD处理器
的命中延迟则远大于英特尔第三代
至强可扩展处理器。
此外,如果L3数据访问需要跨
插座,那么AMD处理器的延迟(本地
处理器访问2S系统的其他处理器)也
会大幅度超出英特尔产品。在这里,
英特尔给出的L3延迟数据可能是参
考均值。因为Mesh架构下,英特尔的
每一个处理器核心(Core)都有一个
本地小型L3缓存,但是L3缓存又和
Mesh架构紧密相连,对CPU的每一个
Core来说,访问自己的L3肯定是最快
的,英特尔没有说明访问远距离L3的
延迟情况,考虑到Mesh架构片上通讯
的高效率,我们猜测这里的延迟应
该综合考虑了所有情况。
这里的数据不仅仅意味着延迟
更低的延迟:缓存和内存性
能表现
英特尔在第三代至强可扩展处
理器做了一个非常巨大的改变,通
过Mesh架构将处理器的核心数量大
幅度提升至40个,相比之前产品的28
个,大约提升了40%。在同一个架构
基础上提升如此多的核心数量还是
英特尔用Intel Data Plane Development Kit(DPDK)BasicFwd应用程序测
试表明新的处理器大幅度降低了数据延迟。
第三代至强可扩展处理器在安全方面的特性
第三代至强可扩展处理器在云计算方面的改进
第三代至强可扩展处理器对比第二代至强可扩展处理规格变化情况
2021
年5月
88
和控制问题,实际上它代表着AMD和
英特尔两个厂商在设计思路和整体
架构上的巨大差异。我们在下文再进
一步详细解读。
内存方面,英特尔也给出了一
些数据。这些数据显示AMD的内存延
迟要比英特尔产品高一些,显然这是
因为AMD采用Chiplet架构,而英特尔
的内存控制器在Mesh的节点上,跨插
座的话,AMD延迟也会更大。容量层
面,英特尔因为支持傲腾,所以可以
做到总容量更大。
的话,英特尔发现需要放弃环形总
线,于是后来改用了网状总线,也就
是本文提到的Mesh总线。
英特尔首次使用Mesh总线是在
已经退市的至强融核处理器中,这种
处理器有72个内核,因此环形总线是
不可能为其工作的,在这个处理器中
所有的内核沟通都依靠新的Mesh总
线。相比环形总线,Mesh总线相当于
为每一个处理器核心都增加了所有
方向的数据沟通接口,形成了一个网
格状分布,网格的交叉则落点在处理
器的单个核心上。根据英特尔给出的
资料,Mesh总线和整个SoC架构是由
不同的功能片(Tile)组成,这些功能
片形形色色,包括UPI、PCIe总线控制
器、内存控制器、DMA和CBDMA、CPU
核心以及CHA、SF和LLC等。其中CHA
(Caching and Home Agent)是指缓存
功能和本地代理,SF(Snoop Filter)是
指Snoop过滤器,LLC(Last Level Cache)
是指末级缓存,也就是L3缓存。
在这里我们可以看到,Mesh架
构将处理器的每个核心以“分布式”
的方式分散为片,英特尔只需要通
过Mesh架构将不同的片组织起来
即可。举例来说,在Mesh架构下,通
过一个CHA/SF/LCC片搭配一个CPU
核心片,就可以组成一个节点,几
乎包含了一个处理器除了外部IO以
外的所有功能。然后再为这个节点
设置好本地CMS(Converged/Common
Mesh Stop,信息Mesh站)就可以挂接
在Mesh网络中了。CMS主要是用于监
听、过滤、接收不同地方的信息,并
且还要帮助其他处理器实现信息的
转发。CMS站直接和处理器的LLC部
分连接,并且和自己上方、下方、左
方、右方四个方向的CMS站连接(如
果有)。由于这种网络连接的形态,
外加位于同一芯片上,因此可以实现
非常低的延迟。对CPU来说,在操作
上也不需要区分L3的位置,只需要
将需求交给Mesh网络即可通过片上
通信高速地转发和寻找得到信息。
英特尔首次启用Mesh网络是在
深挖:40核心的Mesh架
构探秘
英特尔在多核心处理器的架构
上使用过数个架构,包括非常有名的
环形总线。其特点是延迟随着核心
数量提高而提高,因此最终承载核心
数量的能力是有限的。在英特尔的
实际产品中,环形总线最多承载了28
个核心。如果要进一步扩展更多核心
第三代至强可扩展处理器对比第三代EYPC处理器缓存延迟数据
处理器
架构
L1命中所需延迟周期
L2命中所需延迟周期
L3在当前处理器命中所需延迟
L3在其他处理器命中所需延迟
英特尔至强白金8380
Ice Lake
5
14
21.7ns
118ns
AMD EPYC 7763
Zen 3
4
12
13.4ns或112ns
209ns
英特尔至强白金8280
Cascade Lake
4
14
20.2
180ns
Skylake-SP处理器上,这款处理器拥
有最多28个核心。为了区分不同的市
场并获得更好的良率,英特尔将其
分为10个核心以下的LCC产品、18个
核心以下的HCC产品以及拥有28个
核心的XCC产品,所有类型的产品都
采用的是Mesh网络连接。其最大的
XCC产品采用6×6的模块化设计,顶
部6个单元分别是3个PCIe控制器片、
2个UPI片、一个混合了PCIe、DMI和
CBDMA功能的混合片。下部的CPU采
用6X5设计,总计30个单元,其中2个
单元被内存控制器占用,所以最大
核心数为28个。从Skylake-SP开始到
上一代Cascade Lake SP,英特尔一直
维持这样的架构,基本没有大的变
化。在这种设计下,根据英特尔Mesh
通信先竖向查找、后横向查找的工
作模式,最远的通路是最左下角的
CPU核心至最右上角的PCIe控制器,
它们进行数据传输过程如果包含自
表注:AMD EPYC 7763的L3在当前处理器命中所需延迟为13.4ns(本地缓存命中,小于32MB)或
112ns(异地缓存命中,大于32MB)
第三代至强可扩展处理器对比第三代EYPC处理器内存延迟数据
处理器
架构
最大内存配置情况
本地内存读取延迟
跨插座内存读取延迟
最大内存容量
英特尔至强白金8380
Ice Lake
2DPC 3200/2933/2666
85ns
139ns
6TB(DDR+PMem)或4TB(DDR)
AMD EPYC 7763
Zen 3
1DPC 3200或2DPC 2933/2666
96ns
191ns
4TB(DDR)
英特尔至强白金8280
Cascade Lake
1DPC 2933或2DPC 2666
81ns
138ns
4.5TB(DDR+Pmem)或3TB DDR
第三代至强可扩展处理器对Mesh架构做出了显著修改
Ice Lake SP 40核心处理器内部Mesh架构图
89
2021
年5月
己的节点的话,那么就需要经过11个
节点。
在最新的第三代至强可扩展处
理器也就是Ice Lake SP上,英特尔为
了拥有更多的核心,扩展了Mesh架
构的布局。全新的Ice Lake SP采用的
是8×7结构,横向有8个片,纵向有7
个片。顶部和最下部包含了所有的IO
接口模块,另外还包含了三个占位符
(Dummy)和4个处理器核心以及缓
存。和上代产品有所不同的是,本代
产品的IO功能片分列在整个Mesh阵
列的上端和下端,这可能是考虑到
处理器通讯的便捷性,不用都集中
在某一个方向进行数据传输,降低
产生数据链路热点的可能性。
Ice Lake SP的CPU core Mesh架构
的横向深度最多为8、纵向深度最多
为6,从规格上来看的话是一个8×6
的设计,相比上代CPU部分6×5(整
体为6×6)的设计扩大了不少。不过
Mesh的特点在于内部两两互联,在
Ice Lake SP上,Mesh路径最远的通路
应该是左上角的CPU核心向右下角的
环形总线架构介绍
环形总线架构在现在来看依旧是以一个非常经典且实
用的设计,在核心数量较低的时候,能够非常好地满足核心内
部的数据互通问题。而环形总线的发展也经历了单环、双环
和多环等多个阶段。
当早期核心数量较少(小于10个)时,英特尔使用单环来
连接CPU核心、内存控制器、PCIe总线控制器、PCU等所有部件
并通过路由器的方法互相通信,此时如果某个核心的数据需
要到达另一个核心,那么只需要将其发送至环并且在环上传
输即可。虽然可能由于核心的距离等存在一定的延迟,但是
在当时的技术条件下也是非常不错的设计方案。不过,在核心数
量进一步增加后(小于20个),由于单环存在方向性,因此距离
较远的核心通信延迟就开始变高。对于这类产品,英特尔使用了
两个方向相反的双环,中间用CrossBar连接。双环通信进一步扩展
了环状总线可以容纳的核心数量,但是两个不同环之间通信延
迟会增加。
在双环通信之后,处理器的核心数量进一步提升至30个左
右时,单独依靠双环就显得非常难以为继了。因此,英特尔将处
理器核心数量进行了划分,10个和10个以下的核心数量成为一
种产品,被称为LCC,采用单环通信;10到20个之间核心数量的产
品采用的是双环通信,被称为HCC;在20到30个核心的产品上,
英特尔设计了1个单环和1组双环,并将两个环用Crossbar连接起
来,被称为XCC。此时两个不同环的处理器发送数据需要先发送
至当前处理器的环站,再上环后送至Crossbar,然后再下站至另一
个环,最后进入目标处理器的环站。这意味着大幅度增加了数据
传输延迟,两个不同环的处理器被认为是片上“非均匀内存访问
(NUMA)”,但是英特尔声称其利用相关的内存感知技术,尽可
能将数据保留在本地核心所需的环内,避免出现跨环访问数据
延迟过高的情况。
环形总线对比Mesh总线对比图
24核心的至强E5 v4处理器(XCC配置),就已经开始采用2个双向环形
总线了。
环形总线时代的LCC、MCC、HCC。可见MCC采用了一个额外的单环。
2021
年5月
90
PCIe控制器传递数据,整个传输过程
如果包含自己的节点的话,需要经过
13个节点,比上一代节点增加了2个,
增加的实际延迟每多一个节点大约
会增加10ns左右。而且,由于Ice Lake
SP的Mesh架构中IO节点分布在整个
架构的上下两侧,所以一般来说CPU
核心会通过靠近自己的IO片进行通
讯,因此,相比上代产品,延迟增加
也很有限。
英特尔在Ice Lake SP上展示了
Mesh架构的强大生命力,尤其是进
一步扩大芯片规模后并没有增加太
多延迟。不过,在Ice Lake SP上,其
CPU核心数量上还是远远落后于AMD
EPCY 7003系列的单颗最高64核心。
为什么英特尔不进一步扩大Mesh架
构的规模呢?我们推测原因可能有
几方面:一方面,每扩大一圈网格,
都会继续增加总体延迟。目前Mesh
架构下,英特尔自己的数据都显示
其L3延迟情况是略差于AMD在32MB
L3以内的数值的,这可能和Mesh总
线本身的运行特性有关,如果继续
增加Mesh的规模,远距离通讯带来
的延迟是否还会继续增加?是否延
迟增加后会带来性能损失或者对整
个处理器的性能平衡带来影响呢?
相信英特尔自己的实验室是有结论
的。另外,由于Mesh架构里还要留节
点布置PCIe、UPI等I/O节点,也就是
说,即使是增加到8×8的规模,也达
不到64个核心。在按目前英特尔透
露的只言片语来看,下一代至强可扩
展处理器的核心数量规模也仅为50
多个核心。
如果进一步将网格扩大两圈至
9×9呢?那么不但有延迟的问题,还
有制程方面的限制。因为即使是英
特尔现在的10nm制程工艺,Ice Lake
SP的40核心产品的芯片面积都超过
了600平方毫米。进一步扩大面积来
获取更多的核心也许会导致良率下
滑。毕竟芯片面积已经足够大了,所
以英特尔下一代产品也未必会用简
单扩圈的方式来增加核心。
在这种情况下,为了确保产品
良率并细分市场,英特尔都会推出
LCC、HCC和XCC三种不同类型的芯
片,但是在本次Ice Lake SP发布会上
英特尔没有提到这个内容,不过,英
特尔展示的部分资料显示依旧有28
核心的配置。因此,Ice Lake SP可能
有10核心、18核心、28核心、40核心
等多个芯片以对应不同的市场。
不过这样的情况可能在下一代
英特尔至强处理器上会发生变化。
LCC、XCC的差异
Skylake-SP处理器也有HCC、
采用Mesh架构的Xeon Phi处理器内部结构示意图
AMD EPYC 7003处理器架构示意图,32MB L3和Chiplet的设计是其出现延
迟差异的重要原因。
清晰可见Chiplet架构的CCD核心和IO核心。
AMD EPYC 7003处理器内部,
91
2021
年5月
一些消息显示,2021年底英特尔新
的、代号为“Sapphire Rapids”的至强
处理器将改用MCM多芯片封装的方
式,目前的消息是每个小芯片最多
14个核心,4个MCM共计56个核心,
CPU的微架构将采用新一代的Golden
Cove,工艺采用10nm SuperFin的改进
版本,TDP功耗预计为400W。新的处
理器可能还会一起封装HBM2高带宽
内存,同时也支持DDR5内存。如果
这个消息最终被确认为真的,那证
明英特尔将在下一代处理器上放弃
Mesh架构,改用类似Chiplet的小芯片
架构,不过具体如何排布整个芯片系
统、是否采用独立的IO芯片以及如何
匹配HBM2缓存和DDR5内存等,还有
待英特尔进一步揭秘。
带来的一些新的功能,包括:在操作
系统、驱动、BIOS、VMM或者SMM被破
坏的情况下还能防止进一步的软件
攻击,在攻击者控制系统或平台的情
况下持续提供数据保护,防止包括内
存总线窥探、内存篡改、RAM内“冷
启动”等攻击,基于硬件认证提供的
有效的代码和数字签名等。这部分内
容并不是本文的重点,因此就不展开
讲述了。
中最高可达第二代产品的1.5倍、第
一代产品的1.6倍、至强E5v4和至强
E5v3的2.34和2.85倍。在浮点测试
Floating PointSPECrate2017_fp_base 中
的性能是之前产品的1.52、1.62、2.6、
3.8倍。其余的还包括内存带宽测
试、LINPACK测试以及Geomen测试,
新的第三代产品都以相当高的幅度
领先了前代对手。其余的一些数据
还包括对比DDIO、AVX-512测试、Intel
Crypto Acceleration、DL Boost开关前后
的数据,这证明新的处理器在功能
和特性上都有非常大的进步。
另外值得注意的是,英特尔特
别使用第三代至强可扩展处理器的
顶级型号也就是至强白金8380(40
核心)的双路系统和AMD EPYC 7763
(64核心)双路系统,运行了有关
AVX-512的高性能计算、AVX-512的
云计算以及支持DL Boost的AI计算后
给出了相关性能的对比。这些测试
显示,英特尔产品在性能中最少能
性能:再度超越
和所有发布会最后的部分一
样,英特尔也带来了大量的性能对比
数据用于证明新的产品比旧的好,我
们来简单来看一下。
英特尔选择第三代至强可扩
展处理器对比第二代、第一代至强
可扩展处理器以及早期的至强E5
等产品。从数据来看,第三代至强
可扩展处理器在整数测试也就是
IntegerSPECrate2017_int_base的测试
可信计算和安全
在第三代至强可扩展处理器发
布会上,英特尔还介绍了有关可信计
算的内容。这部分内容主要是指SGX
AMD EYPC 7003系列处理器简介
本文在这里也简单解释一下英特尔提到的AMD EYPC
7003系列处理器在需要缓存的数据超过32MB L3缓存规模
会导致延迟暴增的问题。根据AMD之前发布会的资料,AMD
EPYC 7003系列处理器采用的是Chiplet设计,分为IO芯片和CCD
芯片。每个CPU芯片拥有8个CPU核心和每个CPU核心绑定的
L1、L2缓存,以及所有8个CPU核心共享32MB L3缓存。整个处
理器拥有8个CCD芯片和1个IO芯片。
因此当同一个CCD芯片上的CPU核心访问本地缓存的时
候,延迟是非常小的,甚至小于英特尔的Mesh架构,这是因为
同一个CCD芯片上的CPU核心可以访问全部32MB缓存。但是,
如果不同CCD芯片之间存在缓存访问的话,整个访问路径就需
要跨过IO核心,延迟更接近于不同CPU插槽之间的访问延迟,
比如AMD在这种情况下延迟高达112ns,接近英特尔跨插槽的
延迟118ns。在不同插槽之间存在数据访问时,AMD方案需要
跨越两个IO芯片才能得到数据,因此延迟更高,高达209ns。这
就是Chiplet这类架构设计的弱点之一。当然,AMD也会考虑对
此架构进行优化,将缓存数据优先放在最靠近的L3缓存中。
毕竟32MB的缓存也足够大。按AMD的统计数据,很少有应用
程序的缓存数据能够占满这么大的空间。
AMD采用Chiplet的架构设计也有自己独特的优势。那就是
更容易扩展核心数量且更方便制造、成本更低。在更容易扩展核
心数量方面,目前AMD推出64核心的处理器,采用了8个CPU芯片
(被称为CCD),这8个CCD配合一个IO核心就实现了CPU核心数量
上对竞争对手的碾压。并且有消息称,下一代产品AMD会将单个
CCD中的CPU核心数量提升至12个,这样一来AMD就可以获得96核
心的处理器。
至于AMD为什么不使用更多的CCD来连接搭配IO芯片,主要
的原因可能还是目前CPU的PCB基板已经无法容纳更多的芯片布
线了。AMD的Chiplet方案只需要分开生产面积较小的CCD和IO芯
片,其中CCD的面积仅为73平方毫米,几乎只有英特尔完整CPU芯
片的大约1/9。而AMD使用8颗芯片的总面积也只有约580平方毫
米。从工艺良品率的角度来看, 8颗73平方毫米芯片的生产难度
要远远低于生产一颗560平方毫米的芯片,即使算上IO芯片的460
平方毫米(12nm工艺制造,成本不高),AMD在总面积接近1000
平方毫米的情况下,有可能成本上相对英特尔一个600平方毫米
的芯片还更便宜。
2021
年5月
92
够取得相对AMD产品1.18倍的性能增
幅,最多可以取得25倍的性能增幅。
这显示了英特尔在指令集、软件支
持以及行业方面的巨大优势。当然,
这样的比较对AMD来说略显不公,因
为AMD目前尚不支持这些指令集,但
两家是有专利互相授权的,所以AMD
未来会支持也不一定,就好像现在
AMD也支持AVX256。不过,至少目前
来说,如果用户和市场有这类专项需
求,英特尔还是优势十分明显的。
多28个提升至最多40个,CPU架构采
用了最新的Sunny Cove;
2. L1、L2和L3缓存容量受益于
全新的Sunny Cove架构,得到了显著
提升;
3. PCIe通道从之前的最多48个
增加至最多64个,且升级至PCIe 4.0
标准;
4. 支持的最大内存容量提升至
4TB,前代为3TB;
5. 支持全新的SGX Enclave安全
特性;
6. 处理器插槽的数据传输带宽
增加了7%;
7. 支持DDR4-3200和傲腾DC
PMM 200系列;
8. 性价比的提升;
9. 当然,还是有一些变弱的数
据:比如单核心最高频率降低了,从
之前的最高4GHz降低至3.4GHz;
10. 多核心最高频率也降低了,
从之前最高3.3GHz降低至3GHz。
11. TDP增加了大约32%,从最高
205W提升至270W,其实对应芯片数
量增加的规模和频率降低的规模来
看,这是符合预期的。
总的来说,凭借全新的10nm工
艺、全新的Sunny Cove架构、全新的指
令集支持、全新的安全控制技术以
及扩展的Mesh架构等技术升级,10nm
工艺的英特尔第三代至强可扩展处
理器产品实力力大增,将给竞争对手
带来更多的压力。
迈向新的计算时代
在本文的最后,我们再来总结
一下相关的内容。第三代至强可扩展
处理器相比前代产品的提升是:
1. CPU核心数量从前代产品的最
英特尔第三代至强可扩展处理器对比第二代、第一代至强可扩展处理器以及早
期的至强E5等产品的性能相对值
第三代至强可扩展处理器特殊功能的性能提升情况
英特尔公布第三代处理器产品对比第二代产品的部分性能测试成绩运行有
英特尔使用至强白金8380双路系统对比AMD EPYC 7763双路系统,
关AVX-512的高性能计算、AVX-512的云计算以及支持DL Boost的AI计算后给
出的性能对比。
93
2021
年5月
2024年3月11日发(作者:区范)
更多核心,更高效率
强可扩展处理器采用10nm工艺制
造、最大核心数量从前代产品的28个
提升至40个;全新的Sunny Cove架构
带来了大约20%的IPC提升;综合性
能大约是上代产品的1.46倍(整数、
浮点、Stream TRIAD和Linpack测试的
平均值)、AI性能大约是上代产品的
1.74倍;和5年前的产品相比,综合性
能大约是其2.56倍。
在功能方面,第三代至强可扩
展处理器是目前唯一的、面向数据
中心市场且拥有AI加速计算能力的
处理器产品(支持Deep Learning Boost
功能),并且还带来包括安全特性、
SpeedSelect、AVX-512以及英特尔One
API在内的诸多功能。内存方面,新
处理器最高支持6TB内存、每颗处理
器最高可支持8个插槽,内存容量是
上代产品的2.6倍、支持最多64个PCIe
4.0通道,支持傲腾内存、傲腾SSD以
及SSD产品,支持英特尔80系列网络
设备以及英特尔Agilex FPGA加速等。
英特尔全新第三代至强
可扩展处理器解读
英特尔在企业级处理器产品市场上拥有非常明显的优势地位,即
使是在最近几年AMD发布Zen 2、Zen 3架构的相关服务器处理
器产品之后,这种优势地位依旧很稳固。这是因为英特尔的企业级
解决方案是建立在一整套面向企业用户的解决方案之上,拥有非
常深的技术护城河。2021年4月,英特尔发布了最新面向双路市场
的第三代至强可扩展处理器,其全新的生产工艺、新增的功能技术
以及平台的整体情况,都值得我们进一步了解。
文/图 徐昌宇 本刊记者 袁怡男
英特尔在2021年4月7日发布了
全新的第三代至强可扩展处理器的
双路型号。相比之前发布的14nm制
程、面向四路和八路市场的Cooper
Lake系列处理器,新的Ice Lake-SP仅面
向单路和双路市场,因此更为主流,
也更受普通企业和行业用户关注。虽
然定位不同,其扩展能力相比四路和
八路产品存在差异,但从产品和规格
角度来看,全新的第三代至强可扩展
处理器由于涉及制程、核心架构和
规格的变化,堪称英特尔近几年至
强可扩展系列处理器中变化最大的
一代。(若无特殊说明,下文所指的
第三代至强可扩展处理器均为最新
发布的10nm工艺的双路型号。)
综述:第三代至强可扩展处
理器的功能、特性
根据英特尔的介绍,第三代至
全新的第三代至强可扩展处理器的外观
英特尔在2021年4月7日发布了全新的第三代至强可扩展处理器的双路型号
英特尔之前公布的第三代至强可扩展处理器的28核心版本内部结构图
2021
年5月
84
根据不同目标市场,英特尔宣
称第三代至强可扩展处理器的相关
性能分别是:云计算综合性能是前代
产品(下同)的1.5倍、5G领域则是1.62
倍、IoT市场是1.56倍、HPC是1.57倍、
AI计算高达1.74倍。英特尔特别提到
了AI计算性能,在英特尔设定的对比
条件下,在图像识别性能上,新处理
器是AMD EPYC 7763(64核心、Zen 3
架构)的25倍,甚至在20个比较主流
的AI和ML工作负载中,第三代至强
可扩展处理器的性能可达AMD EPYC
7763的1.5倍,甚至是英伟达A100 GPU
的1.3倍。软件方面,英特尔提到利用
TensorFlow架构优化ResNet50模型后,
新的处理器性能提升了10倍;利用
Scikit-Learn优化SVC/kNN后,新的处理
器性能提升了高达100倍等。
在安全特性方面,英特尔在
2013年就推出了名为SGX(Software
Guard eXtensions,软件保护扩展)的
软件保护解决方案,并一直在业内不
断地推广和应用这个扩展平台的相
关技术,目前已经有数百家企业采用
SGX相关技术进行数据保护和安全控
制。在新的第三代至强可扩展处理器
上,英特尔带来两个全新的技术用
第三代至强可扩展处理器的重要性能提升一览
第三代至强可扩展处理器相关的平台技术和规格一览
第三代至强可扩展处理器针对不同目标市场的性能增幅情况
第三代至强可扩展处理器针对不同市场已经拥有大量客户
英特尔特别强调第三代至强可扩展处理器是目前唯一一个面向数据中心市场拥
有AI计算加速能力的产品,并且已经服务了很多客户。
第三代至强可扩展处理器在安全方面的特性
85
2021
年5月
于加强安全性,一个是全内存加密技
术,可以实现内存的批量加密,从而
对整个内存空间起到保护作用。另一
个则是平台固件恢复技术,用于防御
和维护底层固件,提高系统安全性。
在笔者将英特尔透露的基本综述部
分梳理清楚后,接下来本文将进一
步深入分析第三代至强可扩展处理
器架构的相关内容。
上进行优化。因为针对数据中心,需
要对性能一致性、数据计算的弹性
以及高效率等方面进行优化。
有鉴于此,英特尔在第三代至
强可扩展处理器上主要对4个方面做
出优化。一是在微架构方面,采用全
新的Sunny Cove架构,同时加入新的
ISA指令集。二是在内存方面,英特
尔针对企业越来越高的内存带宽需
求,对处理器的内存控制器设置进行
了比较重大的改革。三是在I/O方面,
英特尔将本代处理器升级至支持64
通道PCIe 4.0总线,相比上代产品大
幅提升了外部IO带宽。最后则是处理
器内部和外部的扩展方面,英特尔
通过扩展独特的Mesh架构,保证了缓
存、内存和内核之间的延迟保持平均
和一致。
英特尔给出了简单的双路Ice
Lake-SP处理器的双路搭配的架构
图。从图中可以看出,双路处理器分
别通过三个UPI通道实现互联,每个
处理器都拥有8个内存通道,每个通
道有2个DIMM,其中一个DIMM可以选
择使用傲腾或者DDR4内存,另一个
DIMM只能支持DDR4内存。处理器通
过DMI总线和代号为“Lewisburg R”的
芯片组进行连接。对双路系统而言,
处理器可以选择任意一个和芯片组
连接,这可能需要根据厂商设计的
情况而定。
面向服务器和数据中心设
计:第三代至强可扩展处理
器架构解读
作为面向服务器和数据中心的
产品,第三代至强可扩展处理器在设
计方面和普通的民用处理器存在很
大差异。比如针对服务器方面,英特
尔就需要针对标量、数据并行、低延
迟高带宽、芯片上的节点选择和调配
计算微架构:大幅度升级的
Sunny Cove
英特尔之前的处理器核心微架
构都和工艺制程捆绑,比如14nm工
艺就一直使用Skylake微架构。在14nm
工艺和Skylake微架构鏖战数年之后,
第三代至强可扩展处理器的针对不同市场所做的架构优化
第三代至强可扩展处理重要的技术特性
第三代至强可扩展处理器采用了SunnyCove架构
第三代至强可扩展处理器引入了大量新的指令集
2021
年5月
86
英特尔终于在2019年发布了全新的
Sunny Cove架构,并开始推动微架构
和工艺制程解绑。最终在2021年得以
实现,今年英特尔先是在桌面发布
了第十一代酷睿系列处理器,采用了
Sunny Cove微架构的14nm版本Cypress
Cove之后,终于将Sunny Cove架构引入
至强平台,这也是今天本文谈论的第
三代至强可扩展处理器。
由于Sunny Cove微架构在本刊之
前的文章中介绍过多次,所以在本
文中只做简单介绍。总的来看,Sunny
Cove微架构在下列四个方面做出了增
强:一是前端更高的容量和改进的
分支预测;二是执行部分更大的分配
单元、更大的结构和更多的执行资
源;三是TLB的增强、单线程执行和
预取的增强;四是更大的L2缓存和更
高的向量吞吐能力。上述所有的改
进加起来,带来了Ice Lake核心相比上
代核心大约20%的IPC性能增强。
些指令集以及VBMI矢量操作的指令
集等。
由于这些指令集过于底层,因
此大家不需要太过于关心其中的具
体内容。英特尔给出了一个比较直
观地对比就是在采用的新的指令集
后,一些具体计算的加速情况。通过
矢量CLMUL指令集、矢量AES指令集、
VPMADD52指令集、SHA扩展指令集、
GFNI指令集的加持以及相关软件和
算法的支持,Ice Lake相比Cascade Lake
每个核心能够带来最高5.63倍的性
能增幅(RSA Sign 2048)、最低也有1.5
倍(ZUC),其余的平均可以带来大约
3~4倍的增幅,总的来看,所有10个测
试最终可以带来大约3.264倍的性能
提升,这个幅度已经相当惊人了。
当然,在实际的最终应用中,只
是更换硬件平台也许暂时不太可能
会有这么高的提升。但是考虑到目前
很多软件已经开始支持这些指令集,
以及英特尔软件部门会针对大客户
做很多优化,最终大客户应该也会获
得不错的性能收益。后文英特尔还
对此给出了一些数据。
缓存交错存取,并且将缓存的访问进
行一定程度的限制,从而起到降低
延迟的作用。此外还有一些其他有
关延迟、带宽和SoC扩展的改进,但
是英特尔并未详细提及。内存方面,
目前第三代至强可扩展处理器支持
8通道DDR4 3200内存,在内存控制器
方面做出了改进,降低了延迟并提高
了带宽。外部IO方面,第三代至强可
扩展处理器现在拥有64个PCIe 4.0通
道,CPU之间的UPI链路拥有3条,单条
速率为11.2GT/s,另外还有一些延迟
的降低。
英特尔还给出了有关第三代至
强可扩展处理器对比之前第二代产
品的带宽、延迟的相关测试数据。一
般来说,在启用处理器更多内存通道
并获得更高内存带宽的时候,内存的
延迟会显著提升。但是,在新的第三
代至强可扩展处理器上,当数据占用
内存带宽的数值逐渐提升的时候,相
对应的延迟数值上升幅度要比前代
产品的上升幅度更低。非常典型的情
况是,当至强8280处理器在内存带宽
占用率刚刚达到至强8380处理器大
约一半的情况下,其对应的延迟值就
上升至300ns,此时至强8380的延迟
仅为约100ns,而最终至强8380在内
存带宽翻倍的情况下,延迟也仅仅提
升至400ns。另外的一组数据带来了
相似的结果。这证明英特尔在新一
代处理器的缓存、内存和IO方面的改
善是极其有效的。
英特尔还提及了一些有关SoC层
指令集结构:全新指令集
加入
在全新的微架构之外,是全新
计算体系架构,这里主要是指英特
尔针对矢量计算、并行计算加入的
大量全新指令集。其中包括针对密
码学、大数算术(主要是AVX 512整
数的IFMA操作)、矢量AES和矢量
Carry less乘法指令、有关伽罗华域
(Galois Field)的一些新指令集、有关
SHA压缩和解压缩的一些指令集以
及特殊的SIMD、有关比特代数的一
提升存储效率:缓存、内存
和IO
缓存、内存和IO部分的改进也
是本次第三代至强可扩展处理器的
重点。英特尔给出的资料显示,新处
理器的共享LLC缓存提升至之前产品
的1.5倍,带来了新的缓存Hemisphere
mode模式,这个模式可以允许CPU对
Ice Lake(Sunny Cove家族)对比Cascade Lake(Skylake微架构家族)
核心代号
单位
乱序执行窗口
In-flight 读+取数量
排序窗口
整数+浮点 寄存器:
分配队列
L1数据缓存(KB)
L2通用TLB
STLB-IG页面支持数量
L2(中级)缓存容量
Cascade Lake
每个核心
224
72+56
97
180+168
64/线程
32
1.5K
16
1MB
Ice Lake
每个核心
352
128+72
160
280+224
70/线程;140/1 线程
48
2K
1024
1.25MB
内存和IO方面的改进
第三代至强可扩展处理器在缓存、
87
2021
年5月
面的改进,其中包含无缝的电源管理
架构、片上架构更改以提高整个系
统的性能一致性以及最重要的缓解
了AVX512启用时频率降低的情况。
英特尔用Intel Data Plane Development
Kit(DPDK)BasicFwd应用程序做了测
试,第二代产品的延迟速率大约在
21ns左右,在第三代至强可扩展处理
器上,这个数据降低至大约7~8ns,效
果极为显著。
非常夸张的。因此,本文在下一部分
将详细研究一下有关英特尔Mesh架
构的内容。
英特尔在发布会上对新的处理
器的Mesh架构内容颇为语焉不详,不
过给出了第三代至强可扩展处理器
和AMD EPYC处理器的相关延迟情况
的对比。在缓存延迟方面,英特尔表
示第三代至强可扩展处理器要强于
AMD产品,尤其是在L3缓存方面。这
个数据非常有意思,大家不妨参考
我们列出的表格。
值得注意的是,第三代至强可
扩展处理器在L1、L2、L3访问上的延
迟呈现常态递增的状态,比如其L1和
L2缓存的延迟周期略高于AMD EPYC
7003系列处理器,但是在L3缓存上却
有两种极端的情况。AMD处理器在
32MB以内的数据命中延迟上是比英
特尔新处理器小得多的,但如果是访
问32MB以外的数据,那么AMD处理器
的命中延迟则远大于英特尔第三代
至强可扩展处理器。
此外,如果L3数据访问需要跨
插座,那么AMD处理器的延迟(本地
处理器访问2S系统的其他处理器)也
会大幅度超出英特尔产品。在这里,
英特尔给出的L3延迟数据可能是参
考均值。因为Mesh架构下,英特尔的
每一个处理器核心(Core)都有一个
本地小型L3缓存,但是L3缓存又和
Mesh架构紧密相连,对CPU的每一个
Core来说,访问自己的L3肯定是最快
的,英特尔没有说明访问远距离L3的
延迟情况,考虑到Mesh架构片上通讯
的高效率,我们猜测这里的延迟应
该综合考虑了所有情况。
这里的数据不仅仅意味着延迟
更低的延迟:缓存和内存性
能表现
英特尔在第三代至强可扩展处
理器做了一个非常巨大的改变,通
过Mesh架构将处理器的核心数量大
幅度提升至40个,相比之前产品的28
个,大约提升了40%。在同一个架构
基础上提升如此多的核心数量还是
英特尔用Intel Data Plane Development Kit(DPDK)BasicFwd应用程序测
试表明新的处理器大幅度降低了数据延迟。
第三代至强可扩展处理器在安全方面的特性
第三代至强可扩展处理器在云计算方面的改进
第三代至强可扩展处理器对比第二代至强可扩展处理规格变化情况
2021
年5月
88
和控制问题,实际上它代表着AMD和
英特尔两个厂商在设计思路和整体
架构上的巨大差异。我们在下文再进
一步详细解读。
内存方面,英特尔也给出了一
些数据。这些数据显示AMD的内存延
迟要比英特尔产品高一些,显然这是
因为AMD采用Chiplet架构,而英特尔
的内存控制器在Mesh的节点上,跨插
座的话,AMD延迟也会更大。容量层
面,英特尔因为支持傲腾,所以可以
做到总容量更大。
的话,英特尔发现需要放弃环形总
线,于是后来改用了网状总线,也就
是本文提到的Mesh总线。
英特尔首次使用Mesh总线是在
已经退市的至强融核处理器中,这种
处理器有72个内核,因此环形总线是
不可能为其工作的,在这个处理器中
所有的内核沟通都依靠新的Mesh总
线。相比环形总线,Mesh总线相当于
为每一个处理器核心都增加了所有
方向的数据沟通接口,形成了一个网
格状分布,网格的交叉则落点在处理
器的单个核心上。根据英特尔给出的
资料,Mesh总线和整个SoC架构是由
不同的功能片(Tile)组成,这些功能
片形形色色,包括UPI、PCIe总线控制
器、内存控制器、DMA和CBDMA、CPU
核心以及CHA、SF和LLC等。其中CHA
(Caching and Home Agent)是指缓存
功能和本地代理,SF(Snoop Filter)是
指Snoop过滤器,LLC(Last Level Cache)
是指末级缓存,也就是L3缓存。
在这里我们可以看到,Mesh架
构将处理器的每个核心以“分布式”
的方式分散为片,英特尔只需要通
过Mesh架构将不同的片组织起来
即可。举例来说,在Mesh架构下,通
过一个CHA/SF/LCC片搭配一个CPU
核心片,就可以组成一个节点,几
乎包含了一个处理器除了外部IO以
外的所有功能。然后再为这个节点
设置好本地CMS(Converged/Common
Mesh Stop,信息Mesh站)就可以挂接
在Mesh网络中了。CMS主要是用于监
听、过滤、接收不同地方的信息,并
且还要帮助其他处理器实现信息的
转发。CMS站直接和处理器的LLC部
分连接,并且和自己上方、下方、左
方、右方四个方向的CMS站连接(如
果有)。由于这种网络连接的形态,
外加位于同一芯片上,因此可以实现
非常低的延迟。对CPU来说,在操作
上也不需要区分L3的位置,只需要
将需求交给Mesh网络即可通过片上
通信高速地转发和寻找得到信息。
英特尔首次启用Mesh网络是在
深挖:40核心的Mesh架
构探秘
英特尔在多核心处理器的架构
上使用过数个架构,包括非常有名的
环形总线。其特点是延迟随着核心
数量提高而提高,因此最终承载核心
数量的能力是有限的。在英特尔的
实际产品中,环形总线最多承载了28
个核心。如果要进一步扩展更多核心
第三代至强可扩展处理器对比第三代EYPC处理器缓存延迟数据
处理器
架构
L1命中所需延迟周期
L2命中所需延迟周期
L3在当前处理器命中所需延迟
L3在其他处理器命中所需延迟
英特尔至强白金8380
Ice Lake
5
14
21.7ns
118ns
AMD EPYC 7763
Zen 3
4
12
13.4ns或112ns
209ns
英特尔至强白金8280
Cascade Lake
4
14
20.2
180ns
Skylake-SP处理器上,这款处理器拥
有最多28个核心。为了区分不同的市
场并获得更好的良率,英特尔将其
分为10个核心以下的LCC产品、18个
核心以下的HCC产品以及拥有28个
核心的XCC产品,所有类型的产品都
采用的是Mesh网络连接。其最大的
XCC产品采用6×6的模块化设计,顶
部6个单元分别是3个PCIe控制器片、
2个UPI片、一个混合了PCIe、DMI和
CBDMA功能的混合片。下部的CPU采
用6X5设计,总计30个单元,其中2个
单元被内存控制器占用,所以最大
核心数为28个。从Skylake-SP开始到
上一代Cascade Lake SP,英特尔一直
维持这样的架构,基本没有大的变
化。在这种设计下,根据英特尔Mesh
通信先竖向查找、后横向查找的工
作模式,最远的通路是最左下角的
CPU核心至最右上角的PCIe控制器,
它们进行数据传输过程如果包含自
表注:AMD EPYC 7763的L3在当前处理器命中所需延迟为13.4ns(本地缓存命中,小于32MB)或
112ns(异地缓存命中,大于32MB)
第三代至强可扩展处理器对比第三代EYPC处理器内存延迟数据
处理器
架构
最大内存配置情况
本地内存读取延迟
跨插座内存读取延迟
最大内存容量
英特尔至强白金8380
Ice Lake
2DPC 3200/2933/2666
85ns
139ns
6TB(DDR+PMem)或4TB(DDR)
AMD EPYC 7763
Zen 3
1DPC 3200或2DPC 2933/2666
96ns
191ns
4TB(DDR)
英特尔至强白金8280
Cascade Lake
1DPC 2933或2DPC 2666
81ns
138ns
4.5TB(DDR+Pmem)或3TB DDR
第三代至强可扩展处理器对Mesh架构做出了显著修改
Ice Lake SP 40核心处理器内部Mesh架构图
89
2021
年5月
己的节点的话,那么就需要经过11个
节点。
在最新的第三代至强可扩展处
理器也就是Ice Lake SP上,英特尔为
了拥有更多的核心,扩展了Mesh架
构的布局。全新的Ice Lake SP采用的
是8×7结构,横向有8个片,纵向有7
个片。顶部和最下部包含了所有的IO
接口模块,另外还包含了三个占位符
(Dummy)和4个处理器核心以及缓
存。和上代产品有所不同的是,本代
产品的IO功能片分列在整个Mesh阵
列的上端和下端,这可能是考虑到
处理器通讯的便捷性,不用都集中
在某一个方向进行数据传输,降低
产生数据链路热点的可能性。
Ice Lake SP的CPU core Mesh架构
的横向深度最多为8、纵向深度最多
为6,从规格上来看的话是一个8×6
的设计,相比上代CPU部分6×5(整
体为6×6)的设计扩大了不少。不过
Mesh的特点在于内部两两互联,在
Ice Lake SP上,Mesh路径最远的通路
应该是左上角的CPU核心向右下角的
环形总线架构介绍
环形总线架构在现在来看依旧是以一个非常经典且实
用的设计,在核心数量较低的时候,能够非常好地满足核心内
部的数据互通问题。而环形总线的发展也经历了单环、双环
和多环等多个阶段。
当早期核心数量较少(小于10个)时,英特尔使用单环来
连接CPU核心、内存控制器、PCIe总线控制器、PCU等所有部件
并通过路由器的方法互相通信,此时如果某个核心的数据需
要到达另一个核心,那么只需要将其发送至环并且在环上传
输即可。虽然可能由于核心的距离等存在一定的延迟,但是
在当时的技术条件下也是非常不错的设计方案。不过,在核心数
量进一步增加后(小于20个),由于单环存在方向性,因此距离
较远的核心通信延迟就开始变高。对于这类产品,英特尔使用了
两个方向相反的双环,中间用CrossBar连接。双环通信进一步扩展
了环状总线可以容纳的核心数量,但是两个不同环之间通信延
迟会增加。
在双环通信之后,处理器的核心数量进一步提升至30个左
右时,单独依靠双环就显得非常难以为继了。因此,英特尔将处
理器核心数量进行了划分,10个和10个以下的核心数量成为一
种产品,被称为LCC,采用单环通信;10到20个之间核心数量的产
品采用的是双环通信,被称为HCC;在20到30个核心的产品上,
英特尔设计了1个单环和1组双环,并将两个环用Crossbar连接起
来,被称为XCC。此时两个不同环的处理器发送数据需要先发送
至当前处理器的环站,再上环后送至Crossbar,然后再下站至另一
个环,最后进入目标处理器的环站。这意味着大幅度增加了数据
传输延迟,两个不同环的处理器被认为是片上“非均匀内存访问
(NUMA)”,但是英特尔声称其利用相关的内存感知技术,尽可
能将数据保留在本地核心所需的环内,避免出现跨环访问数据
延迟过高的情况。
环形总线对比Mesh总线对比图
24核心的至强E5 v4处理器(XCC配置),就已经开始采用2个双向环形
总线了。
环形总线时代的LCC、MCC、HCC。可见MCC采用了一个额外的单环。
2021
年5月
90
PCIe控制器传递数据,整个传输过程
如果包含自己的节点的话,需要经过
13个节点,比上一代节点增加了2个,
增加的实际延迟每多一个节点大约
会增加10ns左右。而且,由于Ice Lake
SP的Mesh架构中IO节点分布在整个
架构的上下两侧,所以一般来说CPU
核心会通过靠近自己的IO片进行通
讯,因此,相比上代产品,延迟增加
也很有限。
英特尔在Ice Lake SP上展示了
Mesh架构的强大生命力,尤其是进
一步扩大芯片规模后并没有增加太
多延迟。不过,在Ice Lake SP上,其
CPU核心数量上还是远远落后于AMD
EPCY 7003系列的单颗最高64核心。
为什么英特尔不进一步扩大Mesh架
构的规模呢?我们推测原因可能有
几方面:一方面,每扩大一圈网格,
都会继续增加总体延迟。目前Mesh
架构下,英特尔自己的数据都显示
其L3延迟情况是略差于AMD在32MB
L3以内的数值的,这可能和Mesh总
线本身的运行特性有关,如果继续
增加Mesh的规模,远距离通讯带来
的延迟是否还会继续增加?是否延
迟增加后会带来性能损失或者对整
个处理器的性能平衡带来影响呢?
相信英特尔自己的实验室是有结论
的。另外,由于Mesh架构里还要留节
点布置PCIe、UPI等I/O节点,也就是
说,即使是增加到8×8的规模,也达
不到64个核心。在按目前英特尔透
露的只言片语来看,下一代至强可扩
展处理器的核心数量规模也仅为50
多个核心。
如果进一步将网格扩大两圈至
9×9呢?那么不但有延迟的问题,还
有制程方面的限制。因为即使是英
特尔现在的10nm制程工艺,Ice Lake
SP的40核心产品的芯片面积都超过
了600平方毫米。进一步扩大面积来
获取更多的核心也许会导致良率下
滑。毕竟芯片面积已经足够大了,所
以英特尔下一代产品也未必会用简
单扩圈的方式来增加核心。
在这种情况下,为了确保产品
良率并细分市场,英特尔都会推出
LCC、HCC和XCC三种不同类型的芯
片,但是在本次Ice Lake SP发布会上
英特尔没有提到这个内容,不过,英
特尔展示的部分资料显示依旧有28
核心的配置。因此,Ice Lake SP可能
有10核心、18核心、28核心、40核心
等多个芯片以对应不同的市场。
不过这样的情况可能在下一代
英特尔至强处理器上会发生变化。
LCC、XCC的差异
Skylake-SP处理器也有HCC、
采用Mesh架构的Xeon Phi处理器内部结构示意图
AMD EPYC 7003处理器架构示意图,32MB L3和Chiplet的设计是其出现延
迟差异的重要原因。
清晰可见Chiplet架构的CCD核心和IO核心。
AMD EPYC 7003处理器内部,
91
2021
年5月
一些消息显示,2021年底英特尔新
的、代号为“Sapphire Rapids”的至强
处理器将改用MCM多芯片封装的方
式,目前的消息是每个小芯片最多
14个核心,4个MCM共计56个核心,
CPU的微架构将采用新一代的Golden
Cove,工艺采用10nm SuperFin的改进
版本,TDP功耗预计为400W。新的处
理器可能还会一起封装HBM2高带宽
内存,同时也支持DDR5内存。如果
这个消息最终被确认为真的,那证
明英特尔将在下一代处理器上放弃
Mesh架构,改用类似Chiplet的小芯片
架构,不过具体如何排布整个芯片系
统、是否采用独立的IO芯片以及如何
匹配HBM2缓存和DDR5内存等,还有
待英特尔进一步揭秘。
带来的一些新的功能,包括:在操作
系统、驱动、BIOS、VMM或者SMM被破
坏的情况下还能防止进一步的软件
攻击,在攻击者控制系统或平台的情
况下持续提供数据保护,防止包括内
存总线窥探、内存篡改、RAM内“冷
启动”等攻击,基于硬件认证提供的
有效的代码和数字签名等。这部分内
容并不是本文的重点,因此就不展开
讲述了。
中最高可达第二代产品的1.5倍、第
一代产品的1.6倍、至强E5v4和至强
E5v3的2.34和2.85倍。在浮点测试
Floating PointSPECrate2017_fp_base 中
的性能是之前产品的1.52、1.62、2.6、
3.8倍。其余的还包括内存带宽测
试、LINPACK测试以及Geomen测试,
新的第三代产品都以相当高的幅度
领先了前代对手。其余的一些数据
还包括对比DDIO、AVX-512测试、Intel
Crypto Acceleration、DL Boost开关前后
的数据,这证明新的处理器在功能
和特性上都有非常大的进步。
另外值得注意的是,英特尔特
别使用第三代至强可扩展处理器的
顶级型号也就是至强白金8380(40
核心)的双路系统和AMD EPYC 7763
(64核心)双路系统,运行了有关
AVX-512的高性能计算、AVX-512的
云计算以及支持DL Boost的AI计算后
给出了相关性能的对比。这些测试
显示,英特尔产品在性能中最少能
性能:再度超越
和所有发布会最后的部分一
样,英特尔也带来了大量的性能对比
数据用于证明新的产品比旧的好,我
们来简单来看一下。
英特尔选择第三代至强可扩
展处理器对比第二代、第一代至强
可扩展处理器以及早期的至强E5
等产品。从数据来看,第三代至强
可扩展处理器在整数测试也就是
IntegerSPECrate2017_int_base的测试
可信计算和安全
在第三代至强可扩展处理器发
布会上,英特尔还介绍了有关可信计
算的内容。这部分内容主要是指SGX
AMD EYPC 7003系列处理器简介
本文在这里也简单解释一下英特尔提到的AMD EYPC
7003系列处理器在需要缓存的数据超过32MB L3缓存规模
会导致延迟暴增的问题。根据AMD之前发布会的资料,AMD
EPYC 7003系列处理器采用的是Chiplet设计,分为IO芯片和CCD
芯片。每个CPU芯片拥有8个CPU核心和每个CPU核心绑定的
L1、L2缓存,以及所有8个CPU核心共享32MB L3缓存。整个处
理器拥有8个CCD芯片和1个IO芯片。
因此当同一个CCD芯片上的CPU核心访问本地缓存的时
候,延迟是非常小的,甚至小于英特尔的Mesh架构,这是因为
同一个CCD芯片上的CPU核心可以访问全部32MB缓存。但是,
如果不同CCD芯片之间存在缓存访问的话,整个访问路径就需
要跨过IO核心,延迟更接近于不同CPU插槽之间的访问延迟,
比如AMD在这种情况下延迟高达112ns,接近英特尔跨插槽的
延迟118ns。在不同插槽之间存在数据访问时,AMD方案需要
跨越两个IO芯片才能得到数据,因此延迟更高,高达209ns。这
就是Chiplet这类架构设计的弱点之一。当然,AMD也会考虑对
此架构进行优化,将缓存数据优先放在最靠近的L3缓存中。
毕竟32MB的缓存也足够大。按AMD的统计数据,很少有应用
程序的缓存数据能够占满这么大的空间。
AMD采用Chiplet的架构设计也有自己独特的优势。那就是
更容易扩展核心数量且更方便制造、成本更低。在更容易扩展核
心数量方面,目前AMD推出64核心的处理器,采用了8个CPU芯片
(被称为CCD),这8个CCD配合一个IO核心就实现了CPU核心数量
上对竞争对手的碾压。并且有消息称,下一代产品AMD会将单个
CCD中的CPU核心数量提升至12个,这样一来AMD就可以获得96核
心的处理器。
至于AMD为什么不使用更多的CCD来连接搭配IO芯片,主要
的原因可能还是目前CPU的PCB基板已经无法容纳更多的芯片布
线了。AMD的Chiplet方案只需要分开生产面积较小的CCD和IO芯
片,其中CCD的面积仅为73平方毫米,几乎只有英特尔完整CPU芯
片的大约1/9。而AMD使用8颗芯片的总面积也只有约580平方毫
米。从工艺良品率的角度来看, 8颗73平方毫米芯片的生产难度
要远远低于生产一颗560平方毫米的芯片,即使算上IO芯片的460
平方毫米(12nm工艺制造,成本不高),AMD在总面积接近1000
平方毫米的情况下,有可能成本上相对英特尔一个600平方毫米
的芯片还更便宜。
2021
年5月
92
够取得相对AMD产品1.18倍的性能增
幅,最多可以取得25倍的性能增幅。
这显示了英特尔在指令集、软件支
持以及行业方面的巨大优势。当然,
这样的比较对AMD来说略显不公,因
为AMD目前尚不支持这些指令集,但
两家是有专利互相授权的,所以AMD
未来会支持也不一定,就好像现在
AMD也支持AVX256。不过,至少目前
来说,如果用户和市场有这类专项需
求,英特尔还是优势十分明显的。
多28个提升至最多40个,CPU架构采
用了最新的Sunny Cove;
2. L1、L2和L3缓存容量受益于
全新的Sunny Cove架构,得到了显著
提升;
3. PCIe通道从之前的最多48个
增加至最多64个,且升级至PCIe 4.0
标准;
4. 支持的最大内存容量提升至
4TB,前代为3TB;
5. 支持全新的SGX Enclave安全
特性;
6. 处理器插槽的数据传输带宽
增加了7%;
7. 支持DDR4-3200和傲腾DC
PMM 200系列;
8. 性价比的提升;
9. 当然,还是有一些变弱的数
据:比如单核心最高频率降低了,从
之前的最高4GHz降低至3.4GHz;
10. 多核心最高频率也降低了,
从之前最高3.3GHz降低至3GHz。
11. TDP增加了大约32%,从最高
205W提升至270W,其实对应芯片数
量增加的规模和频率降低的规模来
看,这是符合预期的。
总的来说,凭借全新的10nm工
艺、全新的Sunny Cove架构、全新的指
令集支持、全新的安全控制技术以
及扩展的Mesh架构等技术升级,10nm
工艺的英特尔第三代至强可扩展处
理器产品实力力大增,将给竞争对手
带来更多的压力。
迈向新的计算时代
在本文的最后,我们再来总结
一下相关的内容。第三代至强可扩展
处理器相比前代产品的提升是:
1. CPU核心数量从前代产品的最
英特尔第三代至强可扩展处理器对比第二代、第一代至强可扩展处理器以及早
期的至强E5等产品的性能相对值
第三代至强可扩展处理器特殊功能的性能提升情况
英特尔公布第三代处理器产品对比第二代产品的部分性能测试成绩运行有
英特尔使用至强白金8380双路系统对比AMD EPYC 7763双路系统,
关AVX-512的高性能计算、AVX-512的云计算以及支持DL Boost的AI计算后给
出的性能对比。
93
2021
年5月