2024年2月28日发(作者:王嘉茂)
Tech超强图形性能护航5G时代ARM今年的新品不但有新的CPU架构,还有全新的GPU架构。在今年的年度发布会上,ARM公布了全新的GPU架构,也带来了全新的GPU型号Mali-G77。随着移动产品的应用范围和适应场景不断扩大,ARM也在积极调整产品以满足越来越大的计算量需求。Valhall GPU架构和Mali-G77就是为应对这样的情况而生的。本文将带来ARM这一新架构的深入解读。 文/图 张平解析ARM Valhall GPU架构及Mali-G77ARM上次发布新的GPU架构还是在大约3年前。随着近年来技术和应用的发展,ARM是时候推出全新架构了,这就是我们今天要谈的“Valhall”架构。从ARM给出的资料来看,Valhall架构在性能、密度和效率方面有着重大改进。虽然部分改进在去年的Mali-G76上就已经出现,但是架构级别的全面改进,则在采用Valhall架构的Mali-G77上才会全部显现。回顾Biforst—ARM在移动GPU上的演进上的底蕴并不深厚,一个典型的例证 ARM Mali-G77正式发布实话实说,ARM在移动GPU设计它发布于2016年,华为海思旗下的麒麟960和三星Exynos 8895两款SoC使用了这款GPU。当时人们对这款GPU报以非常高的期望,毕竟这是ARM在GPU架构上做出的重大变化—Biforst是ARM首个标量GPU架构,彻底改变了之前的矢量GPU设计。在桌面GPU上,类似的改变这发生得比较早,包括英伟达在大约十年前推出的Tesla(GT200系列)架构以及AMD在大约五年前推出的GCN架构,都是由矢量转换为标量计算,基础架构的变化代表的是未来的发展方向。Biforst也做出了这样的变化,但是Biforst架构的产物Mali-G71和Mali-G72表现并不出色,甚至对三星就是ARM前几代移动GPU无论是架构还是产品的表现都不够出色,这样的情况一直持续到Biforst架构出现,但是Biforst架构的前两款产品依旧存在不少问题。首款Biforst架构的GPU是Mali-G71,2019年8月90官方版权认证(读览天下)
应用与技术和华为的产品规划带来了负面影响,比如麒麟960和麒麟970在GPU性能方面的表现令人失望,尤其是面对来自高通骁龙的同代次产品时。好在ARM也看到了这样的情况,在Biforst架构的最后一次迭代也就是第三款产品上,解决了部分问题,带来了性能的飞跃。Mali-G76的表现大大提升了ARM GPU在消费者心中的地位,并且改善了Exynos
9820和麒麟980的性能,使得这两款SoC能够更好地面对激烈的市场竞争。但是,Biforst架构的迭代和Mali-G76的出现,并不意味着ARM在移动GPU市场中的情况变得更好了。实际上,其竞争对手的进步速度更快。高通的Adreno移动GPU架构一直以来都在引领着移动GPU的发展,尽管今年的Adreno 640并没有取得令人印象深刻的性能改进,但是它的能效比、密度和绝对性能依旧领先ARM的相应产品。另处理器
iPhone XS (A12) Warm
iPhone XS (A12) Cold / Peak
Galaxy 10+ (Snapdragon 855)
Galaxy 10+ (Exynos 9820)
Galaxy S9+ (Snapdragon 845)
Huawei Mate 20 Pro (Kirin 980)
Galaxy S9 (Exynos 9810)
Galaxy S8 (Snapdragon 835)
LeEco Le Pro3 (Snapdragon 821)
Galaxy S7 (Snapdragon 820)
Huawei Mate 10 (Kirin 970)
Galaxy S8 (Exynos 8895)
Galaxy S7 (Exynos 8890)
Meizu PRO 5 (Exynos 7420)
Nexus 6P (Snapdragon 810 v2.1)
Huawei Mate 8 (Kirin 950)
Huawei Mate 9 (Kirin 960)
Huawei P9 (Kirin 955)
工艺
7FF
7FF
7FF
8LPP
10LPP
7FF
10LPP
10LPE
14LPP
14LPP
10FF
10LPE
14LPP
14LPE
20Soc
16FF+
16FFC
16FF+
外,苹果全新A12 SoC的GPU能效比表现更是相当出色,远远领先目前市面上的几乎所有竞争对手,包括高通和ARM。移动SoC市场的竞争激烈程度可见一斑。在工艺上进步不大,因此其性能提升主要来自架构设计,也就是Valhall和Mali-G77的架构优势。深入Valhall架构—全新设计的现代GPU架构在显著差异,虽然其架构本质依旧采用了标量涉及,但和Biforst异常狭窄的4宽度和8宽度不同的是,Valhall的执行核心架构更类似于AMD和英伟达的桌面GPU产品。Valhall的全面进化全新的Valhall架构和前代产品存Valhall在架构层面带来了全新的变化,包括新的ISA和计算核心设计。这些设计可以解决Biforst的主要缺点,并且看起来它和其他移动GPU供应商的设计思路更为相似了。Valhall的第一次迭代产品就是Mali-G77,接下来本文将讨论Valhall架构的设计和改进方向。根据ARM提供的数据,Mali-G77相比前代产品Mali-G76,其能效比提升30%,面积密度提升30%,机器学习性能提升60%。综合性能增加40%。另外值得一提的是,由于下一代SoC平均帧数(fps)
76.51
103.83
70.67
68.87
61.16
54.54
46.04
38.90
33.04
30.98
37.66
42.49
29.41
14.45
21.94
10.37
32.49
10.59
平均功率(W)
3.79
5.98
4.88
5.10
5.01
4.57
4.08
3.79
4.18
3.98
6.33
7.35
5.95
3.47
5.44
2.75
8.63
2.98
性能功耗比20.18 fps/W17.36 fps/W14.46 fps/W13.48 fps/W11.99 fps/W11.93 fps/W11.28 fps/W10.26 fps/W7.90 fps/W7.78 fps/W5.94 fps/W5.78 fps/W4.94 fps/W4.16 fps/W4.03 fps/W3.77 fps/W3.77 fps/W3.55 fps/W前代Biforst架构的Mail-G71和Mali-G72在核心执行架构上的设计比较紧凑,采用了4宽度的SIMD单元组成,其波前阵列(warp)宽度也为4。在Mali-G76上,ARM将波前阵列尺度提升至8,相比前代产品翻了一倍。所谓波前阵列宽度,是指处理器一次能够吞吐多少数据。在计算中,数据的长度往往会根据实际计算而变化,可能是2、4、8、16等,逻辑控制单元需要拆分、合并一个或者多个计算数据,并打包成波前阵列所需要的长度后,才会将数据导入波前阵列,等待进入计算单元。如果波前阵列设计得过宽,那么在面临大量小数据计算并存在一定相关性时,可能无法完全填充GPU核心,造成浪费。较小的波前阵列可以避免这个问题,在某些情况下能够提高单元工作效率,但是在大量长度较长的数据来临时,较小的波前阵列设计反而会成为计算瓶颈,逻辑控制单元需要不断拆分数据以适应较小的波前阵列设计,瓶颈将转移至逻辑控制单元。此外,较小的波前阵列需不同代次GPU的性能和能耗比数据(GFXBench Manhattan 3.1 离屏模式功耗效能测试,系统激活功耗) Valhall带来了大量全新特性和全新的Mali-G77 Mali-G77的性能提升情况 Mali-G77能带来最多1.4倍性能提升91官方版权认证(读览天下)2019年8月
Tech要更多的逻辑控制单元才能满足控线程需求,都使得更宽的波前阵列设辑,自己的调度程序、指令缓存、寄存制需求,更为耗费晶体管资源。计逐渐成为主流。在这种情况下,新器文件和消息传递模块,这自然会带以当时的眼光来看,移动GPU计的Valhall架构顺势采用了16宽度的波来大量的晶体管开销。在高端GPU上,算中并没有太高的性能需求,在Biforst前阵列。虽然相比英伟达和AMD的32这样的设计就显得颇为浪费,因为高时代采用较窄的、4宽度的波前阵列宽和64宽,16宽依旧显得小了一些,但端GPU往往会采用更多的执行引擎,设计能够有效降低ALU上的空闲周期是考虑到这是一款移动GPU并且上代如果都采用多执行引擎设计的话,每量,同时ARM希望以更多的逻辑控制产品只采用了4宽度,这样的改进还是一个执行引擎都有自己的一套“班单元来实现更好的ALU利用率。但是颇为显著了。子”且会进行重复的工作,晶体管会在数年后,这种设计显得有些落伍。除了波前阵列外,新架构在执行被大量浪费。现在来看,移动游戏正在迅速地向更引擎的设计上也有所调整。之前Biforst
Mali-G77改变了这种状况。高的计算复杂程度迈进,大量PC移GPU甚至Midgard GPU在设计上采用的Mali-G77将前几代的小型执行引擎整植游戏的存在,以及移动游戏本身对是多执行引擎方案,每个执行引擎将合在一个带有共享控制逻辑的大型IPShader的要求日益提升,加上更多的多拥有自己的专用数据路径和控制逻模块中。新引擎的IP设计依然存在一
Valhall架构总览
Valhall架构的基本改进一览
Mali-G77的引擎微架构简图
Mali-G77的前端设计
Mali-G77的引擎计算单元设计
Mali-G77对比之前的Mali-G762019年8月92官方版权认证(读览天下)
应用与技术些重复的地方,比如ALU流水线被划分为两个“群集”,每个群集都有自己的16宽度的FMA单元以及相应的执行单元。相比前代方案,这样的设计大幅度降低了晶体管使用量,能够让更多晶体管投入到有效的计算中去。它在ISA方面也有所改变,ARM简化了很多指令。目前还没有更多细节可供参考,但新的ISA更容易编译,并经过重新设计和调整,使得其可以更好地与现代API,比如Vulkan保持一致。和之前在Biforst中使用的ISA相比,新ISA采用了一部分新编码,更为规整和易用。另外,新ISA在指令调度上带来了重大改进。Valhall架构所采用的新ISA摆脱了固定的issue调度、clauses子句和tuples元组。在Biforst中,ARM将指令的调度委托给编译器,并且将指令分组到所谓的子句中。这种做法在实际应用中的效果尚可,但需要在编译器上投入大量工作才能隐藏指令和数据访问之间的延迟,因此颇为麻烦。在Valhall中,这些编译器的复杂工作都将不复存在。因为ISA的调度将完全由硬件完成,更类似乱序执行的CPU的工作方式。这种设计还意味着ISA和微架构的脱节,更具前瞻性。新ISA带来了一些其他方面的优化,包括纹理增强能力的加强,几何流的优化和ARM帧缓冲压缩技术的优化等(版本升级至1.3)。进一步深入研究执行引擎的话,可以发现执行引擎分为四个块,分别是:波前阵列调度程序、指令缓存的前端、两个相同的数据路径集群(处理单元)以及和消息块连接的加载/存储单元、固定功能模块等。Mali-G77的前端最多支持64宽的波前阵列和1024个线程。每个处理单元具有3个ALU:FMA和CVT的波前阵列都是16宽度,而特殊的SFU波前阵列采用了4宽度。SFU并不是常用的单元,因此并不需要太大的吞吐量。Mali-G77的前端可以创建或者退回波前阵列数据,并且为所有的波前阵列进行状态跟踪。另外,Mali-G77前端还增加了一个动态调度功能,这个功能可以决定每个波前阵列将执行哪些指令,还可以将等待中的相关联波前阵列替换为准备执行的无关联波前阵列,尽可能提高执行效率。指令缓存方面,Mali-G77的前端指令缓存采用的是共享设计模式,并且是16KB、4路关联的方式,支持2048个指令,每周期可以发出4个指令。在实际的处理单元(集群)中,Mali-G77设计了4个可以发送指令到算术单元的拾取单元。每个拾取单元都设计了一个精密耦合的寄存器,以及一个用于减少访问寄存器文件延迟的转发缓冲区。FMA ALU每周期支持16个FP32
FMA,是FP16的2倍,也是INT8点阵的2倍。转换单元处理基本整数操作和自然类型转换操作,同时也会被用作分支端口。
Mali-G77的Shader核心结构简图
Mali-G77的纹理单元架构简图
Mali-G77的纹理单元吞吐量是前代产品的2倍
Mali-G77的LSC设计93官方版权认证(读览天下)2019年8月
Tech总的来看,相比Mali-G76,微架构的主要改变是在吞吐量的设因此现在的纹理、像素比率是2∶1,前Mali-G77的执行引擎资源更为丰富,类计上。新的设计被分为2个路径,其代产品则是1∶1。似于一台发动机和三台发动机之间的中一个是命中路径,另一个是未命中Shader核心模块中的另一个重区别。Mali-G77的引擎在主数据路径上路径,后者可以用于处理缓存内部或要改进是新的读取存储缓存。这个有更多的资源,并且控制和指令缓存者纹理缓存外部的未命中情况。命中新模块在功能上和之前的模块相同,所占据的空间更少,从而提高了整个路径自然是皆大欢喜的最短延迟优但是经过了重新设计,能够接受更多计算模块的面积效率。化路径。此外在命中路径方面,纹理的吞吐量。在同一区域内,由于缓存在延迟方面,新架构的ALU延迟缓存得到了大幅度改进,变成32KB容重新设计,因此对应管道阶段的延迟将变为4个周期深度,之前的产品为8量,并且能够达到16个纹理每周期的也降低至前代产品的一半。另外,新个周期。这样的变化可以在没有链路吞吐量。滤波单元也得到了改进,其缓存的带宽也增加了,达到前代产品操作时提高性能。此外,新核心具有吞吐量也有所提高。在Mali-G77上,双的2倍。具体规格方面,缓存的大小为类似超标量的功能,而不是过去的管线性纹理每循环支持一个四边形处16KB、4路关联,据说对机器学习等类状设计。由于延迟降低,整个核心流理,三线性纹理每循环支持半个四边似负载非常有用。水线必须进行重新设计,这也是编译形处理,这两者都达到了Mali-G76类似最后,我们将所有的部件放在一器简化的重要原因之一,因为编译器单元吞吐量的2倍。起,并从Shader级别扩展至GPU级别之不需要再匹配同时发出的指令,大大同样,ARM也表示Mali-G77的新后,可以看到ARM是如何重新组织各降低了复杂程度。纹理单元和Mali-G76基本相同,不过吞个单元模块而成为一个完整GPU的。吐量倍增还是显示出这是一个非常目前新的架构支持Shader核心从1核心Mali-G77架构解读好的工程改进实例。扩展至32核心(Mali-G77最多只能支持在看过基本架构的设计后,再从根本上来说,核心纹理能力的16个核心)。另外,ARM为RTL版本准来看看Mali-G77微架构设计的内容。这种大幅度增加改变了GPU的ALU∶Tex备的最小核心设计采用了7个Shader核Mali-G77微架构从整体来看和上一代的比率。尽管ALU的计算能力增加了心。ARM还有可能公布诸如Mali-G52这产品存在很多相似之处,但是在一些33%,但是纹理单元的吞吐能力翻倍样的小核心方案,以满足不同用户的重要的模块上存在明显的变化。意味着比率回归到了一个比较低的水需求。Mali-G77的Shader核心依旧包含执平,更有利于纹理吞吐量。相比之下,行引擎,其中包含了高速缓存的加载过去的GPU更重视计算性能。ARM认和存储单元、属性(attribute)单元, 变为这是面对新的工作负载所需要进行PPC和效率提高30%前文描述了很多Valhall架构以及化(varying)单元、纹理映射单元和像的改变,因为如今GPU在纹理方面的Mali-G77的变化。当然,所有的这些设素后端,以及各种其他的3D固定功能压力变得更大。计最终需要转化为性能、效率等各方模块。其中变化最大的是纹理单元模需要注意的是,虽然纹理单元过面的表现,才能体现出它的意义。块,和Mali-G76相比,新的纹理单元模滤、吞吐量大幅度增加,但是像素后ARM同样给出了相关性能的预块吞吐量增加了一倍。端吞吐量却没有增加。在这里,Shader览图。不过本次发布的性能预览和从高级功能来看,新纹理单元核心依旧只能每时钟抽取2个像素,过去存在很大差异,ARM采用了每平
Valhall架构的GPU设计,最多可以支持32个GPU并行。
Mali-G77在宏观上的设计变化2019年8月94官方版权认证(读览天下)
应用与技术方毫米的性能作为对比单位。一般来说,由于芯片厂商会根据自己的不同市场定位和需求进行配置,因此采用某种固定GPU核心数量和频率的方案进行比较的话,覆盖面不够广泛。因此ARM改用了每平方毫米性能作为对比参数。ARM宣称,Mali-G77相比前代产品,能够提供1.2倍到1.4倍每平方毫米性能的提升。从绝对意义上看,Mali-G77的Shader核心和Mali-G76的面积相同。这意味着供应商在相同的性能需求下,可以选择更小的GPU,或者使用更多的GPU核心(当然需要更多的面积)来提高性能。尤其是ARM声称Mali-G77在重纹理游戏中的性能表现更为出色,因此未来设备在不同的工作负载下性能表现到底如何,这样是一个值得探寻的话题。提高性能的另一个方法是提高时钟频率。不过在移动SoC中,限制来自功耗,智能手机的SoC最多只能容纳4W~5W的TDP功耗。在性能比较中,一些消息显示在完成相同工作负载的情况下,Mali-G77的能源消耗降低了17%~29%。换句话来说,Mali-G77的每瓦特性能是前代产品的1.2倍到1.39倍。ARM表示,Mali-G77的基本频率不会发生太大变化,ARM依旧以850MHz作为其目标值。在横向对比方面,ARM宣称其在与采用Mali-G76的三星Exynos 9820对比时,新处理器的性能将提升1.4倍,这意味着未来采用Mali-G77架构的SoC将以更高的能耗比(假设维持目前的功率水平),提供接近苹果A12处理器的GPU性能。这将给高通带来巨大压力,因为这样的性能表现将显著超越目前的高通所使用的Adreno 640。不过高通也将发布全新的SoC产品,让我们拭目以待吧。此外,在目前大热的机器学习方面,Mali-G77的性能相比上代产品提升了60%,这不仅是由于内核数量增加了33%,还包括LSC以及带宽所带来的性能提升。最后,ARM也展示了Mali
GPU家族性能提升的代际比较。ARM宣称其每代能耗比提升幅度大约是30%,Mali-G77相比Mali-G72更是节约了50%的能源。ARM的又一次跃进从官方资料来看,Valhall架构和Mali-G77将成为ARM近期的重大技术革新。全新的架构将改变ARM在移动GPU竞争中的态势,使得ARM可以提供更好的GPU架构和技术。新产品将会带来更好的表现,毕竟Valhall架构是一个具有潜力的架构,ARM还将基于它推出更多产品。从实际产品来看,今年晚些时候或者明年初,我们就可能看到三星或华为推出了基于Valhall架构和Mali-G77的相关SoC产品。目前来看,Mali-G77能够带来出色的性能和效率提升,这使得三星和华为的处理器能够进一步缩小甚至超越和苹果、高通的产品,尤其是高通的Aderno GPU,可能将面临更为严峻的挑战。
ARM此次拿出了每平方毫米性能进行对比
Mali-G77的机器学习性能大约提升了60%Mali-G77只需要耗费一半的能源。
相比Mali-G72,
Mali-G77的全新设计带来了更强的性能功耗比和更出色的性能95官方版权认证(读览天下)2019年8月
2024年2月28日发(作者:王嘉茂)
Tech超强图形性能护航5G时代ARM今年的新品不但有新的CPU架构,还有全新的GPU架构。在今年的年度发布会上,ARM公布了全新的GPU架构,也带来了全新的GPU型号Mali-G77。随着移动产品的应用范围和适应场景不断扩大,ARM也在积极调整产品以满足越来越大的计算量需求。Valhall GPU架构和Mali-G77就是为应对这样的情况而生的。本文将带来ARM这一新架构的深入解读。 文/图 张平解析ARM Valhall GPU架构及Mali-G77ARM上次发布新的GPU架构还是在大约3年前。随着近年来技术和应用的发展,ARM是时候推出全新架构了,这就是我们今天要谈的“Valhall”架构。从ARM给出的资料来看,Valhall架构在性能、密度和效率方面有着重大改进。虽然部分改进在去年的Mali-G76上就已经出现,但是架构级别的全面改进,则在采用Valhall架构的Mali-G77上才会全部显现。回顾Biforst—ARM在移动GPU上的演进上的底蕴并不深厚,一个典型的例证 ARM Mali-G77正式发布实话实说,ARM在移动GPU设计它发布于2016年,华为海思旗下的麒麟960和三星Exynos 8895两款SoC使用了这款GPU。当时人们对这款GPU报以非常高的期望,毕竟这是ARM在GPU架构上做出的重大变化—Biforst是ARM首个标量GPU架构,彻底改变了之前的矢量GPU设计。在桌面GPU上,类似的改变这发生得比较早,包括英伟达在大约十年前推出的Tesla(GT200系列)架构以及AMD在大约五年前推出的GCN架构,都是由矢量转换为标量计算,基础架构的变化代表的是未来的发展方向。Biforst也做出了这样的变化,但是Biforst架构的产物Mali-G71和Mali-G72表现并不出色,甚至对三星就是ARM前几代移动GPU无论是架构还是产品的表现都不够出色,这样的情况一直持续到Biforst架构出现,但是Biforst架构的前两款产品依旧存在不少问题。首款Biforst架构的GPU是Mali-G71,2019年8月90官方版权认证(读览天下)
应用与技术和华为的产品规划带来了负面影响,比如麒麟960和麒麟970在GPU性能方面的表现令人失望,尤其是面对来自高通骁龙的同代次产品时。好在ARM也看到了这样的情况,在Biforst架构的最后一次迭代也就是第三款产品上,解决了部分问题,带来了性能的飞跃。Mali-G76的表现大大提升了ARM GPU在消费者心中的地位,并且改善了Exynos
9820和麒麟980的性能,使得这两款SoC能够更好地面对激烈的市场竞争。但是,Biforst架构的迭代和Mali-G76的出现,并不意味着ARM在移动GPU市场中的情况变得更好了。实际上,其竞争对手的进步速度更快。高通的Adreno移动GPU架构一直以来都在引领着移动GPU的发展,尽管今年的Adreno 640并没有取得令人印象深刻的性能改进,但是它的能效比、密度和绝对性能依旧领先ARM的相应产品。另处理器
iPhone XS (A12) Warm
iPhone XS (A12) Cold / Peak
Galaxy 10+ (Snapdragon 855)
Galaxy 10+ (Exynos 9820)
Galaxy S9+ (Snapdragon 845)
Huawei Mate 20 Pro (Kirin 980)
Galaxy S9 (Exynos 9810)
Galaxy S8 (Snapdragon 835)
LeEco Le Pro3 (Snapdragon 821)
Galaxy S7 (Snapdragon 820)
Huawei Mate 10 (Kirin 970)
Galaxy S8 (Exynos 8895)
Galaxy S7 (Exynos 8890)
Meizu PRO 5 (Exynos 7420)
Nexus 6P (Snapdragon 810 v2.1)
Huawei Mate 8 (Kirin 950)
Huawei Mate 9 (Kirin 960)
Huawei P9 (Kirin 955)
工艺
7FF
7FF
7FF
8LPP
10LPP
7FF
10LPP
10LPE
14LPP
14LPP
10FF
10LPE
14LPP
14LPE
20Soc
16FF+
16FFC
16FF+
外,苹果全新A12 SoC的GPU能效比表现更是相当出色,远远领先目前市面上的几乎所有竞争对手,包括高通和ARM。移动SoC市场的竞争激烈程度可见一斑。在工艺上进步不大,因此其性能提升主要来自架构设计,也就是Valhall和Mali-G77的架构优势。深入Valhall架构—全新设计的现代GPU架构在显著差异,虽然其架构本质依旧采用了标量涉及,但和Biforst异常狭窄的4宽度和8宽度不同的是,Valhall的执行核心架构更类似于AMD和英伟达的桌面GPU产品。Valhall的全面进化全新的Valhall架构和前代产品存Valhall在架构层面带来了全新的变化,包括新的ISA和计算核心设计。这些设计可以解决Biforst的主要缺点,并且看起来它和其他移动GPU供应商的设计思路更为相似了。Valhall的第一次迭代产品就是Mali-G77,接下来本文将讨论Valhall架构的设计和改进方向。根据ARM提供的数据,Mali-G77相比前代产品Mali-G76,其能效比提升30%,面积密度提升30%,机器学习性能提升60%。综合性能增加40%。另外值得一提的是,由于下一代SoC平均帧数(fps)
76.51
103.83
70.67
68.87
61.16
54.54
46.04
38.90
33.04
30.98
37.66
42.49
29.41
14.45
21.94
10.37
32.49
10.59
平均功率(W)
3.79
5.98
4.88
5.10
5.01
4.57
4.08
3.79
4.18
3.98
6.33
7.35
5.95
3.47
5.44
2.75
8.63
2.98
性能功耗比20.18 fps/W17.36 fps/W14.46 fps/W13.48 fps/W11.99 fps/W11.93 fps/W11.28 fps/W10.26 fps/W7.90 fps/W7.78 fps/W5.94 fps/W5.78 fps/W4.94 fps/W4.16 fps/W4.03 fps/W3.77 fps/W3.77 fps/W3.55 fps/W前代Biforst架构的Mail-G71和Mali-G72在核心执行架构上的设计比较紧凑,采用了4宽度的SIMD单元组成,其波前阵列(warp)宽度也为4。在Mali-G76上,ARM将波前阵列尺度提升至8,相比前代产品翻了一倍。所谓波前阵列宽度,是指处理器一次能够吞吐多少数据。在计算中,数据的长度往往会根据实际计算而变化,可能是2、4、8、16等,逻辑控制单元需要拆分、合并一个或者多个计算数据,并打包成波前阵列所需要的长度后,才会将数据导入波前阵列,等待进入计算单元。如果波前阵列设计得过宽,那么在面临大量小数据计算并存在一定相关性时,可能无法完全填充GPU核心,造成浪费。较小的波前阵列可以避免这个问题,在某些情况下能够提高单元工作效率,但是在大量长度较长的数据来临时,较小的波前阵列设计反而会成为计算瓶颈,逻辑控制单元需要不断拆分数据以适应较小的波前阵列设计,瓶颈将转移至逻辑控制单元。此外,较小的波前阵列需不同代次GPU的性能和能耗比数据(GFXBench Manhattan 3.1 离屏模式功耗效能测试,系统激活功耗) Valhall带来了大量全新特性和全新的Mali-G77 Mali-G77的性能提升情况 Mali-G77能带来最多1.4倍性能提升91官方版权认证(读览天下)2019年8月
Tech要更多的逻辑控制单元才能满足控线程需求,都使得更宽的波前阵列设辑,自己的调度程序、指令缓存、寄存制需求,更为耗费晶体管资源。计逐渐成为主流。在这种情况下,新器文件和消息传递模块,这自然会带以当时的眼光来看,移动GPU计的Valhall架构顺势采用了16宽度的波来大量的晶体管开销。在高端GPU上,算中并没有太高的性能需求,在Biforst前阵列。虽然相比英伟达和AMD的32这样的设计就显得颇为浪费,因为高时代采用较窄的、4宽度的波前阵列宽和64宽,16宽依旧显得小了一些,但端GPU往往会采用更多的执行引擎,设计能够有效降低ALU上的空闲周期是考虑到这是一款移动GPU并且上代如果都采用多执行引擎设计的话,每量,同时ARM希望以更多的逻辑控制产品只采用了4宽度,这样的改进还是一个执行引擎都有自己的一套“班单元来实现更好的ALU利用率。但是颇为显著了。子”且会进行重复的工作,晶体管会在数年后,这种设计显得有些落伍。除了波前阵列外,新架构在执行被大量浪费。现在来看,移动游戏正在迅速地向更引擎的设计上也有所调整。之前Biforst
Mali-G77改变了这种状况。高的计算复杂程度迈进,大量PC移GPU甚至Midgard GPU在设计上采用的Mali-G77将前几代的小型执行引擎整植游戏的存在,以及移动游戏本身对是多执行引擎方案,每个执行引擎将合在一个带有共享控制逻辑的大型IPShader的要求日益提升,加上更多的多拥有自己的专用数据路径和控制逻模块中。新引擎的IP设计依然存在一
Valhall架构总览
Valhall架构的基本改进一览
Mali-G77的引擎微架构简图
Mali-G77的前端设计
Mali-G77的引擎计算单元设计
Mali-G77对比之前的Mali-G762019年8月92官方版权认证(读览天下)
应用与技术些重复的地方,比如ALU流水线被划分为两个“群集”,每个群集都有自己的16宽度的FMA单元以及相应的执行单元。相比前代方案,这样的设计大幅度降低了晶体管使用量,能够让更多晶体管投入到有效的计算中去。它在ISA方面也有所改变,ARM简化了很多指令。目前还没有更多细节可供参考,但新的ISA更容易编译,并经过重新设计和调整,使得其可以更好地与现代API,比如Vulkan保持一致。和之前在Biforst中使用的ISA相比,新ISA采用了一部分新编码,更为规整和易用。另外,新ISA在指令调度上带来了重大改进。Valhall架构所采用的新ISA摆脱了固定的issue调度、clauses子句和tuples元组。在Biforst中,ARM将指令的调度委托给编译器,并且将指令分组到所谓的子句中。这种做法在实际应用中的效果尚可,但需要在编译器上投入大量工作才能隐藏指令和数据访问之间的延迟,因此颇为麻烦。在Valhall中,这些编译器的复杂工作都将不复存在。因为ISA的调度将完全由硬件完成,更类似乱序执行的CPU的工作方式。这种设计还意味着ISA和微架构的脱节,更具前瞻性。新ISA带来了一些其他方面的优化,包括纹理增强能力的加强,几何流的优化和ARM帧缓冲压缩技术的优化等(版本升级至1.3)。进一步深入研究执行引擎的话,可以发现执行引擎分为四个块,分别是:波前阵列调度程序、指令缓存的前端、两个相同的数据路径集群(处理单元)以及和消息块连接的加载/存储单元、固定功能模块等。Mali-G77的前端最多支持64宽的波前阵列和1024个线程。每个处理单元具有3个ALU:FMA和CVT的波前阵列都是16宽度,而特殊的SFU波前阵列采用了4宽度。SFU并不是常用的单元,因此并不需要太大的吞吐量。Mali-G77的前端可以创建或者退回波前阵列数据,并且为所有的波前阵列进行状态跟踪。另外,Mali-G77前端还增加了一个动态调度功能,这个功能可以决定每个波前阵列将执行哪些指令,还可以将等待中的相关联波前阵列替换为准备执行的无关联波前阵列,尽可能提高执行效率。指令缓存方面,Mali-G77的前端指令缓存采用的是共享设计模式,并且是16KB、4路关联的方式,支持2048个指令,每周期可以发出4个指令。在实际的处理单元(集群)中,Mali-G77设计了4个可以发送指令到算术单元的拾取单元。每个拾取单元都设计了一个精密耦合的寄存器,以及一个用于减少访问寄存器文件延迟的转发缓冲区。FMA ALU每周期支持16个FP32
FMA,是FP16的2倍,也是INT8点阵的2倍。转换单元处理基本整数操作和自然类型转换操作,同时也会被用作分支端口。
Mali-G77的Shader核心结构简图
Mali-G77的纹理单元架构简图
Mali-G77的纹理单元吞吐量是前代产品的2倍
Mali-G77的LSC设计93官方版权认证(读览天下)2019年8月
Tech总的来看,相比Mali-G76,微架构的主要改变是在吞吐量的设因此现在的纹理、像素比率是2∶1,前Mali-G77的执行引擎资源更为丰富,类计上。新的设计被分为2个路径,其代产品则是1∶1。似于一台发动机和三台发动机之间的中一个是命中路径,另一个是未命中Shader核心模块中的另一个重区别。Mali-G77的引擎在主数据路径上路径,后者可以用于处理缓存内部或要改进是新的读取存储缓存。这个有更多的资源,并且控制和指令缓存者纹理缓存外部的未命中情况。命中新模块在功能上和之前的模块相同,所占据的空间更少,从而提高了整个路径自然是皆大欢喜的最短延迟优但是经过了重新设计,能够接受更多计算模块的面积效率。化路径。此外在命中路径方面,纹理的吞吐量。在同一区域内,由于缓存在延迟方面,新架构的ALU延迟缓存得到了大幅度改进,变成32KB容重新设计,因此对应管道阶段的延迟将变为4个周期深度,之前的产品为8量,并且能够达到16个纹理每周期的也降低至前代产品的一半。另外,新个周期。这样的变化可以在没有链路吞吐量。滤波单元也得到了改进,其缓存的带宽也增加了,达到前代产品操作时提高性能。此外,新核心具有吞吐量也有所提高。在Mali-G77上,双的2倍。具体规格方面,缓存的大小为类似超标量的功能,而不是过去的管线性纹理每循环支持一个四边形处16KB、4路关联,据说对机器学习等类状设计。由于延迟降低,整个核心流理,三线性纹理每循环支持半个四边似负载非常有用。水线必须进行重新设计,这也是编译形处理,这两者都达到了Mali-G76类似最后,我们将所有的部件放在一器简化的重要原因之一,因为编译器单元吞吐量的2倍。起,并从Shader级别扩展至GPU级别之不需要再匹配同时发出的指令,大大同样,ARM也表示Mali-G77的新后,可以看到ARM是如何重新组织各降低了复杂程度。纹理单元和Mali-G76基本相同,不过吞个单元模块而成为一个完整GPU的。吐量倍增还是显示出这是一个非常目前新的架构支持Shader核心从1核心Mali-G77架构解读好的工程改进实例。扩展至32核心(Mali-G77最多只能支持在看过基本架构的设计后,再从根本上来说,核心纹理能力的16个核心)。另外,ARM为RTL版本准来看看Mali-G77微架构设计的内容。这种大幅度增加改变了GPU的ALU∶Tex备的最小核心设计采用了7个Shader核Mali-G77微架构从整体来看和上一代的比率。尽管ALU的计算能力增加了心。ARM还有可能公布诸如Mali-G52这产品存在很多相似之处,但是在一些33%,但是纹理单元的吞吐能力翻倍样的小核心方案,以满足不同用户的重要的模块上存在明显的变化。意味着比率回归到了一个比较低的水需求。Mali-G77的Shader核心依旧包含执平,更有利于纹理吞吐量。相比之下,行引擎,其中包含了高速缓存的加载过去的GPU更重视计算性能。ARM认和存储单元、属性(attribute)单元, 变为这是面对新的工作负载所需要进行PPC和效率提高30%前文描述了很多Valhall架构以及化(varying)单元、纹理映射单元和像的改变,因为如今GPU在纹理方面的Mali-G77的变化。当然,所有的这些设素后端,以及各种其他的3D固定功能压力变得更大。计最终需要转化为性能、效率等各方模块。其中变化最大的是纹理单元模需要注意的是,虽然纹理单元过面的表现,才能体现出它的意义。块,和Mali-G76相比,新的纹理单元模滤、吞吐量大幅度增加,但是像素后ARM同样给出了相关性能的预块吞吐量增加了一倍。端吞吐量却没有增加。在这里,Shader览图。不过本次发布的性能预览和从高级功能来看,新纹理单元核心依旧只能每时钟抽取2个像素,过去存在很大差异,ARM采用了每平
Valhall架构的GPU设计,最多可以支持32个GPU并行。
Mali-G77在宏观上的设计变化2019年8月94官方版权认证(读览天下)
应用与技术方毫米的性能作为对比单位。一般来说,由于芯片厂商会根据自己的不同市场定位和需求进行配置,因此采用某种固定GPU核心数量和频率的方案进行比较的话,覆盖面不够广泛。因此ARM改用了每平方毫米性能作为对比参数。ARM宣称,Mali-G77相比前代产品,能够提供1.2倍到1.4倍每平方毫米性能的提升。从绝对意义上看,Mali-G77的Shader核心和Mali-G76的面积相同。这意味着供应商在相同的性能需求下,可以选择更小的GPU,或者使用更多的GPU核心(当然需要更多的面积)来提高性能。尤其是ARM声称Mali-G77在重纹理游戏中的性能表现更为出色,因此未来设备在不同的工作负载下性能表现到底如何,这样是一个值得探寻的话题。提高性能的另一个方法是提高时钟频率。不过在移动SoC中,限制来自功耗,智能手机的SoC最多只能容纳4W~5W的TDP功耗。在性能比较中,一些消息显示在完成相同工作负载的情况下,Mali-G77的能源消耗降低了17%~29%。换句话来说,Mali-G77的每瓦特性能是前代产品的1.2倍到1.39倍。ARM表示,Mali-G77的基本频率不会发生太大变化,ARM依旧以850MHz作为其目标值。在横向对比方面,ARM宣称其在与采用Mali-G76的三星Exynos 9820对比时,新处理器的性能将提升1.4倍,这意味着未来采用Mali-G77架构的SoC将以更高的能耗比(假设维持目前的功率水平),提供接近苹果A12处理器的GPU性能。这将给高通带来巨大压力,因为这样的性能表现将显著超越目前的高通所使用的Adreno 640。不过高通也将发布全新的SoC产品,让我们拭目以待吧。此外,在目前大热的机器学习方面,Mali-G77的性能相比上代产品提升了60%,这不仅是由于内核数量增加了33%,还包括LSC以及带宽所带来的性能提升。最后,ARM也展示了Mali
GPU家族性能提升的代际比较。ARM宣称其每代能耗比提升幅度大约是30%,Mali-G77相比Mali-G72更是节约了50%的能源。ARM的又一次跃进从官方资料来看,Valhall架构和Mali-G77将成为ARM近期的重大技术革新。全新的架构将改变ARM在移动GPU竞争中的态势,使得ARM可以提供更好的GPU架构和技术。新产品将会带来更好的表现,毕竟Valhall架构是一个具有潜力的架构,ARM还将基于它推出更多产品。从实际产品来看,今年晚些时候或者明年初,我们就可能看到三星或华为推出了基于Valhall架构和Mali-G77的相关SoC产品。目前来看,Mali-G77能够带来出色的性能和效率提升,这使得三星和华为的处理器能够进一步缩小甚至超越和苹果、高通的产品,尤其是高通的Aderno GPU,可能将面临更为严峻的挑战。
ARM此次拿出了每平方毫米性能进行对比
Mali-G77的机器学习性能大约提升了60%Mali-G77只需要耗费一半的能源。
相比Mali-G72,
Mali-G77的全新设计带来了更强的性能功耗比和更出色的性能95官方版权认证(读览天下)2019年8月