最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

ARM Mali移动GPU Midgard架构预览

IT圈 admin 31浏览 0评论

2024年3月4日发(作者:玉静姝)

OFweek电子工程网ARMMali移动GPUMidgard架构预览ARM作为移动计算领域实际上的掌控厂商,对移动计算产品未来的发展方向有着决定性的能力。在GPU的发展上,从一开始Mali系列的弱势到现在Mali已经成为诸多厂商的首选,ARM在MaliGPU架构的发展上倾入了诸多心血。最近,ARM又披露了下一代移动GPU架构的详细信息。这个被称为Midgard的架构,又将带来哪些新的技术和惊喜呢?今年是SoC产品应该铭记的一年。从市场角度来看,移动计算的硬件设备有着充裕的性能增长空间,尤其值得注意的是,移动GPU无论是性能还是特性都有了充足进步。凭借更先进的架构和工艺,移动GPU在特性上逐渐和桌面GPU靠拢,正在变得足够优秀并令人满意。而在移动SoCGPU的发展中,ARM的Mali是一个从小到大,从无到有的典型。收购来的“亲儿子”—Mali那些年目前,全球绝大部分移动计算设备的基础CPU架构都来自ARM。在移动SoC等市场中,ARM的地位牢固而不可动摇,不过在GPU市场,ARM只是诸多厂商中的一家。这是因为ARM的GPU部门并非从一开始就拥有,而是随后通过收购组建的。ARM的GPU设计项目最早从上个世纪90年代末期开始,由挪威科技大学开始开展,随后在2001年,这个项目的Mali小组成员从研究中脱离出来,成立了一个名为FalanxMicrosystems的公司。Falanx公司的人员刚开始瞄准的是PC图形市场,但当时已经是后3DFX时代,群雄并起,包括S3、Rendition、Revolution以及Imagination等公司最后都失败了,最终Falanx无法筹集到足够的资金,被迫放弃了PC图形市场。在那个“紧迫期”,由于资金有限和PC图形硬件极高的研发成本,Falanx最终决定转向移动SoCGPU设计。因为移动GPU设计更简单且较容易成功。Falanx的产品MaliGPU也迎来了他们的第一个客户—美国Zoran公司,使用了Mali-55作为他们Approach5CSoC芯片的GPU,这颗芯片还被用在LG'sViewty这样广受欢迎的手机产品中。即使如此,Falanx还不满足,最终在2006年迎来了他们的“大鱼”。鉴于SoC市场不断的扩大以及将带来的移动计算大潮,ARM公司终于决定买下Falanx,组建自己的GPU事业部,并联合ARM的CPU一起推动整个产业的增长。ARM作为一个处于上升期、资金充裕的公司,完全有能力给Falanx充足的资金和研发资源来实现梦想。

OFweek电子工程网LG'sViewty手机是LG公司在“巧克力”手机之后推出的又一款颇受市场欢迎的产品。2007年,Mali作为ARM的一部分,发布了Mali-200GPU。这是ARM第一款支持OpenGLES2.0的产品。它和随后的Mali-300、Mali-400以及Mali-450,都属于代号为“Utgard”架构的产物。Utgard架构的特点是并非像现代GPU设计那样采用了统一渲染引擎,它依旧是一个典型的顶点和像素分离式渲染的产物。虽然架构不算先进,但是Mali设计团队始终坚持对其进行新技术扩充和升级研发,使得其性能和可扩展性都达到了令人满意的程度,尤其是Mali-400,这是Mali首次开发的拥有多内核能力的GPU,如果需要获取更高的性能,用户只需要使用更多个Mali内核即可,这和桌面GPU的SLI和CrossFire有异曲同工之妙。Utgard架构堪称是Mali最为成功的GPU架构,它基于OpenGLES2.0的设计和较低的成本满足了中低端市场的需求。如今虽然顶级SoC芯片开始支持DirectX11以及OpenGLES3.0,但是Utgard架构的Mali-450系列GPU依旧颇受用户和厂商欢迎。包括三星、华为等厂商最近发布的海思Kirin910以及三星GalaxyS5Mini,其处理器都搭配了Mali-450GPU。如今,在Utgard架构之后,Mali推出了Midgard架构,这个全新的架构包括了Mali-T600和今天介绍的T700系列GPU。虽然Midgard推出时是作为高端GPU架构设计的,但是在对芯片体积、功率和成本的进一步优化后,Midgard也将作为中端和中高端产品的基础架构使用。而上代Utgard则下调至覆盖中端市场。从整体来看,ARM目前在市场上的位置其实非常微妙。市场上的芯片厂商比如高通、英伟达,往往是在CPU方面购买ARM授权,GPU则是自己设计,而诸如Imagination这样的图形处理器厂商又只专精于GPU设计。ARM则完全可以同时提供GPU和CPU方案,并将其打包销售—这似乎意味着ARM有能力设计一款CPU和GPU互相协同工作的产品,这对别的厂商来说,意义是否异乎寻常呢?一个全新设计的架构—鸟瞰Midgard

OFweek电子工程网Midgard,汉语经常写作米德加尔德,它源于北欧神话。米德加尔德是指火神洛基的第二个儿子,形象通常是以环绕人间界、首尾相连的巨蟒出现,因此也有人以米德加尔德代表人间。在北欧神话中,米德加尔德一般以反派出现,它力大无穷,通天彻地。在Mali眼中,Midgard似乎就需要这样强大无比,将全球移动GPU市场纳入囊中。MaliGPU现在几乎覆盖了全世界所有使用ARM架构的设备。回到现实中。Midgard从架构上来看很有趣,它的某些方面和市场中已经出现的GPU架构非常相似,但另一些方面差异又非常大。从架构上来看,Midgard是之前Utgard的继承者,但是统一渲染架构和分离式渲染架构的差异如此之大,使得这两个架构又不能直接比较。当然,Midgard还是继承了不少Utgard中优秀的部分,尤其是部分周围功能模块。Midgard架构相对应的产品最终需要占领从廉价到顶级这样广阔的市场,为了达到这样的目的,ARM对产品进行了一些调整,削减了部分中低端型号的功能,并对内部结构进行了改变。因此,本文将重点集中在Midgard最顶级的型号上,这样可以充分展示这个架构设计的优势。首先需要了解的是Midgard的设计目标和功能。和之前只能支持OpenGLES2.0的、已经基本没有升级空间的Utgard不同,Midgard的功能要求更为丰富,它不但需要提供强悍的图形性能,还需要能够带来出色的计算性能。这部分内容需要依靠于统一渲染架构来完成,因为这类架构天生擅长大规模的数学、图形计算。因此计算功能只是一个扩充,但也是经过深思熟虑后的决定—ARM推广通用计算的目的可能不仅仅考虑图形市场。此外,从API的角度来看,Midgard架构设计甚至是超出目前的OpenGLES3.0的,所有的Midgard都能在硬件层面上支持OpenGLES3.1,不过OpenGLES3.1的功能设计依赖于操作系统和设备供应商所提供的驱动程序,这样的设计可以使得Midgard能够在未来API更新后跟上新的标准而不至于落伍。

OFweek电子工程网ARM的GPU发展计划,从低端到高端都有覆盖。其中蓝色箭头代指产品采用了老的Utgard架构,而新的橙色箭头的产品都采用Midgard架构。目前的安卓系统可能很难支持Midgard的部分功能,但是更新的AndroidL和AndroidExtensionPack却能充分应用它们。新的AndroidExtensionPack将进一步扩展OpenGLES3.1,尤其是加入那些目前尚不能支持的重要功能,诸如曲面细分和几何着色器(在桌面GPU中,前者在Direct3D11中纳入官方支持,后者是Direct3D10的代表性技术)。鉴于这种情况,Midgard都预先提供了对上述功能的支持。ARM已经证实,他们希望所有基于Midgard的GPU都能支持未来的更新的安卓系统和AndroidExtensionPack。还有一点优势在于,伴随着OpenGLES的规格更新,Midgard也开始支持Direct3D—由于目前Mali无法支持Direct3D,因此所有WindowsPhone和WindowsRT设备都只能使用英伟达或者高通的SoC。不过为了进一步区分市场,ARM还是将Midgard架构的产品做出了一些区分,比如即将到来的顶级产品Mali-760能够支持Direct3D11.1,而较低端的Mali-T720只能支持到Direct3D9.3,后者将普遍出现在入门级、更为注重成本的市场。另外,Midgard的计算性能也需要关注。Midgard打算通过同时支持AndroidRenderScript框架和OpenCL1.2,并积极成为这个领域的一个强有力的竞争者。OpenCL目前在移动计算领域做得并不算太好,主要原因在于操作系统都没有对它提供一致性的支持,比如iOS,而安卓也是最近才开始支持,即使某些硬件支持OpenCL,但在支持的功能上也存在差异,最终限制了开发人员使用这项技术。在这一点上,ARM已经明确表示,他们的Midgard将完全支持这方面的GPU计算。深入底层—Midgard架构分析

OFweek电子工程网在分析Midgard的架构时,本文将从一个比较高的视角来观察它。下文给出了Midgard的着色器核心架构,尽管名称上被称之为“着色器”,但是实际上其中的内容非常丰富:“着色器”在本文中包含的内容不仅仅是一个普通着色器中所包含的“三管线(tri-pipe)”设计,还包含了三角形Setup模块、光栅化模块、Z轴消隐模块、ROP单元、tiling模块以及专门为通用计算和“三管线”而设计的一些线程控制模块。OpenGLES3.1在之前的会议上曾经被提出过来,并明确说明不会支持曲面细分、几何着色器。一个Midgard的着色器,实际产品诸如Mali-T760,由于要充分考虑设计上的可扩展性,因此即使这个着色器包含了一个GPU的绝大部分内容,但是它依旧不能算作一个完整的GPU—因为部分周边部件并没有被放置在目前所介绍的着色器中。ARM设计了一个可扩展的、带有绝大部分功能的着色器,同时给出了一系列的共享硬件,厂商可以根据需要选择不同数量的着色器搭配共享模块,最终获得合适的GPU方案。Midgard支持从1个到16个“着色器”的设计方案,这也是最强悍的Mali-T760MP16的来源。Midgard的共享部分主要是一些管理模块,比如任务调度管理器等,其次是L2高速缓存、可以访问内存或者CPU缓存的内存控制器,最后还有系统总线AMBA4ACE-Lite。对于最强悍的Mali-T760MP16而言,ARM的设计方案中配置了一个任务管理单元和内存控制器,而为了满足16个核心的计算资源需求,ARM设计了两组L2高速缓存和总线接口。

OFweek电子工程网ARM一直在规划有关通用计算的内容。AndroidExtensionPack中加入了大量目前的安卓系统无法支持的新技术。说完了外围和全局设计,下面来看看核心本身,尤其是最重要的三管线设计。这个模块是整个GPU计算的核心,它由多个ALU单元、读/写单元和纹理单元组成。虽然很多的GPU设计基础部分都需要这三个模块,但是ALU可变设计着实非常少见—在不同型号的GPU上,ARM在相同的架构中使用了不同的ALU。

OFweek电子工程网这句话听起来有点拗口。举例来说,在Mali-T760上,每个“三管线”包含了2个ALU,这也是Midgard中最常见的配置。此外,Midgard也拥有每个“三管线”中包含1个ALU和4个ALU的方案,前者比如Mali-T720,后者比如Mali-T678,此外还有MaliT628和Mali-T760一样都是每个“三管线”内含2个ALU。当然,在不同的“三管线”中使用不同数量的ALU带来了一些连锁效应,ARM调整了ALU和纹理单元、读/写单元之间的比率以获得相应的性能。比如Mali-T678,每个着色器采用4ALU设计,因此这颗GPU的内部指标和其它的产品都有所不同,在纹理单元上为了配合增多的ALU也相应增加了。实际上ARM在Midgard上尝试了多种不同的配置方案,最终确定了在Mali-T760上使用每“三管线”2个ALU、以及在定位低端的Mali-T720上使用每“三管线”1个ALU的方案,并进一步优化了这样的设计。Midgard的设计使得GPU的每一个计算管道在任何情况下都有自己独立的线程,这和目前比较常见的超标量架构有明显不同,常见的超标量架构的一些附加计算单元可以在一个线程中用于执行进一步的无阻塞指令,而Midgard的设计可能会消除一些瓶颈效应从而带来效率的提升。Midgard的基本架构示意图。在看完了有关ALU的内容,下面来分析一下纹理单元。Midgard的纹理单元可以在一个时钟周期中处理一次双线性计算,或者在两个时钟周期内完成一次三线性计算。需要注意的是,这里分析的是内容是基于Mali-T760的ROP单元和纹理单元比例,另外,在任何情况下Midgard中的纹理单元和像素单元的比例都是1∶1。接下来的内容在图表中没有画出来,也就是曲面细分单元。要知道Mali-T760宣称支持Direct3D11.1,但是为什么在架构中没有硬件的曲面细分模块呢?这并非遗漏或者ARM在吹牛,这是Midgard的一个独特设计。Midgard可以执行曲面细分,但是它没有使用固定的功能来完成几何创建的过程。Midgard使用了着色器硬件的部分来执行曲面细分,不仅仅是在Hull和域着色器阶段,实际的几何生成过程也发生在着色器中。这和之前我们看到的几乎所有的硬件都完全不同,因为迄今为止还没有出现不使用专门的曲面细分硬件但同时又完成曲面细分功能的产品出现,Midgard首个这样设计的方案。

OFweek电子工程网Midgard的核心流水线示意图。传统的曲面细分过程需要硬件执行操作,但是Midgard没有这部分内容,这令人感到疑惑。ARM的消息指出,之所以这样设计,是因为他们考察了有限的晶体管使用、芯片体积以及专用曲面细分单元的优势后,最终决定的方案。事实证明,Midgard的着色器引擎可以以较高的比率完成曲面细分多边形处理,这意味着Midgard不需要专门的曲面细分单元,也意味着Midgard几乎不存在曲面细分瓶颈,因

OFweek电子工程网为Midgard的每个着色器都是曲面细分的处理模块。在节约了空间后,ARM还可以将有限的芯片面积用于增加着色器数量从而有效提高性能。Midgard的扩展能力非常强悍,可以支持最多16个着色器核心扩展。由于目前还没有实际产品可以看到,因此最终这个方案是否有效也只有ARM才能知道了。只有他们实际掌握了有关MidgardGPU曲面细分的性能的细节信息,但这样的设计已经使得Midgard变得极不寻常。另外需要考虑的一点是这样设计的能耗成本,我们暂时没有理由怀疑ARM这样设计所带来的空间或性能上的优势,但以通常的角度来说,一个专职的硬件模块会比通用性强的硬件模块有更好的性能表现乃至功耗比,这也是为什么我们看到有这么多的SoCGPU和桌面GPU比较相似的原因。小结在使用了令人诧异的硬件设计后,显然还有另外一个问题需要考虑,那就是实际性能。Midgard的“着色器曲面细分”设计是否能获得相应的性能呢?是否比使用传统硬件曲面细分要更出色呢?电能消耗是否划算呢?这一切目前还都是未知数,但仅从硬件上看已经值得我们期待。不过,由于篇幅的问题,本文上期的内容就到这里,我们向大家介绍了Midgard的一些基本情况。而在下一期,我们还将带来Midgard有关区块贴图、流水线架构、计算架构、性能分析以及和其它厂商同世代产品对比的相关内容,敬请期待!上面我们详细讲解了ARMMaliGPU架构的发展历程,以及最新的Midgard架构的设计方向、架构概览、无固定硬件单元的曲面细分功能设计等内容。而在本期中,我们将继续带你深入ARMMidgard架构的内部,去进一步地探索这个非常重要的移动GPU架构的方方面面。

OFweek电子工程网极尽节省—Midgard的资源管理技术让效能更出色目前的SoC产品受到诸如电源、芯片尺寸、内存带宽等诸多规格参数的影响,但是毫无疑问,内存带宽比任何参数都更能直接的影响到产品的性能。为了进一步优化内存带宽使用并提高效率,Midgard提出了一种名为HierarchicalTilingsystem(层级区块体系)的算法,顾名思义—这种算法来自于将Midgard所要渲染的目标根据层级进一步的分块,最终使得每个区块达到了所需要的、能够直接在GPU内部处理的尺寸,这样可以进一步节约资源。传统GPU处理方式移动SoCGPU上使用的区块方式,多了一个分块的过程。所谓“区块”,是目前绝大部分移动GPU采用的一种数据处理和渲染方式,Midgard自然也不例外。简单来说,传统的GPU在数据处理时,会使用一整张大贴图对画面进行计算。但这样做贴图受制于体积,必须存放在内存中,这样一来频繁的GPU和内存间的数据交换会很快耗尽极为有限的带宽资源。因此,Mali以及高通的Adreno、IT的PowerVR等厂商都采用了Tile(区块)的贴图方式。这种方式是将整个场景先划分为一个个小小的区块(一般是16×16尺寸),由于区块很小因此可以直接放在GPU的缓存中,然后GPU再对这个区块进行处理,这样一来就极大的避免了数据传输对系统总线带来的巨大压力,同时也节约了资源。除了有关Tile技术外,Midgard还在加强工作效率、降低无谓的性能消耗上做出了很多努力。Midgard在内核架构中添加了两个Z轴检查模块,分别为前置Z轴检查和后置Z轴检查。早期Z轴模块被放置在每个着色器核心中,它用于检测是否存在一些多边形被覆盖或者不可见但进入了渲染管线,前置Z轴模块会将其剔除。当然这还是不够的,在Mail-T620以后的Midgard架构GPU上,又加入了一个名为“前置像素剔除(ForwardPixelKill)”的模块,用于进一步检查一些无用的、被遮挡的像素,最大效率地节省带宽和资源。

OFweek电子工程网ARM的层级区块体系,能够进一步划分区块,降低资源占用。再来看看Midgard的功耗优化方面。Midgard采用了一些新技术来优化功耗。比如加入了大量的门控时钟和细粒度的电源门控来优化整个GPU的电能使用。而在GPU空闲时,Midgard允许GPU空闲部分(甚至可以是部分核心)休眠或者关闭;每个着色器单元都拥有自己的电源控制模块,着色器本身的频率根据需要降低以同时控制功耗。此外,Midgard还拥有一些比较常见的频率调节技术,比如拥有动态频率,可以在不同的状态下自动调节频率以节约能量。总之,Midgard的能耗控制是比较出色的。双精度和异构计算—Midgard为未来计划全新加入的前置Z轴检查和后置Z轴检查,能够剔除无效内容。

OFweek电子工程网接下来,我们来谈谈有关Midgard在计算能力和内存访问上的一些问题。ARM一直以来都是以设计高性能功耗比的CPU模块为主的,尤其是目前非常火爆的ARM64架构。在CPU上,ARM的目标是全面扩展到64位计算架构,而在GPU上ARM也这样做了。目前Midgard完全支持64位计算,包括64位整数计算、双精度计算(FP64)使用、使用64位内存地址等。一般来说,在一款移动SoCGPU上实现64位计算的意义并不大,尤其是FP64,但ARM考虑的显然并非只是计算精度。Midgard可以调用64位存储器地址,和ARMv8系列CPU使用相同的64位地址空间—这样一来意义就变得非同凡响了。这种能力使得Midgard和ARMv8架构的CPU在I/O上实现一定的一致性,比如Midgard直接去读取CPU的缓存。虽然Midgard和ARMv8CPU之间不一定存在缓存一致性,但是这个功能主要是用于让GPU更有效率的访问CPU的缓存,数据在CPU和GPU之间的传递可以更为直接、高效。当然,完整的缓存一致性显然也是ARM的目标之一。作为一款移动SoCGPU,Midgard在电能控制上主要使用了功耗门控和频率门控两种技术。ARM一直都非常关心有关异构计算的内容。因此,Midgard加入了64位寻址和I/O的一致性功能后,ARM可以在有关GPU和CPU的异构计算方面更为有效率—别忘了ARM一直都是HAS异构计算联盟的一员。虽然目前看起来ARM依旧处于单一的CPU或者GPU计算的阶段,但是路要一步一步走,ARM为了节约电能、提高计算效率,在异构计算上做出的努力应该会有成果展示的。继续深入—Midgard的核心单元设计

OFweek电子工程网我们在比较宏观的角度描述了Midgard的架构内容。接下来的部分,需要继续深入MidgardGPU的心脏部分,它的核心单元设计。一般来说,判断GPU设计是否优秀并非只是一些漂亮的参数,而是它的核心单元方案。Midgard的核心单元设计采用了VLIW超长指令集方案,拥有SIMD单指令多数据流特性。这样的设计需要ARM在指令层面有非常强的指令调配能力。在下图中,展示了一个Midgard的核心算术单元,图中以FP32操作为例。在一个算术管线中,Midgard混合了标量和矢量ALU,每个部分含有3个矢量ALU和2个标量ALU,每种都会负责一个特定类型的操作。Midgard的算术单元示意图。在计算能力方面,之前我们曾提到过Midgard可以支持64位计算,猜猜看它是如何实现的呢?实际上Midgard是通过一个完整的128位的SIMD来分解操作较小位宽的计算。比如一个128位的SIMD可以分解成2个64位操作,也可以分解成4个32位操作甚至8个16位操作。这样的设计一方面增加了灵活性,另一方面使得尽可能多的相同操作可以填充SIMD流水线,提高了效率。

OFweek电子工程网Midgard三管线设计非常灵活。一般来说,使用SIMD或者类似SIMD设计的GPU还是比较多的,但是设计得如此灵活的SIMD架构非常少见。其它体系架构师都在强调效率和强调灵活之间做出权衡:当灵活性很高的时候,效率肯定有所损失,反之亦然。不过ARM采用这样的设计,肯定是考虑到需要满足所有的计算需求,因此才设计了这样一个128bit的灵活SIMD。在计算能力方面,一个完整的Midgard计算单元每时钟能够输出17FLOPSFP32的性能,它包含了4个矢量加、4个矢量乘法、1个标量加法、一个标量乘法、一个点积(7FLOPS)。除了上述内容外,每个架构还有一些SFU单元用于处理点积、微积分以及其他复杂的计算。这些特殊计算单元的计算能力往往不会被统计在FLOPS中。大多数架构统计FLOPS都是通过统计大量的MAD指令来完成。比如TegraK1拥有192个FP32ALU,每个ALU每周期可以执行2次MAD计算,因此它的总计算能力达到了384FLOPS每周期。除了最常见的FP32外,FP64双精度计算也是Midgard的特性之一。不过相比FP32而言,Midgard的FP64能力要低得多,大约只有每周期每核心5FPLOS。从最乐观的角度来说,Midgard的FP64性能中的4FLOPS来自于矢量单元(2个FP64MAD指令),而剩余的1个FLOPS来自于标量单元—如果假定是正确的话,标量单元每周期基本上难以完成一个FP64MAD指令。不过基于FP64的性能虽然仅仅是FP32的一半,但这对桌面GPU来说也是非常高的水平,因此本文的估计很可能还是过于乐观了,在这方面ARM没有公布更多的资料,所以我们的猜测也只能到此为止。

OFweek电子工程网Midgard的执行模型—指令级并行作为一个单指令多数据流的VLIWGPU、或者是ARM官方的连续超长指令集(SequentialLongInstructionWord)架构来说,在执行阶段为了提升效率,编译器应该会编译出尽可能符合硬件架构的指令来试图塞满整个计算管线。对VLIW来说这需要一定程度的指令级并行调整数据,并查找可以放在一起的SIMD操作,最终填补Midgard架构中可能存在的任何空闲操作。在没有超标量体系结构的情况下,充分利用Midgard的VLIW架构的办法就是:将几个合适的指令捆绑成一个,直接塞入Midgard的架构中。从目前使用在ARMSoC上的GPU核心设计也能看出,诸如英伟达的Kepler以及IT的PowerVR,都或多或少的引入了指令级并行的一部分内容,这两者也同样使用了超标量架构(虽然和Midgard还是有很大差异)。Midgard的核心设计,采用了独特的三管线方案。历史上还有其他的一些公司大规模使用VLIW,比如AMD。AMD在桌面的HD2000一直到HD6000系列GPU都使用了VLIW架构,直到2011年在GCN架构上,AMD才放弃了VLIW。当时AMD遇到的难题是研究人员发现应用程序在GPU上工作是往往无法达到VLIW的设计吞吐能力,甚至这样的状况变得越来越不理想。AMD最终使用了全新的GCN架构,彻底抛弃了指令级并行,转投线程级并行的怀抱。继续回到Midgard上来。实际上,对一个以移动SoC为目标的GPU来说,怎样设计合适的规模和架构以适应移动SoC的需求才是最重要的。目前看来,Midgard采用的VLIW架构相对来说是比较稳妥和合适的,因为对Midgard来说,它拥有128bit的矢量处理能力,可以映射为ARGB计算,也就是每个SIMD处理一个颜色通道,标量单元刚好可以辅助处理那些不太好处理的特殊计算部分。因

OFweek电子工程网此,虽然从GPU架构发展来看,线程级并行是大趋势,但是在当前也不能说指令级并行就没意义了。在确定了Midgard使用指令级并行后,就需要关心一下它的ALU流水线设计了。为了满足目前的VLIW方案并尽可能提高效率,整个Midgard的流水线管道有128级,算术管道部分有30级深,不过Midgard的三管线设计每个管线都有自己不同的深度。从GPU的角度来看,Midgard简直就是一个极深的、高延迟、大吞吐量、交织着大量线程以保持流水线效率的GPU。在任何情况下,ARM都允许Midgard通过绕过一些错误,比如失败的读取或者写入等来避免等待,同时会重启这些指令,而不是令其堵塞在流水线管道。AMD在从指令级并行转换至线程级并行是在2011年的GCN架构上完成的。还有一些其它消息更令人感兴趣,那就是Midgard完全没有全局的线程级并行性设计。所有目前的主流GPU,无论来自英伟达、AMD还是英特尔,无论是否依赖于指令级并行,都至少和线程级并行相关。在这些GPU的设计中,很多线程被捆绑在一起直接发送至ALU单元。一般来说这些被捆绑的每个线程都代表了一个像素,只是由于空间位置存在一定的相关性,因此它们有几乎相同的指令算法,一堆类似的线程可以同时发送操作而不需要一个个计算。因此,我们在目前的GPU设计中看到了诸如波次这样的概念,比如AMDGCN是16个线程每波次,而英伟达在Kepler中是32个。但是,这样的情况在Midgard这里并不存在。从上一代架构开始一直到Midgard,它们的GPU中每一个线程都是独立的,似乎和线程的并行处理无关。而做出这样的设计,是因为Midgard的每个算术管道都是自己的“CPU”,它们可以对线程进行独立的处理和计算。即使是诸如Mali-T760这样只有两组运算单元的GPU,这两组运算单元也会彼此分开独立工作。如果扩大的更大一些,比如T760MP16,它拥有32个计算单元,依旧是彼此独立工作。

OFweek电子工程网对Midgard这样的设计,其实可以分为两个方面来看。首先,Midgard的设计非常正确,它使用了一种特殊的方法解决了没有线程级并行的缺陷。一般来说,在图形处理中,线程级并行由于可以很方便的得知像素的空间位置,计算中会捆绑一些线程,比如16个或32个每个波次,带来了效率的提升。但是,以线程级并行为核心的设计也有自己的缺点。比如需要一些分支操作时,由于无法绑定,因此线程级并行的效率会降低。此外,如果一次操作无法满足一个波次的需求,效率也会降低。总的来说,目前Midgard的设计相当的独特,ARM在GPU的设计上展示了一种完全不同于目前所有既定思维的方案。当然,这样的设计最终是否成功,不但有硬件和架构方面的原因,还有软件方面的因素,比如Midgard就更为适合分支更多的程序。TIPS:从指令级并行到线程级并行所谓指令级并行,是指目前所执行的一组指令之间相互独立,不互相等待结果、不互相访问同样的内存单元、不互相使用计算单元或功能部件,它们在处理器内部并行地执行。指令级并行的方法和传统的提高处理器计算能力的方法相关。如果你想提高一个处理器的处理能力,那么最好的办法是给这个处理器中加入大量的高效率、专用的处理模块,这样无论有怎样的任务处理器都可以见招拆招。指令级并行在很长一段时间内都是处理器提高性能的不二法门。不过它的问题在于处理器效率不够高。例如在理想情况下,VLIW的效率应该是100%—这要求每次的数据都恰好满足“ARGB+特殊”这样的形式,但是在很多情况下,某次数据来了“A”,某次数据是“RGB”,某次数据是“GB+特殊”,也就是说实际情况下绝大部分指令都并不符合“ARGB+特殊”这样的设计需求。为了解决这个问题,人们设计了比如超标量、多级缓存、预测执行等手段来提升并行度,此外,加入了更深的流水线来细分指令,力求使得指令级并行能够提升效率。随着计算机技术的发展,指令级并行规模大、效率低的弊端已经越来越明显,传统的指令级并行很难适应现代计算模型中复杂多变的、不规则的计算特性。线程级并行恰好可以用于进一步增大整个处理器的吞吐能力。举例来说,线程级并行中的流水线在当前任务上如果遇到无法解决的等待或者延迟,可以迅速切换到新的工作,线程级并行中的执行也没有了固定的排序方式,除了部分特殊计算外,其余指令都会面对几乎相同的计算单元。以AMD的GPU为例,新的GCN架构就是典型的线程级并行,它的CU单元拥有4组、每组16个ALU单元,由于取消了所谓的固定任务格式,GPU只需要根据需求将所有内容直接塞入CU单元即可,大大提升了效率。总的来说,目前桌面级别的处理器,都在向线程级并行转进,在移动SoC的GPU上,受制于功耗等原因,可能还存在一些指令级并行设计。毕竟目前移动SoC无论是性能还是特性水平依旧远远落后于桌面产品。在恰当的时候选择合适的架构,也是非常重要的。

OFweek电子工程网GPU中的波次,图中展示了随着时间不同波次的计算任务被依次填充进入计算单元。Midgard的每个计算单元,似乎都存在自己的线程判断和执行单元。

OFweek电子工程网Midgard支持前后帧之间的图像比较,如果有部分没有改变,那么Midgard就会跳过这些部分,同时可以节省大量带宽和资源。Midgard:ARM的新时代其实,Midgard的出现已经比较早了。Mali-T600系列在2013年就已经宣布。但是直到2014年Mali-T700系列发布后,Midgard以及相关的技术设计内容才开始逐渐多了起来。从架构角度来看,Midgard是一个特立独行的、非常具有ARM设计特色的产品,它在各个方面的设计都和目前比较主流的GPU方案有着明显的差异,而从目前的情况来看,Midgard架构的实际产品表现还是比较令人满意的。

OFweek电子工程网16个Mali-T760组成的计算阵列,拥有32个独立运作的单元。接下来的表格,对比了英伟达、IT、ARM以及AMD的一些设计方案。需要说明的是,由于目前在移动产品端,受限于规模和工艺等因素,ARM比较推荐Mali-T760MP10这样的配置,因此本文对比也以这款产品为主。Midgard架构总览

OFweek电子工程网由于一些细节算法未知,因此对ARMMali-T760MP10的性能估计存在两种可能。这两种可能的纸面能力差别还是比较大的。综合来看,在计算能力上,Mali-T760MP10比目前最强悍的TegraK1、PowerVRGX6650等要差一些,但是基本上和AMDA4-1350在一个水平线上。此外,Mali-T760MP10的像素和纹理能力看起来似乎不错,这在目前高清化移动设备中会有比较明显的优势。ARM使用AFBC能够有效节约带宽,并降低功耗。总的来看,Midgard将是ARM在未来大约2到3年间,在移动SoC市场上主打的GPU产品。有了前代产品的成功,ARM自然也期待Midgard带来他们在移动SoC上的又一次胜利。不过,目前移动SoC的GPU市场,ARM还不是主力,凭借Midgard这样的设计和规模,究竟能带来怎样的改变,还得看市场风云变幻,如何发展了。

2024年3月4日发(作者:玉静姝)

OFweek电子工程网ARMMali移动GPUMidgard架构预览ARM作为移动计算领域实际上的掌控厂商,对移动计算产品未来的发展方向有着决定性的能力。在GPU的发展上,从一开始Mali系列的弱势到现在Mali已经成为诸多厂商的首选,ARM在MaliGPU架构的发展上倾入了诸多心血。最近,ARM又披露了下一代移动GPU架构的详细信息。这个被称为Midgard的架构,又将带来哪些新的技术和惊喜呢?今年是SoC产品应该铭记的一年。从市场角度来看,移动计算的硬件设备有着充裕的性能增长空间,尤其值得注意的是,移动GPU无论是性能还是特性都有了充足进步。凭借更先进的架构和工艺,移动GPU在特性上逐渐和桌面GPU靠拢,正在变得足够优秀并令人满意。而在移动SoCGPU的发展中,ARM的Mali是一个从小到大,从无到有的典型。收购来的“亲儿子”—Mali那些年目前,全球绝大部分移动计算设备的基础CPU架构都来自ARM。在移动SoC等市场中,ARM的地位牢固而不可动摇,不过在GPU市场,ARM只是诸多厂商中的一家。这是因为ARM的GPU部门并非从一开始就拥有,而是随后通过收购组建的。ARM的GPU设计项目最早从上个世纪90年代末期开始,由挪威科技大学开始开展,随后在2001年,这个项目的Mali小组成员从研究中脱离出来,成立了一个名为FalanxMicrosystems的公司。Falanx公司的人员刚开始瞄准的是PC图形市场,但当时已经是后3DFX时代,群雄并起,包括S3、Rendition、Revolution以及Imagination等公司最后都失败了,最终Falanx无法筹集到足够的资金,被迫放弃了PC图形市场。在那个“紧迫期”,由于资金有限和PC图形硬件极高的研发成本,Falanx最终决定转向移动SoCGPU设计。因为移动GPU设计更简单且较容易成功。Falanx的产品MaliGPU也迎来了他们的第一个客户—美国Zoran公司,使用了Mali-55作为他们Approach5CSoC芯片的GPU,这颗芯片还被用在LG'sViewty这样广受欢迎的手机产品中。即使如此,Falanx还不满足,最终在2006年迎来了他们的“大鱼”。鉴于SoC市场不断的扩大以及将带来的移动计算大潮,ARM公司终于决定买下Falanx,组建自己的GPU事业部,并联合ARM的CPU一起推动整个产业的增长。ARM作为一个处于上升期、资金充裕的公司,完全有能力给Falanx充足的资金和研发资源来实现梦想。

OFweek电子工程网LG'sViewty手机是LG公司在“巧克力”手机之后推出的又一款颇受市场欢迎的产品。2007年,Mali作为ARM的一部分,发布了Mali-200GPU。这是ARM第一款支持OpenGLES2.0的产品。它和随后的Mali-300、Mali-400以及Mali-450,都属于代号为“Utgard”架构的产物。Utgard架构的特点是并非像现代GPU设计那样采用了统一渲染引擎,它依旧是一个典型的顶点和像素分离式渲染的产物。虽然架构不算先进,但是Mali设计团队始终坚持对其进行新技术扩充和升级研发,使得其性能和可扩展性都达到了令人满意的程度,尤其是Mali-400,这是Mali首次开发的拥有多内核能力的GPU,如果需要获取更高的性能,用户只需要使用更多个Mali内核即可,这和桌面GPU的SLI和CrossFire有异曲同工之妙。Utgard架构堪称是Mali最为成功的GPU架构,它基于OpenGLES2.0的设计和较低的成本满足了中低端市场的需求。如今虽然顶级SoC芯片开始支持DirectX11以及OpenGLES3.0,但是Utgard架构的Mali-450系列GPU依旧颇受用户和厂商欢迎。包括三星、华为等厂商最近发布的海思Kirin910以及三星GalaxyS5Mini,其处理器都搭配了Mali-450GPU。如今,在Utgard架构之后,Mali推出了Midgard架构,这个全新的架构包括了Mali-T600和今天介绍的T700系列GPU。虽然Midgard推出时是作为高端GPU架构设计的,但是在对芯片体积、功率和成本的进一步优化后,Midgard也将作为中端和中高端产品的基础架构使用。而上代Utgard则下调至覆盖中端市场。从整体来看,ARM目前在市场上的位置其实非常微妙。市场上的芯片厂商比如高通、英伟达,往往是在CPU方面购买ARM授权,GPU则是自己设计,而诸如Imagination这样的图形处理器厂商又只专精于GPU设计。ARM则完全可以同时提供GPU和CPU方案,并将其打包销售—这似乎意味着ARM有能力设计一款CPU和GPU互相协同工作的产品,这对别的厂商来说,意义是否异乎寻常呢?一个全新设计的架构—鸟瞰Midgard

OFweek电子工程网Midgard,汉语经常写作米德加尔德,它源于北欧神话。米德加尔德是指火神洛基的第二个儿子,形象通常是以环绕人间界、首尾相连的巨蟒出现,因此也有人以米德加尔德代表人间。在北欧神话中,米德加尔德一般以反派出现,它力大无穷,通天彻地。在Mali眼中,Midgard似乎就需要这样强大无比,将全球移动GPU市场纳入囊中。MaliGPU现在几乎覆盖了全世界所有使用ARM架构的设备。回到现实中。Midgard从架构上来看很有趣,它的某些方面和市场中已经出现的GPU架构非常相似,但另一些方面差异又非常大。从架构上来看,Midgard是之前Utgard的继承者,但是统一渲染架构和分离式渲染架构的差异如此之大,使得这两个架构又不能直接比较。当然,Midgard还是继承了不少Utgard中优秀的部分,尤其是部分周围功能模块。Midgard架构相对应的产品最终需要占领从廉价到顶级这样广阔的市场,为了达到这样的目的,ARM对产品进行了一些调整,削减了部分中低端型号的功能,并对内部结构进行了改变。因此,本文将重点集中在Midgard最顶级的型号上,这样可以充分展示这个架构设计的优势。首先需要了解的是Midgard的设计目标和功能。和之前只能支持OpenGLES2.0的、已经基本没有升级空间的Utgard不同,Midgard的功能要求更为丰富,它不但需要提供强悍的图形性能,还需要能够带来出色的计算性能。这部分内容需要依靠于统一渲染架构来完成,因为这类架构天生擅长大规模的数学、图形计算。因此计算功能只是一个扩充,但也是经过深思熟虑后的决定—ARM推广通用计算的目的可能不仅仅考虑图形市场。此外,从API的角度来看,Midgard架构设计甚至是超出目前的OpenGLES3.0的,所有的Midgard都能在硬件层面上支持OpenGLES3.1,不过OpenGLES3.1的功能设计依赖于操作系统和设备供应商所提供的驱动程序,这样的设计可以使得Midgard能够在未来API更新后跟上新的标准而不至于落伍。

OFweek电子工程网ARM的GPU发展计划,从低端到高端都有覆盖。其中蓝色箭头代指产品采用了老的Utgard架构,而新的橙色箭头的产品都采用Midgard架构。目前的安卓系统可能很难支持Midgard的部分功能,但是更新的AndroidL和AndroidExtensionPack却能充分应用它们。新的AndroidExtensionPack将进一步扩展OpenGLES3.1,尤其是加入那些目前尚不能支持的重要功能,诸如曲面细分和几何着色器(在桌面GPU中,前者在Direct3D11中纳入官方支持,后者是Direct3D10的代表性技术)。鉴于这种情况,Midgard都预先提供了对上述功能的支持。ARM已经证实,他们希望所有基于Midgard的GPU都能支持未来的更新的安卓系统和AndroidExtensionPack。还有一点优势在于,伴随着OpenGLES的规格更新,Midgard也开始支持Direct3D—由于目前Mali无法支持Direct3D,因此所有WindowsPhone和WindowsRT设备都只能使用英伟达或者高通的SoC。不过为了进一步区分市场,ARM还是将Midgard架构的产品做出了一些区分,比如即将到来的顶级产品Mali-760能够支持Direct3D11.1,而较低端的Mali-T720只能支持到Direct3D9.3,后者将普遍出现在入门级、更为注重成本的市场。另外,Midgard的计算性能也需要关注。Midgard打算通过同时支持AndroidRenderScript框架和OpenCL1.2,并积极成为这个领域的一个强有力的竞争者。OpenCL目前在移动计算领域做得并不算太好,主要原因在于操作系统都没有对它提供一致性的支持,比如iOS,而安卓也是最近才开始支持,即使某些硬件支持OpenCL,但在支持的功能上也存在差异,最终限制了开发人员使用这项技术。在这一点上,ARM已经明确表示,他们的Midgard将完全支持这方面的GPU计算。深入底层—Midgard架构分析

OFweek电子工程网在分析Midgard的架构时,本文将从一个比较高的视角来观察它。下文给出了Midgard的着色器核心架构,尽管名称上被称之为“着色器”,但是实际上其中的内容非常丰富:“着色器”在本文中包含的内容不仅仅是一个普通着色器中所包含的“三管线(tri-pipe)”设计,还包含了三角形Setup模块、光栅化模块、Z轴消隐模块、ROP单元、tiling模块以及专门为通用计算和“三管线”而设计的一些线程控制模块。OpenGLES3.1在之前的会议上曾经被提出过来,并明确说明不会支持曲面细分、几何着色器。一个Midgard的着色器,实际产品诸如Mali-T760,由于要充分考虑设计上的可扩展性,因此即使这个着色器包含了一个GPU的绝大部分内容,但是它依旧不能算作一个完整的GPU—因为部分周边部件并没有被放置在目前所介绍的着色器中。ARM设计了一个可扩展的、带有绝大部分功能的着色器,同时给出了一系列的共享硬件,厂商可以根据需要选择不同数量的着色器搭配共享模块,最终获得合适的GPU方案。Midgard支持从1个到16个“着色器”的设计方案,这也是最强悍的Mali-T760MP16的来源。Midgard的共享部分主要是一些管理模块,比如任务调度管理器等,其次是L2高速缓存、可以访问内存或者CPU缓存的内存控制器,最后还有系统总线AMBA4ACE-Lite。对于最强悍的Mali-T760MP16而言,ARM的设计方案中配置了一个任务管理单元和内存控制器,而为了满足16个核心的计算资源需求,ARM设计了两组L2高速缓存和总线接口。

OFweek电子工程网ARM一直在规划有关通用计算的内容。AndroidExtensionPack中加入了大量目前的安卓系统无法支持的新技术。说完了外围和全局设计,下面来看看核心本身,尤其是最重要的三管线设计。这个模块是整个GPU计算的核心,它由多个ALU单元、读/写单元和纹理单元组成。虽然很多的GPU设计基础部分都需要这三个模块,但是ALU可变设计着实非常少见—在不同型号的GPU上,ARM在相同的架构中使用了不同的ALU。

OFweek电子工程网这句话听起来有点拗口。举例来说,在Mali-T760上,每个“三管线”包含了2个ALU,这也是Midgard中最常见的配置。此外,Midgard也拥有每个“三管线”中包含1个ALU和4个ALU的方案,前者比如Mali-T720,后者比如Mali-T678,此外还有MaliT628和Mali-T760一样都是每个“三管线”内含2个ALU。当然,在不同的“三管线”中使用不同数量的ALU带来了一些连锁效应,ARM调整了ALU和纹理单元、读/写单元之间的比率以获得相应的性能。比如Mali-T678,每个着色器采用4ALU设计,因此这颗GPU的内部指标和其它的产品都有所不同,在纹理单元上为了配合增多的ALU也相应增加了。实际上ARM在Midgard上尝试了多种不同的配置方案,最终确定了在Mali-T760上使用每“三管线”2个ALU、以及在定位低端的Mali-T720上使用每“三管线”1个ALU的方案,并进一步优化了这样的设计。Midgard的设计使得GPU的每一个计算管道在任何情况下都有自己独立的线程,这和目前比较常见的超标量架构有明显不同,常见的超标量架构的一些附加计算单元可以在一个线程中用于执行进一步的无阻塞指令,而Midgard的设计可能会消除一些瓶颈效应从而带来效率的提升。Midgard的基本架构示意图。在看完了有关ALU的内容,下面来分析一下纹理单元。Midgard的纹理单元可以在一个时钟周期中处理一次双线性计算,或者在两个时钟周期内完成一次三线性计算。需要注意的是,这里分析的是内容是基于Mali-T760的ROP单元和纹理单元比例,另外,在任何情况下Midgard中的纹理单元和像素单元的比例都是1∶1。接下来的内容在图表中没有画出来,也就是曲面细分单元。要知道Mali-T760宣称支持Direct3D11.1,但是为什么在架构中没有硬件的曲面细分模块呢?这并非遗漏或者ARM在吹牛,这是Midgard的一个独特设计。Midgard可以执行曲面细分,但是它没有使用固定的功能来完成几何创建的过程。Midgard使用了着色器硬件的部分来执行曲面细分,不仅仅是在Hull和域着色器阶段,实际的几何生成过程也发生在着色器中。这和之前我们看到的几乎所有的硬件都完全不同,因为迄今为止还没有出现不使用专门的曲面细分硬件但同时又完成曲面细分功能的产品出现,Midgard首个这样设计的方案。

OFweek电子工程网Midgard的核心流水线示意图。传统的曲面细分过程需要硬件执行操作,但是Midgard没有这部分内容,这令人感到疑惑。ARM的消息指出,之所以这样设计,是因为他们考察了有限的晶体管使用、芯片体积以及专用曲面细分单元的优势后,最终决定的方案。事实证明,Midgard的着色器引擎可以以较高的比率完成曲面细分多边形处理,这意味着Midgard不需要专门的曲面细分单元,也意味着Midgard几乎不存在曲面细分瓶颈,因

OFweek电子工程网为Midgard的每个着色器都是曲面细分的处理模块。在节约了空间后,ARM还可以将有限的芯片面积用于增加着色器数量从而有效提高性能。Midgard的扩展能力非常强悍,可以支持最多16个着色器核心扩展。由于目前还没有实际产品可以看到,因此最终这个方案是否有效也只有ARM才能知道了。只有他们实际掌握了有关MidgardGPU曲面细分的性能的细节信息,但这样的设计已经使得Midgard变得极不寻常。另外需要考虑的一点是这样设计的能耗成本,我们暂时没有理由怀疑ARM这样设计所带来的空间或性能上的优势,但以通常的角度来说,一个专职的硬件模块会比通用性强的硬件模块有更好的性能表现乃至功耗比,这也是为什么我们看到有这么多的SoCGPU和桌面GPU比较相似的原因。小结在使用了令人诧异的硬件设计后,显然还有另外一个问题需要考虑,那就是实际性能。Midgard的“着色器曲面细分”设计是否能获得相应的性能呢?是否比使用传统硬件曲面细分要更出色呢?电能消耗是否划算呢?这一切目前还都是未知数,但仅从硬件上看已经值得我们期待。不过,由于篇幅的问题,本文上期的内容就到这里,我们向大家介绍了Midgard的一些基本情况。而在下一期,我们还将带来Midgard有关区块贴图、流水线架构、计算架构、性能分析以及和其它厂商同世代产品对比的相关内容,敬请期待!上面我们详细讲解了ARMMaliGPU架构的发展历程,以及最新的Midgard架构的设计方向、架构概览、无固定硬件单元的曲面细分功能设计等内容。而在本期中,我们将继续带你深入ARMMidgard架构的内部,去进一步地探索这个非常重要的移动GPU架构的方方面面。

OFweek电子工程网极尽节省—Midgard的资源管理技术让效能更出色目前的SoC产品受到诸如电源、芯片尺寸、内存带宽等诸多规格参数的影响,但是毫无疑问,内存带宽比任何参数都更能直接的影响到产品的性能。为了进一步优化内存带宽使用并提高效率,Midgard提出了一种名为HierarchicalTilingsystem(层级区块体系)的算法,顾名思义—这种算法来自于将Midgard所要渲染的目标根据层级进一步的分块,最终使得每个区块达到了所需要的、能够直接在GPU内部处理的尺寸,这样可以进一步节约资源。传统GPU处理方式移动SoCGPU上使用的区块方式,多了一个分块的过程。所谓“区块”,是目前绝大部分移动GPU采用的一种数据处理和渲染方式,Midgard自然也不例外。简单来说,传统的GPU在数据处理时,会使用一整张大贴图对画面进行计算。但这样做贴图受制于体积,必须存放在内存中,这样一来频繁的GPU和内存间的数据交换会很快耗尽极为有限的带宽资源。因此,Mali以及高通的Adreno、IT的PowerVR等厂商都采用了Tile(区块)的贴图方式。这种方式是将整个场景先划分为一个个小小的区块(一般是16×16尺寸),由于区块很小因此可以直接放在GPU的缓存中,然后GPU再对这个区块进行处理,这样一来就极大的避免了数据传输对系统总线带来的巨大压力,同时也节约了资源。除了有关Tile技术外,Midgard还在加强工作效率、降低无谓的性能消耗上做出了很多努力。Midgard在内核架构中添加了两个Z轴检查模块,分别为前置Z轴检查和后置Z轴检查。早期Z轴模块被放置在每个着色器核心中,它用于检测是否存在一些多边形被覆盖或者不可见但进入了渲染管线,前置Z轴模块会将其剔除。当然这还是不够的,在Mail-T620以后的Midgard架构GPU上,又加入了一个名为“前置像素剔除(ForwardPixelKill)”的模块,用于进一步检查一些无用的、被遮挡的像素,最大效率地节省带宽和资源。

OFweek电子工程网ARM的层级区块体系,能够进一步划分区块,降低资源占用。再来看看Midgard的功耗优化方面。Midgard采用了一些新技术来优化功耗。比如加入了大量的门控时钟和细粒度的电源门控来优化整个GPU的电能使用。而在GPU空闲时,Midgard允许GPU空闲部分(甚至可以是部分核心)休眠或者关闭;每个着色器单元都拥有自己的电源控制模块,着色器本身的频率根据需要降低以同时控制功耗。此外,Midgard还拥有一些比较常见的频率调节技术,比如拥有动态频率,可以在不同的状态下自动调节频率以节约能量。总之,Midgard的能耗控制是比较出色的。双精度和异构计算—Midgard为未来计划全新加入的前置Z轴检查和后置Z轴检查,能够剔除无效内容。

OFweek电子工程网接下来,我们来谈谈有关Midgard在计算能力和内存访问上的一些问题。ARM一直以来都是以设计高性能功耗比的CPU模块为主的,尤其是目前非常火爆的ARM64架构。在CPU上,ARM的目标是全面扩展到64位计算架构,而在GPU上ARM也这样做了。目前Midgard完全支持64位计算,包括64位整数计算、双精度计算(FP64)使用、使用64位内存地址等。一般来说,在一款移动SoCGPU上实现64位计算的意义并不大,尤其是FP64,但ARM考虑的显然并非只是计算精度。Midgard可以调用64位存储器地址,和ARMv8系列CPU使用相同的64位地址空间—这样一来意义就变得非同凡响了。这种能力使得Midgard和ARMv8架构的CPU在I/O上实现一定的一致性,比如Midgard直接去读取CPU的缓存。虽然Midgard和ARMv8CPU之间不一定存在缓存一致性,但是这个功能主要是用于让GPU更有效率的访问CPU的缓存,数据在CPU和GPU之间的传递可以更为直接、高效。当然,完整的缓存一致性显然也是ARM的目标之一。作为一款移动SoCGPU,Midgard在电能控制上主要使用了功耗门控和频率门控两种技术。ARM一直都非常关心有关异构计算的内容。因此,Midgard加入了64位寻址和I/O的一致性功能后,ARM可以在有关GPU和CPU的异构计算方面更为有效率—别忘了ARM一直都是HAS异构计算联盟的一员。虽然目前看起来ARM依旧处于单一的CPU或者GPU计算的阶段,但是路要一步一步走,ARM为了节约电能、提高计算效率,在异构计算上做出的努力应该会有成果展示的。继续深入—Midgard的核心单元设计

OFweek电子工程网我们在比较宏观的角度描述了Midgard的架构内容。接下来的部分,需要继续深入MidgardGPU的心脏部分,它的核心单元设计。一般来说,判断GPU设计是否优秀并非只是一些漂亮的参数,而是它的核心单元方案。Midgard的核心单元设计采用了VLIW超长指令集方案,拥有SIMD单指令多数据流特性。这样的设计需要ARM在指令层面有非常强的指令调配能力。在下图中,展示了一个Midgard的核心算术单元,图中以FP32操作为例。在一个算术管线中,Midgard混合了标量和矢量ALU,每个部分含有3个矢量ALU和2个标量ALU,每种都会负责一个特定类型的操作。Midgard的算术单元示意图。在计算能力方面,之前我们曾提到过Midgard可以支持64位计算,猜猜看它是如何实现的呢?实际上Midgard是通过一个完整的128位的SIMD来分解操作较小位宽的计算。比如一个128位的SIMD可以分解成2个64位操作,也可以分解成4个32位操作甚至8个16位操作。这样的设计一方面增加了灵活性,另一方面使得尽可能多的相同操作可以填充SIMD流水线,提高了效率。

OFweek电子工程网Midgard三管线设计非常灵活。一般来说,使用SIMD或者类似SIMD设计的GPU还是比较多的,但是设计得如此灵活的SIMD架构非常少见。其它体系架构师都在强调效率和强调灵活之间做出权衡:当灵活性很高的时候,效率肯定有所损失,反之亦然。不过ARM采用这样的设计,肯定是考虑到需要满足所有的计算需求,因此才设计了这样一个128bit的灵活SIMD。在计算能力方面,一个完整的Midgard计算单元每时钟能够输出17FLOPSFP32的性能,它包含了4个矢量加、4个矢量乘法、1个标量加法、一个标量乘法、一个点积(7FLOPS)。除了上述内容外,每个架构还有一些SFU单元用于处理点积、微积分以及其他复杂的计算。这些特殊计算单元的计算能力往往不会被统计在FLOPS中。大多数架构统计FLOPS都是通过统计大量的MAD指令来完成。比如TegraK1拥有192个FP32ALU,每个ALU每周期可以执行2次MAD计算,因此它的总计算能力达到了384FLOPS每周期。除了最常见的FP32外,FP64双精度计算也是Midgard的特性之一。不过相比FP32而言,Midgard的FP64能力要低得多,大约只有每周期每核心5FPLOS。从最乐观的角度来说,Midgard的FP64性能中的4FLOPS来自于矢量单元(2个FP64MAD指令),而剩余的1个FLOPS来自于标量单元—如果假定是正确的话,标量单元每周期基本上难以完成一个FP64MAD指令。不过基于FP64的性能虽然仅仅是FP32的一半,但这对桌面GPU来说也是非常高的水平,因此本文的估计很可能还是过于乐观了,在这方面ARM没有公布更多的资料,所以我们的猜测也只能到此为止。

OFweek电子工程网Midgard的执行模型—指令级并行作为一个单指令多数据流的VLIWGPU、或者是ARM官方的连续超长指令集(SequentialLongInstructionWord)架构来说,在执行阶段为了提升效率,编译器应该会编译出尽可能符合硬件架构的指令来试图塞满整个计算管线。对VLIW来说这需要一定程度的指令级并行调整数据,并查找可以放在一起的SIMD操作,最终填补Midgard架构中可能存在的任何空闲操作。在没有超标量体系结构的情况下,充分利用Midgard的VLIW架构的办法就是:将几个合适的指令捆绑成一个,直接塞入Midgard的架构中。从目前使用在ARMSoC上的GPU核心设计也能看出,诸如英伟达的Kepler以及IT的PowerVR,都或多或少的引入了指令级并行的一部分内容,这两者也同样使用了超标量架构(虽然和Midgard还是有很大差异)。Midgard的核心设计,采用了独特的三管线方案。历史上还有其他的一些公司大规模使用VLIW,比如AMD。AMD在桌面的HD2000一直到HD6000系列GPU都使用了VLIW架构,直到2011年在GCN架构上,AMD才放弃了VLIW。当时AMD遇到的难题是研究人员发现应用程序在GPU上工作是往往无法达到VLIW的设计吞吐能力,甚至这样的状况变得越来越不理想。AMD最终使用了全新的GCN架构,彻底抛弃了指令级并行,转投线程级并行的怀抱。继续回到Midgard上来。实际上,对一个以移动SoC为目标的GPU来说,怎样设计合适的规模和架构以适应移动SoC的需求才是最重要的。目前看来,Midgard采用的VLIW架构相对来说是比较稳妥和合适的,因为对Midgard来说,它拥有128bit的矢量处理能力,可以映射为ARGB计算,也就是每个SIMD处理一个颜色通道,标量单元刚好可以辅助处理那些不太好处理的特殊计算部分。因

OFweek电子工程网此,虽然从GPU架构发展来看,线程级并行是大趋势,但是在当前也不能说指令级并行就没意义了。在确定了Midgard使用指令级并行后,就需要关心一下它的ALU流水线设计了。为了满足目前的VLIW方案并尽可能提高效率,整个Midgard的流水线管道有128级,算术管道部分有30级深,不过Midgard的三管线设计每个管线都有自己不同的深度。从GPU的角度来看,Midgard简直就是一个极深的、高延迟、大吞吐量、交织着大量线程以保持流水线效率的GPU。在任何情况下,ARM都允许Midgard通过绕过一些错误,比如失败的读取或者写入等来避免等待,同时会重启这些指令,而不是令其堵塞在流水线管道。AMD在从指令级并行转换至线程级并行是在2011年的GCN架构上完成的。还有一些其它消息更令人感兴趣,那就是Midgard完全没有全局的线程级并行性设计。所有目前的主流GPU,无论来自英伟达、AMD还是英特尔,无论是否依赖于指令级并行,都至少和线程级并行相关。在这些GPU的设计中,很多线程被捆绑在一起直接发送至ALU单元。一般来说这些被捆绑的每个线程都代表了一个像素,只是由于空间位置存在一定的相关性,因此它们有几乎相同的指令算法,一堆类似的线程可以同时发送操作而不需要一个个计算。因此,我们在目前的GPU设计中看到了诸如波次这样的概念,比如AMDGCN是16个线程每波次,而英伟达在Kepler中是32个。但是,这样的情况在Midgard这里并不存在。从上一代架构开始一直到Midgard,它们的GPU中每一个线程都是独立的,似乎和线程的并行处理无关。而做出这样的设计,是因为Midgard的每个算术管道都是自己的“CPU”,它们可以对线程进行独立的处理和计算。即使是诸如Mali-T760这样只有两组运算单元的GPU,这两组运算单元也会彼此分开独立工作。如果扩大的更大一些,比如T760MP16,它拥有32个计算单元,依旧是彼此独立工作。

OFweek电子工程网对Midgard这样的设计,其实可以分为两个方面来看。首先,Midgard的设计非常正确,它使用了一种特殊的方法解决了没有线程级并行的缺陷。一般来说,在图形处理中,线程级并行由于可以很方便的得知像素的空间位置,计算中会捆绑一些线程,比如16个或32个每个波次,带来了效率的提升。但是,以线程级并行为核心的设计也有自己的缺点。比如需要一些分支操作时,由于无法绑定,因此线程级并行的效率会降低。此外,如果一次操作无法满足一个波次的需求,效率也会降低。总的来说,目前Midgard的设计相当的独特,ARM在GPU的设计上展示了一种完全不同于目前所有既定思维的方案。当然,这样的设计最终是否成功,不但有硬件和架构方面的原因,还有软件方面的因素,比如Midgard就更为适合分支更多的程序。TIPS:从指令级并行到线程级并行所谓指令级并行,是指目前所执行的一组指令之间相互独立,不互相等待结果、不互相访问同样的内存单元、不互相使用计算单元或功能部件,它们在处理器内部并行地执行。指令级并行的方法和传统的提高处理器计算能力的方法相关。如果你想提高一个处理器的处理能力,那么最好的办法是给这个处理器中加入大量的高效率、专用的处理模块,这样无论有怎样的任务处理器都可以见招拆招。指令级并行在很长一段时间内都是处理器提高性能的不二法门。不过它的问题在于处理器效率不够高。例如在理想情况下,VLIW的效率应该是100%—这要求每次的数据都恰好满足“ARGB+特殊”这样的形式,但是在很多情况下,某次数据来了“A”,某次数据是“RGB”,某次数据是“GB+特殊”,也就是说实际情况下绝大部分指令都并不符合“ARGB+特殊”这样的设计需求。为了解决这个问题,人们设计了比如超标量、多级缓存、预测执行等手段来提升并行度,此外,加入了更深的流水线来细分指令,力求使得指令级并行能够提升效率。随着计算机技术的发展,指令级并行规模大、效率低的弊端已经越来越明显,传统的指令级并行很难适应现代计算模型中复杂多变的、不规则的计算特性。线程级并行恰好可以用于进一步增大整个处理器的吞吐能力。举例来说,线程级并行中的流水线在当前任务上如果遇到无法解决的等待或者延迟,可以迅速切换到新的工作,线程级并行中的执行也没有了固定的排序方式,除了部分特殊计算外,其余指令都会面对几乎相同的计算单元。以AMD的GPU为例,新的GCN架构就是典型的线程级并行,它的CU单元拥有4组、每组16个ALU单元,由于取消了所谓的固定任务格式,GPU只需要根据需求将所有内容直接塞入CU单元即可,大大提升了效率。总的来说,目前桌面级别的处理器,都在向线程级并行转进,在移动SoC的GPU上,受制于功耗等原因,可能还存在一些指令级并行设计。毕竟目前移动SoC无论是性能还是特性水平依旧远远落后于桌面产品。在恰当的时候选择合适的架构,也是非常重要的。

OFweek电子工程网GPU中的波次,图中展示了随着时间不同波次的计算任务被依次填充进入计算单元。Midgard的每个计算单元,似乎都存在自己的线程判断和执行单元。

OFweek电子工程网Midgard支持前后帧之间的图像比较,如果有部分没有改变,那么Midgard就会跳过这些部分,同时可以节省大量带宽和资源。Midgard:ARM的新时代其实,Midgard的出现已经比较早了。Mali-T600系列在2013年就已经宣布。但是直到2014年Mali-T700系列发布后,Midgard以及相关的技术设计内容才开始逐渐多了起来。从架构角度来看,Midgard是一个特立独行的、非常具有ARM设计特色的产品,它在各个方面的设计都和目前比较主流的GPU方案有着明显的差异,而从目前的情况来看,Midgard架构的实际产品表现还是比较令人满意的。

OFweek电子工程网16个Mali-T760组成的计算阵列,拥有32个独立运作的单元。接下来的表格,对比了英伟达、IT、ARM以及AMD的一些设计方案。需要说明的是,由于目前在移动产品端,受限于规模和工艺等因素,ARM比较推荐Mali-T760MP10这样的配置,因此本文对比也以这款产品为主。Midgard架构总览

OFweek电子工程网由于一些细节算法未知,因此对ARMMali-T760MP10的性能估计存在两种可能。这两种可能的纸面能力差别还是比较大的。综合来看,在计算能力上,Mali-T760MP10比目前最强悍的TegraK1、PowerVRGX6650等要差一些,但是基本上和AMDA4-1350在一个水平线上。此外,Mali-T760MP10的像素和纹理能力看起来似乎不错,这在目前高清化移动设备中会有比较明显的优势。ARM使用AFBC能够有效节约带宽,并降低功耗。总的来看,Midgard将是ARM在未来大约2到3年间,在移动SoC市场上主打的GPU产品。有了前代产品的成功,ARM自然也期待Midgard带来他们在移动SoC上的又一次胜利。不过,目前移动SoC的GPU市场,ARM还不是主力,凭借Midgard这样的设计和规模,究竟能带来怎样的改变,还得看市场风云变幻,如何发展了。

发布评论

评论列表 (0)

  1. 暂无评论