2024年4月3日发(作者:阚冷荷)
Radeon H D 6970/6950的设计目标和
重大调整
众所周知,AMD自R600以来一直在沿用4D+ID架
构,包括后来的RV670、RV770、RV870都是在这个架构
满足未来游戏不断发展的需求。 .
鉴于上述需求,Radeon HD 6970/6950在架构上作出
了如下重要调整:首先,将之前的4D+1 D的架构改用4D结
构,放弃了比较“胖”的执行特殊计算任务的“T-Stream”单
基础上进行改良。在Radeon HD 6870/6850发布之前,
有传闻称AMD将使用全新的4D架构,后来的事儿大家也
都知道了 —Radeon HD 6870/6850仍然沿用T'4D+ID
元。这样的好处是在一定程度上提高了晶体管的使用率,可
以提升每平方毫米杨 的性能;其次,增强了曲面细分计算
的能力,以更好地应对未来的游戏需求;再者,在MLAA抗
架构。但此消息并非空穴来风,此次AMD终于在Radeon
锯齿基础上(Radeon HD 687Q佑850开始引入)采用了新的
EQAA抗锯齿模式,最后,新增了方便用户调节显卡功耗的
PowerTune技术,X ̄GPU的功耗有了更为深入的监控和管理
(有关Cayman图形架构的说明请参看后文介绍)。
HD 6970/6950上使用了全新的4D架构,堪称自R600
之后最重要的架构调整转变。我们曾经在Radeon HD
6870/6850评测时说过,使用了相当长时间的4D+ID架
构虽然表现不错,但效率上存在一定问题,需要作出改变
以适应未来发展。另外,DirectX l1时代已经全面来临,
AMD也需要加强显卡在DirectX 1 l:h-面的应用能力,以
肌”C
o nr
2o
u
te
Radeon HD 6970/6950家族及规格
AMD第二代DirectX l l Radeon HD 6900系列显卡
1月
Tr 94
Mc评测室] 竺兰 t
目前只有一个核心,也就是Cayman,这款核心的产品暂时
只有Radeon HD 6970和Radeon HD 6950。根据AMD
的惯例,未来还可能有一颗更为低端的Radeon HD 6930
以及双核心的Radeon HD 6990。
AMD给出的数据,Radeon HD 6970在PowerTune最大
满载功耗下是250W,一般游戏满载功耗是190W,空载功
耗只有20W,需要8pin+6pin的外接供电。
Radeon HD 6950定位稍低,将接替之前的Radeon
HD 5850,国内官方价格是2399元。在这个价位上,
Radeon HD 6950没有直接竞争对手,但按照定位,它的
对手应该是GeForce GTX 470或者GeForce GTX 570。
较Radeon HD 6970而言,Radeon HD 6950通过屏蔽部
Radeon HD 6970是目前AMD单核心显卡中的旗
舰产品,将接替之前的Radeon HD 5870,直接竞争对
手是GeForce GTX 570,在国内官方定价为2999元。
它内建l536个流处理算术逻辑单元(Stream Procesing
Unit,SPU)、24个SIMD阵列、96个纹理单元以及32
个ROP(光栅处理单元),最大浮点计算能力达到了
2.7TFLOPs。该卡搭载2GB/GDDR5/256一bit显存,核
分流处理算数逻辑单元的方式在规格上做了-一定缩减。它
内建1408个流处理算术逻辑单元、22个SIMD阵列、88个
纹理单元、32个RoP。该卡同样搭载2GB/GDDR5/256一
bit显存,但核心频率和显存频率分别被降低到800MHz
和5000MHz,最大浮点计算能力为2.25TFLOPs。根据
AMD给出的数据,Radeon HD 6950在PowerTune最大
满载功耗下是200W,一般游戏满载功耗是140W,空载功
耗也只有20W,需要双6pin的外接供电。
心频率和显存频率分别为880MHz和5500MHz。根据
Radeon H D 6970/6950性能测试
采用全新VLIW4针架构的Radeon HD 6970/6950f ̄
否给我们带来惊喜,是否能够战胜NVIDIA同级别产品,
特别是GeForce G1X 570。我们组建了英特尔Core i7 965
Extrerne ̄台进行测试,告诉你最详细和真实的的测试结果。
你将了解到Radeon HD 697o/6950的游戏陛能、曲面细分性
能、抗锯齿性能和功耗表现,以及它们和AM 上一代定位
相近产品及各自的竞争对手(Radeon HD 6870/5870/5850和
GeForceGTX580/570/480/470)的性能对比进行测试。
既然Radeon HD 6970/6950在架构上进行了优
化,那么其效率会在哪些方面有所提升呢?我们将选取
①Radeon HD 6970采用了全新的4D架构
3DMark Vantage、 孤岛惊魂2》和《孤岛危机》这三
表1:Radeon HD 697016950与同档次和定位相近产品的规格一览
等效显存频率 5500MHz 5000MHz 4800MHz
4000MHz 4200MHz
4008MHz
3800MHz
3696MHz
1400MHz
2.017TFLOPs
流处理器频率
浮点运算
725MHz 900MHz
}t464MHz
i 1536MHz 1408MHz }850MHz l
1544MHZ
2,7TFLOPs 2 25TFLOPs;2.72TFLOPs[
2 09TFLOPs 2.02TFLOPs 2.37TFLOPs 2.10TFLOPs
显存带宽
最大功耗
;176GB/s
250W
160GBIs
200W
128GB/s : 133.4GB/s 192.4GB『s
153.6GB/s l
l 152GB/s
219W
177GB,s
250W
188W
170W 151W
244W
款热门的DirectX 10/l0.1游戏和软件对Radeon HD
6970/6950的DirectX 10/10.1性能进行测试,来验证其
DirectX 10/10.1游戏性能。当然,我们最为看重的仍是其
到了其强劲的实力——一款价格不超过2000元的高端显
卡的性能已经接近单核心旗舰Radeon HD 5870。而如
今Radeon HD 6970 ̄U依托全新设计的VLIW4针架构,
在游戏性能上全面超越Radeon HD 5870,平均领先幅
度在10%左右,例如在((异形大战铁血战士》中的领先幅
度为l0%。相比Radeon HD 5870,Radeon HD 6970
的SPU数量减少了,但游戏性能却提升了,这充分说明新
架构的优势。
值得注意的是,Radeon HD 6970在3DMark系列
等基准测试软件中性能表现比游戏中的效率更高,领先
Radeon HD 5870 l 5%左右,例如在3DMark Vantage
DirectX ll游戏性能,为此将选取包括最新的3DMark l1
在内的DirectX l l游戏和基准软件测试,例如 尘埃2 和
异形大战铁血战士》等。
Radeon HD 6970/6950另一大改进就是提升了曲面
细分性能,那么它们的曲面细分性能会有多大幅度的提升
呢?面对竞争对手强大的曲面细分性能,它们有多大的胜
算?我们将用Unigine Heaven Benchmark来深度考察它
们的曲面细分性能,分为三个等级。
最高等级的设置为“DirectX 1 l+Shader(High)+Te
和3DMark l1中的领先幅度都达到了15%。而在实际游
ssellation(Extreme)”,表示显卡运行在最高画质、极致
Tessellation等级的DirectX l1模式下,这是考验显卡在极
致Tessellation画面下的性能。这主要是在考验显卡的理
论极限Tessellation性能,目前已发布的DirectX 11游戏尚
未应用如此“变态”的Tessellation设计;中等等级设置为
戏中,Radeon HD 6970的领先幅度则有所下降,例如在
(《孤岛危机))和 尘埃2》中,其领先幅度分别为1O%和
8%。这说明AMD的后续驱动还需要进一步对Radeon
HD 6970进行优化。
“DirectX l l+Shader(High)l+Tessellation(norma1)”,表
示显卡运行在最高画质、正常Tessellation等级的DirectX
l1模式下,这更符合当前DirectX l1游戏对Tessellation的
Radeon HD 6970 vs.Radeon HD 6950
相比定位稍低的Radeon HD 6950,Radeon HD
6970无沦是在SPU数量、频率和纹理单元数量上都占据
优势,因此其性能表现更好,平均领先幅度在12%左右。
应用;最低等级的设置是“DirectX 1l+Shader(High)+T
essellation(Disabled)”,表示显卡运行在最高画质、关闭
Tessellation特效的DirectX 11模式下,这是考验显卡在关
闭Tessellation以后在DirectX l1游戏中运行的情况。
Radeon HD 6970/6950的抗锯齿性能是大家关心的话
总的来看,Radeon HD 6970 ̄Radeon HD 6950保持了
较大的优势,两者在实际游戏中的性能差距基本符合两者
的定位。此外从测试来看,Radeon HD 6950的性能已经
和上代单核心旗舰Radeon HD 5870不相上下。
题,我们将根据不同的游戏,开启4倍或者8倍抗锯齿,以验
证Radeon HD 6970/6950的抗锯齿的性能。评判的依据是
考察显卡在开启抗锯齿以后,性能下降了多少。同时,由于
Radeon HD 6900系列在Radeon HD 6800系列的MLAA
Radeol3 HD 6970 vs.GeForce GTX 570
在和同档次GeForce GTX 570的较量中,Radeon
HD 6970继续保持在3DMark基准软件中的优势,在
3DMark ll的测试中领先对手6%。由于Radeon HD
6970对架构进行了优化,大幅度增加了纹理单元的数量,
因此在大量使用精美纹理贴图的游戏中的性能表现不俗,
抗锯齿的基础上新增加了EQAA抗锯齿,因此我们将以
《孤岛惊魂2 为例,来看看Radeon HD 6970在不同抗锯
齿模式下(分别为8AA、8AA+EQAA、8AA+MLAA和
8AA十EQAA+MLAA)的性能表现和画质对比。 例如在《孤岛危机》中,其领先GeForce GTX 570 7%。
在DirectX ll游戏的测试中,除了 异形大战铁血
战士》、《地铁2033 ̄和 潜行者:普里皮亚季》(在4AA
以后,Radeon HD 6970更具优势),Radeon HD 6970
在另外三款DirectX 11游戏中落后GeForce GTX 570
24%左右,例如在《尘埃2 和《战地2:叛逆联队》中,落
后幅度分别为15%和16%。这从一个侧面说明,相比专为
DirectX ll游戏优化设计的GeForce GTX 570,Radeon
CPU:英特尔Core i7 965 Extreme
主板:华硕GENE『】
内存:金邦DDR3 1333 2GB×3
电源:Tt 1000W
系统:Windows 7 64bit旗舰版
Radeo ̄ ¨D 6g70
Radeon HD 6970 vs.Radeon HD 5870
HD 6970在DirectX ll游戏中的优势并不明显,甚至比较
吃亏。总的来看,Radeon HD 6970和GeForce GTX 570
互有胜负,GeForce GTX 570稍占优势。 Radeon HD 6870在架构上的小幅优化,让我们看
MLAA时(8AA+EQAA+MLAA),性能下降幅度是最
Radeon HD 6950
Radeon HD 6950 VS.Radeon HD 5850
大的,达到了52%。而从画质来看,EQAA和MLAA在物
体边缘处的处理的确要清楚一些,但这些不太明显的画质
提升在游戏中是很难发现的。
表2:Radeon HD 6970在《孤岛惊魂2》中开启MLAA和EQAA后
的性能比较
1920×1080 8AA
1920×1080 8AA+EQAA
和上一代定位相同的Radeon HD 5850相比,Radeon
HD 6950亦实现了全面的性能超越,平均领先幅度在20%
以上,例如在《潜行者:普里皮亚季》和((失落的星球2》
中,其分别领先Radeon HD 5850 16%和22%左右。
Radeon HD 6950 VS.GeForce GTX 570/470
1920 X 1080 8AA+EOAA+MLAA
1920×1080 8AA+MLAA
事实上,在2399元价位上,NVIDIA目前缺乏相对应
的产品,未来很可能是GeForce GTX 560。
而此次AMD希望借助Radeon HD 6950/6970实
曲鬣细分性能表现
Radeon HD 6970/6950另一大特点就是对曲面细分
功能进行了升级,一改以往AMD显卡对曲面细分功能支持
不太好的缺点。以Radeon HD 6970运行Unigine Heaven
现错位竞争的策略,来夹击GeForce GTX 570。相比
GeForce GTX 570,Radeon HD 6950没有什么优势,平
均落后幅度在30%以上。而和GeForce GTX 470相比,
Radeon HD 6950除了在《失落的星球2》等少数几个游
戏落后以外,其余游戏都保持领先,幅度在10%左右。
Benchmark为例,其在1920X 1080 Shader(High)、
Tessellation(norma1)模式下可以获得56.5fps的帧率,
相比Radeon HD 5870足足提升了65%,和GeForce GTX
抗锯齿表现
在开启了全屏抗锯齿以后,Radeon HD 6970/6950的
性能损失幅度并不算大,基本和GeForce GTX 570持平,保
持在2O%左右。这说明改进的后端渲染单元提升了Radeon
HD 6970/6950的抗锯齿性能。以Radeon HD 6970和
570相比只低了3%,几乎可以忽略不计。由于“Tessellation
(norma1)”的设置更符合当前DirectX l1游戏对曲面
细分的应用,因此测试结果说明Radeon HD 6970可以
胜任当前DirectX l1游戏的曲面细分应用。此外,在1920
X 1080 Shader(High)、Tessellation(Disabled)设置下,
Radeon HD 6970的性能甚至超出GeForce GTX 570
GeForce GTX 570为例,Radeon HD 6970在《孤岛危机》
和《孤岛惊魂2 中开启了8倍抗锯齿以后,性能分别下降了
12%和27%l GeForce GTX 570 ̄J
;2
为20%和23%。
的弱
稻叫 ∞
12%,Radeon HD 6970的理论DirectX l1游戏性能令人
满意,这也和3DMark l1的测试结果吻合。
而在1 9 2 0 X 1 0 8 0 S h a d e r(H i g h)、
此外,我们还就AMD显卡最新的EQAA和MLAA
抗锯齿进行了
Tessellation(Extreme)模式下,由于曲面细分等级达到最
高,GeForce GTX 570强悍的曲面细分性能被体现出来,
领先Radeon HD 6970 28%。好在Radeon HD 6970此
测试。仅从耗费
显卡资源的角度
出发,M L A A
时也能获得34fps的帧率,能够保证流畅性。
是比较耗费资
源的。Radeon
HD 6970在开
启8AA+MLAA
功耗表现
优秀的功耗表现一直是AMD Radeon HD
5000/6000系列引以为傲的资本,虽然Radeon HD
以后,性能下降
了47%,在开启
6970/6950的晶体管数量有所提升,但功耗表现也还算
令人满意。相比GeForce GTX 570,Radeon HD 6970
8EQAA以后,性
④开启EOAA和MLAA的方法是进八催化剂控制
中心一显卡一3D一全部,你可以在催化剂的界面
中问看到“模式”(默认为“使用应用程序设置”)
和“形态过滤”。如果你要开启MLAA选项,就勾
选“形态过滤”;如果你要 ̄EQAA选项,就将
“模式 设置为“增强应用程序设置”即可。如果
你要同时开启EQAA和MLAA的话,就同时对上
述两项设置进行设置。
的待机系统功耗和满载系统功耗分别低了l5W和l7W,
Radeon HD 6950 ̄U分别低了23W和62W。而在温度测试
能下降了35%;
在开启了8AA以
中,Radeon HD 6970的待机温度和满载温度分别为45 ̄C
和88℃,Radeon HD 6950 ̄为40℃和85℃,满载温度还
是偏高。当然,在满载时散热器处于全速状态,显卡的噪
音还是比较明显的。
后,性能下降了
27%。当我们同
时开启EQAA和
MC评j受n室
我们还利用AMD的PowerTune功能对Radeon HD
70.84fps,游戏性
目 一 … 《
6970进行了测试。当Radeon HD 6970处于默认状态 能较默认状态下降
函 幽 _ _. l:团
时,其待机功耗和满载功耗分别为90W和324W,待机温
了8%。
』… …嗍;, f0n L心 0l 』
度和满载温度分别为45℃和88℃;当我们将显卡功耗调
就PowerTune
翻
至20%时,Radeon HD 6970的待机功耗和满载功耗分
的测试来看,如果
~r J__
触%^榭嘲墨1 冒■下
别为90W和370W,待机温度和满载温度分别为45"C和
你在乎功耗和性
,_一一, = 每
盔圈I
89 ̄C,功耗和温度较默认状态都有所上升。此时在((孤
能的平衡的话,选
=l = 1
岛惊魂2》(运行在1920x 1080 Veryhigh和1920×1080
择默认状态是最
:1i ,|■r
Veryhigh+8AA)模式下进行测试,Radeon HD 6970几
好的;如果你更在
乎没有性能增长。
乎功耗表现的话,
‘ ; j ! i ; I l融a目J
当我们将显卡功耗调至-20%时,Radeon HD 6970的
低至.20%,此时
可以将显卡负载调 U
Ra
v
d
o
eo
rd
nHD
riv竺 oe r
697
e
o/
w
6
o
95
r L
0的功耗进行调节。
Jntto’ s n进 麓一o lIlgs
待机功耗和满载功耗分别为85W和236W,待机温度和满
’ q*-M
载温度分别为3CC和73"(3,较默认状态有了大幅下降,功
系统功耗和温度有明显下降,而8%左右的性能损失也在
耗和温度表现令人满意。不过此时在((孤岛惊魂2》的测
可以接受的范围内。
试下,Radeon HD 6970只能在1920 x 1080 Veryhigh和
1920×1080 Veryhigh+8AA模式下分别获得96.86fps ̄l
:l啊哺S珊_=l啊嘣秘剐__置l町啊aI啊=l哪蹁啊=憎瞄册恤HE-粥 _H棚瞄硎--_矗-怒嘲¨_船鬣 咖
3DMark Vantage Extreme X10572 X9208 X9164 X7350 X7560 X13190 X11207 X10029 X7923
GPU SCORE 【10323 8955 8912 7115 7323 12677 {10757 9618 7586
3DMark 11 Extreme X1778 X1576 X1539 X1269 X1371 X1943 X1660 X1663 X1329
孤岛危机》
1920×1080 Veryhigh 43.55 38.56 39.55 33.05 35 43 46 82 4114 39.2 31 51
1920 x 1080 Veryhigh 4AA 38 17 34.09 33.92 28.44 30.45 40,83 34 75 34.09 26.85
Ⅸ孤岛慷魂2》 { }
1920×1080 Ultrahigh I 104.11 95.55 93.99 }80.95 87.18 120.55 113.25 113.21 I96.16
1920 ̄1080 Ultrahigh 8AA }76
43 69.94 67,16 l 57
31 61.18 1 99.98 86.56 86.37 70.16
.
.
Unigine Heaven Benchmark
192(3 ̄1080Shadef(H吗n1 Tessellal on(E灯eme) 34 30 9 20.5 17.4 23.2 49 9 43 5 42 3 33.7
1920x1080 Shader(HIgi ̄).Tessellation(Norma1) 56.5 51 1 34 28.8 34 2 66 7 58 56 45
1920×1080 Shader( ̄lgnl Tessellation(Disabled1 85.2 75.6 51 3 43 3 46 2 86.8 761 71 7 57.8
《失落的墨球2》B场景
1920×1080 Veryhigh 39l2 35.5 33.4 28.3 32.2 61.2 55 52.6 42.2
1920 x 1080 Veryh Jgh 4AA 32.3 29.3 26.4 22.3 25.7 52.8 46.6 44.5 35.6
《异形大战铁血战±》1920×1200 High 57.5 51.1 52.7 。43.2 42 61.8 53 3 51,6 41.5
《尘埃2
1920×1080 Veryhigh 79 71 6 72 9 63 3 66.6 110_7 97_1 92 2 73l7
1920x1080 Veryhigh 8AA 70.1 63 4 64 4 55 5 60 68 9 75 5 73 577
《潜行者:普翼皮亚季》 {
1920x1080 Ultra 73.58 65.73 69.52 55.4 58 55 86.97 78.53 76 1 62.4
1920×1080 Ultra 4AA 51.53 44.95 38.93 31,85 33 55.13 47.93 47.1 3775
Ⅸ地铁2033))
1920×1080 Ve rymgn 4AF 30 30 25 3 22 22 35 3 30.39 30 28 23
1920×1080 Veryhigh 4AA 4AF 24.31 24 16 8 1.4. 14 29.7 23 48 25 48 19
《战地2=叛逆联队》
1920×1080 Veryhigh 71.9 65.74 67 57.86 62 88.7 79.5 77.3 63
1920×1080 Veryhigh 8AA 55.6 51.7 51.9 43.89 47 78.2 66.75 67.48 52.22
待机系统功耗 90W 82W 80W 80W 78W 105W 105W 115W 99W
满载系统功耗 .324W 278W 313W 275W 269W 313W .340W 430W 346W
Mc评测室]l—i
期待已久的4D架构为Radeon HD 6970/6950增加了
这似乎又为我们重现了之前Radeon 9500Pm刷新为Radeon
9700的故事,也再现了Radeon HD 4830 ̄t1新成Radeon
HD 4850的精彩。这样一来市场ERadeon HD 6950就变得
相当抢手,性价比大增。另据一些业内人士的消息来看,目
前Radeon HD 6950的产量似乎不高,且大量的Cayman核
都被用于制造Radeon HD 6970。再加上Radeon HD 6950
超高的性价比,导致这款显卡变得相当抢手。
未来,AMD还将借助Cayman核心发布双核心产
品Radeon HD 6990,巩固卡皇宝座。而Radeon HD
新的动力,其性能特别是曲面细分性能较AMD上一代产
品有了质的提升,PowerTune的引入更是为未来显卡的节
能设计树立了典范。
但和玩家X, ̄4D架构的期待值不太相符的是,Radeon
HD 6970在面对GeForce GTX 570时并没有表现出令人
折服的性能,甚至在不少游戏中落后。两者的性能只能说
互有胜负,GeForce GTX 570稍占优势。反倒是Radeon
HD 6950,其表现和价格更让人心动,在2399元价位上,
它没有竞争对手。虽然它的性能不及GeForce GTX 570,
但在面对G}eForce GTX 470时仍有不小的优势。再加上
其低功耗的表现,Radeon HD 6950有望成为新一代高端
性价比的代表和典范。
6950也即将面临NVIDIA新产品的有力挑战——代号
为GF114核心的GeForce GTX 560已经蓄势待发。总体
而言,AMD此次发布的Radeon HD 6970/6950让我们
看到了4D架构的威力和潜力。作为敲门砖,Radeon HD
697076950的积极意义非常重大。这让我们对AMD未来
的产品充满了期待。
除此之外,根据一些玩家的破解情况来看,Radeon
HD 6950还拥有摇身一变成为Radeon HD 6970的潜质。
Radeon H D 6970/6950图形技术解读
从4D+I D ̄}U4D:深入理解AMD 4D架构
Radeon HD 6970/6950最为重要的改变就是从传
有理论值的1/5。
AMD工程师很早就在思考解决上述问题的办法,
在R600以及后续的4D+1D计算中,AMD开始允许指令
合并,也就是说几个不同的指令可以合并在一起进入流处
理单元并进行计算。这样可以在部分场景下提升显卡的
性能。比如说,两个2D指令接踵而来,传统计算是先计算
个2D,再计算另外一个2D,这样4D+lD架构的性能只
统的4D+ID架构转变为4D架构,那么这样转变后的好
处在哪里?AMD为什么要作出这样的调整?竞争对手
NVIDIA又采用的是什么架构呢?
4{=)+’ 架构的不足
AMD显卡传统的4D+ID结构可以在每次计算中处理
一
一
有理论性能的40%,但一些新的设计可以允许这两个2D
个像素的所有色彩或者坐标信息,不过考虑到有时候还
个ALU单元,称之为ALU.trans。这个特殊的单元和传
指令合并成一次计算,变成2D+2D,这样就能发挥80%
的性能。与此类似的还有3D+1D、lD+lD+1D十lD+1D、
1D+4D等特殊的复杂计算。
虽然AMD利用了种种手段对4D+lD架构进行了优
化,但改进的4D+lD架构的效率还是不够理想,在很多情
况下部分晶体管都在打瞌睡。AMD的SIMD架构虽然效
率不一定高,但好处是规模扩充相当容易,比如AMD的
需要一些特殊计算,比如sin、COS等,AMD还特别设计了
一
统的用于计算四个ALU组成了AMD的4D+1D架构。
从理论上来看,4D+1D架构的效能是非常出色的。
因为它一次计算就能处理一个像素所有的色彩或者坐标
信息。但现实和理想总是有差距的,像素点并不是总需要
计算位置或者色彩。一些像素实际上只需要改变色彩,坐 4D+1D流处理单元作为一个整体,只需要一个指令发射
端就可以解决问题。Cypress拥有1600个流处理算数单
元,320个指令发射端就可以了a但NVIDIA的MIMD ID
架构,每个ALU都需要发射端等辅助设计,晶体管开销巨
标不变,或者只是运动—下,色彩信息没有变化,亦或者
只是色彩中的某个数据需要计算,其他的不需要。总之,
在实际计算中,并不是所有的信息都需要计算,这就造成
T4D+ID架构中的部分单元的闲置。在最严重的情况下,
4D+ID架构在遇到全部由lD组成的计算需求时,性能只
大。再加上缓存、线程调度器、寄存器等周边设计,1D架
构在芯片体积和规模上都有比较明显的劣势。这也是造成
从本质上来说.显卡计算的目标就是屏幕上显示的像素点。
例如一台24英寸显示器分辨率为1080p(1920×1080).如果你用
这台显示器玩游戏的话 显卡必须保证在一秒钟之内至少有24张
1080p的图像计算出来,然后才能在显示器上看到流畅的画面。
单独将一个像素拆分来看可以发现 其由两个部分构成:
色彩和坐标。色彩方面自然是RGB三原色,再加上一个特殊的透
明度参数 也就是A,最终组成RGBA四个数据的组合。每一个
像素点.都需要这四个参数才能最终确定色彩的信息。我们再
来看看坐标.在显终端上,像素是以二维方式存在的.即只存在
XTlfIY两个坐标。但我们都知道.之所以称之为3D计算.就是因
但这还不够.很多点并非单独的点.它们还需要包含其他
信息.比如3D计算中不同坐标系之间的变换 就需要确定不同
坐标系之间的计算方法。传统的XYZ三维坐标并不包含坐标系
信息,因此还得加上一个数据.这就诞生了XYZW——齐次坐
标。齐次坐标是目前计算机图形学应用的最重要的手段.可以
大大简化几何变换的计算.确定像素位置.还能够对向量和点
进行有效区分
我们现在就可以总结计算机计算中对某一个点的计算方
法了。对点来说.色彩信息有四个:RGBA 坐标信息也有四个:
XYZW。最初的分离式渲染架构(比如Radeon 9700等老显卡,
分为顶点引擎和像素引擎),是分开处理像素渲染和顶点渲染
为显卡在最初对物体建模的时候 是按照30空间的形状来处理
的 我们现在在屏幕上看到的2D画面 只是3D场景的一个投影
而已一只不过这个投影是根据观察者也就是游戏玩家所需要
的视角来不断变换的。这说明屏幕上每一个像素,先需要XYZ三
维坐标才能确定位置。最后通过光栅化的方法将其转换为XY---
的.他们的像素渲染确定的就是利用RGBA数据.顶点坐标变换
的处理是利用XYZW数据。在统一渲染时代后.无论是RGBA还
是XYzW.从 外形上”来看.都需要四次计算才能满足需求.因
此.在AMD传统的StMD架构上.基本的结构是4D.也就是一次
计算可以处理这四个信息。
维场景。二维场景中已经包含了类似 近大远小 的深度信息。
NVlDlA的1 D架构
相比AMD的SlMD架构 NVIDIA采用了MIMD(多指令多数
据流)的设计.这种设计保证了显卡随时处于最高效率运转。
数据在进A.NVIDIA显卡的流处理单元之前.就已经被全部拆
分为10,然后送A.1D流处理单元。比如进来一个3D数据 拆分
为三个1D,计算三次;进来一个2D数据.拆分为2个1D数据.计
利用率的提升已经没有太大帮助了。因此,AMD在新的
Cayman中,将4D+ID改进为4D结构,抛弃了之前的1D。
AMD放弃的1D,是一个体积比较大的、用于一些特
殊计算的AUJ.trans(NVIDIA称之为SFU)。在放弃这个
单元后,AMD重新设计了Cayman剩余的4D,将这四个
4D- ̄;变为对等的四个ALU。不仅如此,这四个ALU通过
“合纵连横”,接管了之前ALU_trans的计算任务,比如一
些特殊计算,可能需要占用3个ALU,但考虑到4D+ID本
算2次:在最差劲的情况下.进来的全部都是4O数据,每个数
据在AMD的显卡中,一次就可以完成 但NVIDIA显卡需要四次
计算。从理论来说,MIMD 1D计算方法的效率虽然接近100'/*
但问题是大量多数据需要多次计算。因此NVIDIA设计了分频
的核心——流处理器频率比核心频率高出一倍左右 再加上
庞大的流处理单元数量,也保证了相当高的性能。
身就不太高的效率,这样的取合从理论上来说是可能提升
晶体管利用率的。根据AMD给出的数据,在改变成4D结
构后,整个单元的每平方毫米. 能可以提升10%。
不过效率的提升代价也相当明显。以定位相同的
Radeon HD 5870为例,其具备1600个流处理算数逻辑
单元(SPU),需要320个指令发射端(Radeon HD 5870是
4D+l D架构,5D×320)。而Radeon HD 6970具备1 536
个流处理算数逻辑单元,SPU数量减少了,但指令发射端
数量却增加到了384个(4D×384)。再加上周边一些辅助
单元,整个晶体管规模就变得更为庞大。现在的Cayman
晶体管数量达到了26.4亿,相比之前的Cypress的21.5亿
提升了约23%,当然功耗也会随之提升。
双头鹰:更强的双图形引擎
对曲面细分技术的支持一直是AMD显卡的弱项,受
(DNVIDIAfl前 ̄DirectX 11显卡均采用ID,t ̄构设计
到不少外界的批评。AMD认为,曲面细分只是DirectX
l1游戏的一个方面,对它的使用并非越高越好。在游戏
中,过重的曲面细分系数并不会带来图形画质的明显提
升,反而会由于过大的计算负荷导致显卡性能大跌。在之
NVIDIA DircetX l】显卡功耗较高的一个主要原因。
放奔4D+tD,转向40
从RV670开始,AMD一直奉行小核心策略,在一定
程度上避开了工艺难度问题。但为了保证不错的性能,对
晶体管效率就必须有很高要求。因此,AMD在研发了很
长一段时间的SIMD架构后,掌握了大量显卡计算中的
前的Cypress中,AMD设计了一个曲面细分单元。这样的
设计只是达到了DirectX ll“拥有”曲面细分的基本需
求。当然,在AMD推出第一代显卡时,DirectX l1游戏尚
未发布,游戏要求也不高,因此AMD这样的设计也符合
当时游戏的需求。在DirectX ll时代正式来临后,AMD
信息和数据,认为继续保持这样的4D+1 D结构对晶体管
就需要重新考虑显卡对DirectX l1的支持特别是对曲面
细分的支持了。
因此在Cayman中,我们看到了AMD
全面加强了DirectX ll设计。首当其冲的就
是最受关注的曲面细分性能。相比上代产品
单曲面细分单元和NVIDIA的大量曲面细
分设计而言,AMD经过衡量。确定了自己
的曲面细分设计方法。AMD针对Cayman
的曲面细分设计并不过于突出,而是有序加
强 AMD将Cayman中负责曲面细分单元
①在4D(左)和4D+lD(右)架构下’一个SPU在一个时钟周期内--T ̄2完成的浮点计算和整数计
算性能的对比。 ・
的图形引擎(Graphics Engine)由之前的
101:Mi  ̄r#o智 。
AMD的EQAA目前有2XEQAA、4XEQAA和8×
EQAA ̄.种模式,其中2×EQAA ̄似2 XMSAA搭配2个
额外的覆盖采样点(2×MSAA本身还包括2个覆盖采样
点),4XEQAA则是4 ̄MSAA搭配4个额外覆盖采样点
(4×MSAA本身还包括4个覆盖采样点);8 XEQAA是
8×MSAA搭配额968个覆盖采样点(8×MSAA本身还
④Cayman(土)、Barts
(中)和Cypress(下)
在曲面细分设计上的差
异,Cayman的曲面细
分性能最强,Barts其
次,Cypress ̄底。
包括8个覆盖采样点)。相比NVIDIA的CSAA,AMD的
EQAA增加了覆盖采样点的数量,比如8×CSAA只有8个
覆盖采样点,和4×EQAA相同,但同级8xEQAA的覆盖
采样点则多达l6个,理论上EQAA的画质会稍微好l—J 。
PowerTune:更智能的电源管理
在节能省电的大潮下,能耗管理、电源管理技术
Cypress的一个提升至2个,随之而来的则是负责曲面细分
的几何单元、顶点单元以及曲面细分器数量也变成双份。
除此之外,光栅器和多级Z缓冲设计也都变成双份。整个
双图形引擎的设计,提高了Cayman在处理三角形时的能
力。现在Cayman ̄够实现多三角形的并行处理,理论上
可以得到相对Cypress高达3倍的曲面细分性能提升。
另外,Cayman在其他方面也有一定改进。比如后端
成为众多高端产品的特殊符号。在显卡方面,AMD的
PowerPlay技术能很好让显卡在2D状态下节约电能,但
AMD还不满足,在Cayman上,又引入了更为节能且能够
让用户手动进行控制的PowerTune技术。
传统的PowerPlay设置了三种功耗状态:3D满载、
3D轻载、2D待机,这三种功耗状态对应着高功耗、中等
功耗和低功耗。在AMD看来,很多应用程序并不需要让
显卡进行3D满载全负荷计算,但由于功耗设置的步进问
题,在性能要求超过中等功耗后,显卡就工作在功耗最高
的满载状态,这对节能来说是不利的。
因此,AMD引入了PowerTune技术,PowerTune
通过在中等功耗和满载功耗两档次之间引入更多的工
单元的能力被进一步加强,能够实现合并操作,在16bit、
32bit计算时的性能上都至少提升了2倍,其中32bit浮点性
能提升了最多4倍。后端单元的性能直接决定了显卡的抗
锯齿性能,Cayman在抗锯齿性能上应该会更为优秀。
在通用计算方面,Cayman最重要的变化就是双精度
性能由之前单精度性能的1/5提升到现在的1/4,当然这种
变化多数都是由架构4D+lD改进到4D带来的。另外一些
作模式,让显卡在一些3D负荷较低的场景中自动降低频
率。以Radeon HD 6950为例,核心频率波动频率范围是
650MHz~78OMHz,在3D应用中显卡频率会自动在此范
在通用计算上的变化包括可以执行Shader合并读操作、
改进了流控制、可以直接从LDS读取数据(之前需要先载
入寄存器)、可以读写本地显存数据等。总之,这些改进提
升了Cayman在通用计算上的表现,特别在一些特殊应用
场合会有更为出色的表现。
围内切换,起到智能节能的作用。
除此之外,PowerTune还能监控显卡的功耗情况,当
显卡功耗超出设定上限后,PowerTune会自动降低显卡频
率,将显卡功耗控制在限定值之内,保证显卡不会由于过
热而烧毁。当然,为了让显卡可玩性更高,满足一些玩家和
功耗敏感用户的需求,AMD在催化剂控制中心中还特别
X'tPower1.une给出了E下限设置,其中上限为+20%,下限
为-20%,默认为0。当用户调整这个数值时,显卡的核 频
率会有波动幅度的变化。
总的来说,Powefrune是一种相当先进的功耗控制方
式,和NVIDIA在GeForce GTX 58O/570上引入的功耗检
测和控制系统类似,但它功能又更为全面一些。PowerTune
EQAA:更新的抗锯齿技术
AMD最近在抗锯齿技术上的创新相当积极,在Barts
系列上AMD推出了全新的MLAA技术。作为初次技术
探索,AMD为我们展示了其在新技术研发上的实力。在
新的Cayman显卡上,AMD又马不停蹄地带来了EQAA
(Enhanced Quality Anti—Aliasing)技术。
从技术本质本身来说,EQAA并非AMD首创,在
NVIDIA的G80上,我们就看到了
技术。这两项技术都来源于MSAA,但通过覆盖采样和色彩
采样分开选择,通过更多的覆盖采样 ,获得更好的画质。
通过对显卡楱 各个部分的监控,在陛能、频率和功耗之间
作出最合适的取合,可以智能调节动态功耗。我们认为,这
种能耗控制的方法必将成为未来显卡的主流设计。酉
2024年4月3日发(作者:阚冷荷)
Radeon H D 6970/6950的设计目标和
重大调整
众所周知,AMD自R600以来一直在沿用4D+ID架
构,包括后来的RV670、RV770、RV870都是在这个架构
满足未来游戏不断发展的需求。 .
鉴于上述需求,Radeon HD 6970/6950在架构上作出
了如下重要调整:首先,将之前的4D+1 D的架构改用4D结
构,放弃了比较“胖”的执行特殊计算任务的“T-Stream”单
基础上进行改良。在Radeon HD 6870/6850发布之前,
有传闻称AMD将使用全新的4D架构,后来的事儿大家也
都知道了 —Radeon HD 6870/6850仍然沿用T'4D+ID
元。这样的好处是在一定程度上提高了晶体管的使用率,可
以提升每平方毫米杨 的性能;其次,增强了曲面细分计算
的能力,以更好地应对未来的游戏需求;再者,在MLAA抗
架构。但此消息并非空穴来风,此次AMD终于在Radeon
锯齿基础上(Radeon HD 687Q佑850开始引入)采用了新的
EQAA抗锯齿模式,最后,新增了方便用户调节显卡功耗的
PowerTune技术,X ̄GPU的功耗有了更为深入的监控和管理
(有关Cayman图形架构的说明请参看后文介绍)。
HD 6970/6950上使用了全新的4D架构,堪称自R600
之后最重要的架构调整转变。我们曾经在Radeon HD
6870/6850评测时说过,使用了相当长时间的4D+ID架
构虽然表现不错,但效率上存在一定问题,需要作出改变
以适应未来发展。另外,DirectX l1时代已经全面来临,
AMD也需要加强显卡在DirectX 1 l:h-面的应用能力,以
肌”C
o nr
2o
u
te
Radeon HD 6970/6950家族及规格
AMD第二代DirectX l l Radeon HD 6900系列显卡
1月
Tr 94
Mc评测室] 竺兰 t
目前只有一个核心,也就是Cayman,这款核心的产品暂时
只有Radeon HD 6970和Radeon HD 6950。根据AMD
的惯例,未来还可能有一颗更为低端的Radeon HD 6930
以及双核心的Radeon HD 6990。
AMD给出的数据,Radeon HD 6970在PowerTune最大
满载功耗下是250W,一般游戏满载功耗是190W,空载功
耗只有20W,需要8pin+6pin的外接供电。
Radeon HD 6950定位稍低,将接替之前的Radeon
HD 5850,国内官方价格是2399元。在这个价位上,
Radeon HD 6950没有直接竞争对手,但按照定位,它的
对手应该是GeForce GTX 470或者GeForce GTX 570。
较Radeon HD 6970而言,Radeon HD 6950通过屏蔽部
Radeon HD 6970是目前AMD单核心显卡中的旗
舰产品,将接替之前的Radeon HD 5870,直接竞争对
手是GeForce GTX 570,在国内官方定价为2999元。
它内建l536个流处理算术逻辑单元(Stream Procesing
Unit,SPU)、24个SIMD阵列、96个纹理单元以及32
个ROP(光栅处理单元),最大浮点计算能力达到了
2.7TFLOPs。该卡搭载2GB/GDDR5/256一bit显存,核
分流处理算数逻辑单元的方式在规格上做了-一定缩减。它
内建1408个流处理算术逻辑单元、22个SIMD阵列、88个
纹理单元、32个RoP。该卡同样搭载2GB/GDDR5/256一
bit显存,但核心频率和显存频率分别被降低到800MHz
和5000MHz,最大浮点计算能力为2.25TFLOPs。根据
AMD给出的数据,Radeon HD 6950在PowerTune最大
满载功耗下是200W,一般游戏满载功耗是140W,空载功
耗也只有20W,需要双6pin的外接供电。
心频率和显存频率分别为880MHz和5500MHz。根据
Radeon H D 6970/6950性能测试
采用全新VLIW4针架构的Radeon HD 6970/6950f ̄
否给我们带来惊喜,是否能够战胜NVIDIA同级别产品,
特别是GeForce G1X 570。我们组建了英特尔Core i7 965
Extrerne ̄台进行测试,告诉你最详细和真实的的测试结果。
你将了解到Radeon HD 697o/6950的游戏陛能、曲面细分性
能、抗锯齿性能和功耗表现,以及它们和AM 上一代定位
相近产品及各自的竞争对手(Radeon HD 6870/5870/5850和
GeForceGTX580/570/480/470)的性能对比进行测试。
既然Radeon HD 6970/6950在架构上进行了优
化,那么其效率会在哪些方面有所提升呢?我们将选取
①Radeon HD 6970采用了全新的4D架构
3DMark Vantage、 孤岛惊魂2》和《孤岛危机》这三
表1:Radeon HD 697016950与同档次和定位相近产品的规格一览
等效显存频率 5500MHz 5000MHz 4800MHz
4000MHz 4200MHz
4008MHz
3800MHz
3696MHz
1400MHz
2.017TFLOPs
流处理器频率
浮点运算
725MHz 900MHz
}t464MHz
i 1536MHz 1408MHz }850MHz l
1544MHZ
2,7TFLOPs 2 25TFLOPs;2.72TFLOPs[
2 09TFLOPs 2.02TFLOPs 2.37TFLOPs 2.10TFLOPs
显存带宽
最大功耗
;176GB/s
250W
160GBIs
200W
128GB/s : 133.4GB/s 192.4GB『s
153.6GB/s l
l 152GB/s
219W
177GB,s
250W
188W
170W 151W
244W
款热门的DirectX 10/l0.1游戏和软件对Radeon HD
6970/6950的DirectX 10/10.1性能进行测试,来验证其
DirectX 10/10.1游戏性能。当然,我们最为看重的仍是其
到了其强劲的实力——一款价格不超过2000元的高端显
卡的性能已经接近单核心旗舰Radeon HD 5870。而如
今Radeon HD 6970 ̄U依托全新设计的VLIW4针架构,
在游戏性能上全面超越Radeon HD 5870,平均领先幅
度在10%左右,例如在((异形大战铁血战士》中的领先幅
度为l0%。相比Radeon HD 5870,Radeon HD 6970
的SPU数量减少了,但游戏性能却提升了,这充分说明新
架构的优势。
值得注意的是,Radeon HD 6970在3DMark系列
等基准测试软件中性能表现比游戏中的效率更高,领先
Radeon HD 5870 l 5%左右,例如在3DMark Vantage
DirectX ll游戏性能,为此将选取包括最新的3DMark l1
在内的DirectX l l游戏和基准软件测试,例如 尘埃2 和
异形大战铁血战士》等。
Radeon HD 6970/6950另一大改进就是提升了曲面
细分性能,那么它们的曲面细分性能会有多大幅度的提升
呢?面对竞争对手强大的曲面细分性能,它们有多大的胜
算?我们将用Unigine Heaven Benchmark来深度考察它
们的曲面细分性能,分为三个等级。
最高等级的设置为“DirectX 1 l+Shader(High)+Te
和3DMark l1中的领先幅度都达到了15%。而在实际游
ssellation(Extreme)”,表示显卡运行在最高画质、极致
Tessellation等级的DirectX l1模式下,这是考验显卡在极
致Tessellation画面下的性能。这主要是在考验显卡的理
论极限Tessellation性能,目前已发布的DirectX 11游戏尚
未应用如此“变态”的Tessellation设计;中等等级设置为
戏中,Radeon HD 6970的领先幅度则有所下降,例如在
(《孤岛危机))和 尘埃2》中,其领先幅度分别为1O%和
8%。这说明AMD的后续驱动还需要进一步对Radeon
HD 6970进行优化。
“DirectX l l+Shader(High)l+Tessellation(norma1)”,表
示显卡运行在最高画质、正常Tessellation等级的DirectX
l1模式下,这更符合当前DirectX l1游戏对Tessellation的
Radeon HD 6970 vs.Radeon HD 6950
相比定位稍低的Radeon HD 6950,Radeon HD
6970无沦是在SPU数量、频率和纹理单元数量上都占据
优势,因此其性能表现更好,平均领先幅度在12%左右。
应用;最低等级的设置是“DirectX 1l+Shader(High)+T
essellation(Disabled)”,表示显卡运行在最高画质、关闭
Tessellation特效的DirectX 11模式下,这是考验显卡在关
闭Tessellation以后在DirectX l1游戏中运行的情况。
Radeon HD 6970/6950的抗锯齿性能是大家关心的话
总的来看,Radeon HD 6970 ̄Radeon HD 6950保持了
较大的优势,两者在实际游戏中的性能差距基本符合两者
的定位。此外从测试来看,Radeon HD 6950的性能已经
和上代单核心旗舰Radeon HD 5870不相上下。
题,我们将根据不同的游戏,开启4倍或者8倍抗锯齿,以验
证Radeon HD 6970/6950的抗锯齿的性能。评判的依据是
考察显卡在开启抗锯齿以后,性能下降了多少。同时,由于
Radeon HD 6900系列在Radeon HD 6800系列的MLAA
Radeol3 HD 6970 vs.GeForce GTX 570
在和同档次GeForce GTX 570的较量中,Radeon
HD 6970继续保持在3DMark基准软件中的优势,在
3DMark ll的测试中领先对手6%。由于Radeon HD
6970对架构进行了优化,大幅度增加了纹理单元的数量,
因此在大量使用精美纹理贴图的游戏中的性能表现不俗,
抗锯齿的基础上新增加了EQAA抗锯齿,因此我们将以
《孤岛惊魂2 为例,来看看Radeon HD 6970在不同抗锯
齿模式下(分别为8AA、8AA+EQAA、8AA+MLAA和
8AA十EQAA+MLAA)的性能表现和画质对比。 例如在《孤岛危机》中,其领先GeForce GTX 570 7%。
在DirectX ll游戏的测试中,除了 异形大战铁血
战士》、《地铁2033 ̄和 潜行者:普里皮亚季》(在4AA
以后,Radeon HD 6970更具优势),Radeon HD 6970
在另外三款DirectX 11游戏中落后GeForce GTX 570
24%左右,例如在《尘埃2 和《战地2:叛逆联队》中,落
后幅度分别为15%和16%。这从一个侧面说明,相比专为
DirectX ll游戏优化设计的GeForce GTX 570,Radeon
CPU:英特尔Core i7 965 Extreme
主板:华硕GENE『】
内存:金邦DDR3 1333 2GB×3
电源:Tt 1000W
系统:Windows 7 64bit旗舰版
Radeo ̄ ¨D 6g70
Radeon HD 6970 vs.Radeon HD 5870
HD 6970在DirectX ll游戏中的优势并不明显,甚至比较
吃亏。总的来看,Radeon HD 6970和GeForce GTX 570
互有胜负,GeForce GTX 570稍占优势。 Radeon HD 6870在架构上的小幅优化,让我们看
MLAA时(8AA+EQAA+MLAA),性能下降幅度是最
Radeon HD 6950
Radeon HD 6950 VS.Radeon HD 5850
大的,达到了52%。而从画质来看,EQAA和MLAA在物
体边缘处的处理的确要清楚一些,但这些不太明显的画质
提升在游戏中是很难发现的。
表2:Radeon HD 6970在《孤岛惊魂2》中开启MLAA和EQAA后
的性能比较
1920×1080 8AA
1920×1080 8AA+EQAA
和上一代定位相同的Radeon HD 5850相比,Radeon
HD 6950亦实现了全面的性能超越,平均领先幅度在20%
以上,例如在《潜行者:普里皮亚季》和((失落的星球2》
中,其分别领先Radeon HD 5850 16%和22%左右。
Radeon HD 6950 VS.GeForce GTX 570/470
1920 X 1080 8AA+EOAA+MLAA
1920×1080 8AA+MLAA
事实上,在2399元价位上,NVIDIA目前缺乏相对应
的产品,未来很可能是GeForce GTX 560。
而此次AMD希望借助Radeon HD 6950/6970实
曲鬣细分性能表现
Radeon HD 6970/6950另一大特点就是对曲面细分
功能进行了升级,一改以往AMD显卡对曲面细分功能支持
不太好的缺点。以Radeon HD 6970运行Unigine Heaven
现错位竞争的策略,来夹击GeForce GTX 570。相比
GeForce GTX 570,Radeon HD 6950没有什么优势,平
均落后幅度在30%以上。而和GeForce GTX 470相比,
Radeon HD 6950除了在《失落的星球2》等少数几个游
戏落后以外,其余游戏都保持领先,幅度在10%左右。
Benchmark为例,其在1920X 1080 Shader(High)、
Tessellation(norma1)模式下可以获得56.5fps的帧率,
相比Radeon HD 5870足足提升了65%,和GeForce GTX
抗锯齿表现
在开启了全屏抗锯齿以后,Radeon HD 6970/6950的
性能损失幅度并不算大,基本和GeForce GTX 570持平,保
持在2O%左右。这说明改进的后端渲染单元提升了Radeon
HD 6970/6950的抗锯齿性能。以Radeon HD 6970和
570相比只低了3%,几乎可以忽略不计。由于“Tessellation
(norma1)”的设置更符合当前DirectX l1游戏对曲面
细分的应用,因此测试结果说明Radeon HD 6970可以
胜任当前DirectX l1游戏的曲面细分应用。此外,在1920
X 1080 Shader(High)、Tessellation(Disabled)设置下,
Radeon HD 6970的性能甚至超出GeForce GTX 570
GeForce GTX 570为例,Radeon HD 6970在《孤岛危机》
和《孤岛惊魂2 中开启了8倍抗锯齿以后,性能分别下降了
12%和27%l GeForce GTX 570 ̄J
;2
为20%和23%。
的弱
稻叫 ∞
12%,Radeon HD 6970的理论DirectX l1游戏性能令人
满意,这也和3DMark l1的测试结果吻合。
而在1 9 2 0 X 1 0 8 0 S h a d e r(H i g h)、
此外,我们还就AMD显卡最新的EQAA和MLAA
抗锯齿进行了
Tessellation(Extreme)模式下,由于曲面细分等级达到最
高,GeForce GTX 570强悍的曲面细分性能被体现出来,
领先Radeon HD 6970 28%。好在Radeon HD 6970此
测试。仅从耗费
显卡资源的角度
出发,M L A A
时也能获得34fps的帧率,能够保证流畅性。
是比较耗费资
源的。Radeon
HD 6970在开
启8AA+MLAA
功耗表现
优秀的功耗表现一直是AMD Radeon HD
5000/6000系列引以为傲的资本,虽然Radeon HD
以后,性能下降
了47%,在开启
6970/6950的晶体管数量有所提升,但功耗表现也还算
令人满意。相比GeForce GTX 570,Radeon HD 6970
8EQAA以后,性
④开启EOAA和MLAA的方法是进八催化剂控制
中心一显卡一3D一全部,你可以在催化剂的界面
中问看到“模式”(默认为“使用应用程序设置”)
和“形态过滤”。如果你要开启MLAA选项,就勾
选“形态过滤”;如果你要 ̄EQAA选项,就将
“模式 设置为“增强应用程序设置”即可。如果
你要同时开启EQAA和MLAA的话,就同时对上
述两项设置进行设置。
的待机系统功耗和满载系统功耗分别低了l5W和l7W,
Radeon HD 6950 ̄U分别低了23W和62W。而在温度测试
能下降了35%;
在开启了8AA以
中,Radeon HD 6970的待机温度和满载温度分别为45 ̄C
和88℃,Radeon HD 6950 ̄为40℃和85℃,满载温度还
是偏高。当然,在满载时散热器处于全速状态,显卡的噪
音还是比较明显的。
后,性能下降了
27%。当我们同
时开启EQAA和
MC评j受n室
我们还利用AMD的PowerTune功能对Radeon HD
70.84fps,游戏性
目 一 … 《
6970进行了测试。当Radeon HD 6970处于默认状态 能较默认状态下降
函 幽 _ _. l:团
时,其待机功耗和满载功耗分别为90W和324W,待机温
了8%。
』… …嗍;, f0n L心 0l 』
度和满载温度分别为45℃和88℃;当我们将显卡功耗调
就PowerTune
翻
至20%时,Radeon HD 6970的待机功耗和满载功耗分
的测试来看,如果
~r J__
触%^榭嘲墨1 冒■下
别为90W和370W,待机温度和满载温度分别为45"C和
你在乎功耗和性
,_一一, = 每
盔圈I
89 ̄C,功耗和温度较默认状态都有所上升。此时在((孤
能的平衡的话,选
=l = 1
岛惊魂2》(运行在1920x 1080 Veryhigh和1920×1080
择默认状态是最
:1i ,|■r
Veryhigh+8AA)模式下进行测试,Radeon HD 6970几
好的;如果你更在
乎没有性能增长。
乎功耗表现的话,
‘ ; j ! i ; I l融a目J
当我们将显卡功耗调至-20%时,Radeon HD 6970的
低至.20%,此时
可以将显卡负载调 U
Ra
v
d
o
eo
rd
nHD
riv竺 oe r
697
e
o/
w
6
o
95
r L
0的功耗进行调节。
Jntto’ s n进 麓一o lIlgs
待机功耗和满载功耗分别为85W和236W,待机温度和满
’ q*-M
载温度分别为3CC和73"(3,较默认状态有了大幅下降,功
系统功耗和温度有明显下降,而8%左右的性能损失也在
耗和温度表现令人满意。不过此时在((孤岛惊魂2》的测
可以接受的范围内。
试下,Radeon HD 6970只能在1920 x 1080 Veryhigh和
1920×1080 Veryhigh+8AA模式下分别获得96.86fps ̄l
:l啊哺S珊_=l啊嘣秘剐__置l町啊aI啊=l哪蹁啊=憎瞄册恤HE-粥 _H棚瞄硎--_矗-怒嘲¨_船鬣 咖
3DMark Vantage Extreme X10572 X9208 X9164 X7350 X7560 X13190 X11207 X10029 X7923
GPU SCORE 【10323 8955 8912 7115 7323 12677 {10757 9618 7586
3DMark 11 Extreme X1778 X1576 X1539 X1269 X1371 X1943 X1660 X1663 X1329
孤岛危机》
1920×1080 Veryhigh 43.55 38.56 39.55 33.05 35 43 46 82 4114 39.2 31 51
1920 x 1080 Veryhigh 4AA 38 17 34.09 33.92 28.44 30.45 40,83 34 75 34.09 26.85
Ⅸ孤岛慷魂2》 { }
1920×1080 Ultrahigh I 104.11 95.55 93.99 }80.95 87.18 120.55 113.25 113.21 I96.16
1920 ̄1080 Ultrahigh 8AA }76
43 69.94 67,16 l 57
31 61.18 1 99.98 86.56 86.37 70.16
.
.
Unigine Heaven Benchmark
192(3 ̄1080Shadef(H吗n1 Tessellal on(E灯eme) 34 30 9 20.5 17.4 23.2 49 9 43 5 42 3 33.7
1920x1080 Shader(HIgi ̄).Tessellation(Norma1) 56.5 51 1 34 28.8 34 2 66 7 58 56 45
1920×1080 Shader( ̄lgnl Tessellation(Disabled1 85.2 75.6 51 3 43 3 46 2 86.8 761 71 7 57.8
《失落的墨球2》B场景
1920×1080 Veryhigh 39l2 35.5 33.4 28.3 32.2 61.2 55 52.6 42.2
1920 x 1080 Veryh Jgh 4AA 32.3 29.3 26.4 22.3 25.7 52.8 46.6 44.5 35.6
《异形大战铁血战±》1920×1200 High 57.5 51.1 52.7 。43.2 42 61.8 53 3 51,6 41.5
《尘埃2
1920×1080 Veryhigh 79 71 6 72 9 63 3 66.6 110_7 97_1 92 2 73l7
1920x1080 Veryhigh 8AA 70.1 63 4 64 4 55 5 60 68 9 75 5 73 577
《潜行者:普翼皮亚季》 {
1920x1080 Ultra 73.58 65.73 69.52 55.4 58 55 86.97 78.53 76 1 62.4
1920×1080 Ultra 4AA 51.53 44.95 38.93 31,85 33 55.13 47.93 47.1 3775
Ⅸ地铁2033))
1920×1080 Ve rymgn 4AF 30 30 25 3 22 22 35 3 30.39 30 28 23
1920×1080 Veryhigh 4AA 4AF 24.31 24 16 8 1.4. 14 29.7 23 48 25 48 19
《战地2=叛逆联队》
1920×1080 Veryhigh 71.9 65.74 67 57.86 62 88.7 79.5 77.3 63
1920×1080 Veryhigh 8AA 55.6 51.7 51.9 43.89 47 78.2 66.75 67.48 52.22
待机系统功耗 90W 82W 80W 80W 78W 105W 105W 115W 99W
满载系统功耗 .324W 278W 313W 275W 269W 313W .340W 430W 346W
Mc评测室]l—i
期待已久的4D架构为Radeon HD 6970/6950增加了
这似乎又为我们重现了之前Radeon 9500Pm刷新为Radeon
9700的故事,也再现了Radeon HD 4830 ̄t1新成Radeon
HD 4850的精彩。这样一来市场ERadeon HD 6950就变得
相当抢手,性价比大增。另据一些业内人士的消息来看,目
前Radeon HD 6950的产量似乎不高,且大量的Cayman核
都被用于制造Radeon HD 6970。再加上Radeon HD 6950
超高的性价比,导致这款显卡变得相当抢手。
未来,AMD还将借助Cayman核心发布双核心产
品Radeon HD 6990,巩固卡皇宝座。而Radeon HD
新的动力,其性能特别是曲面细分性能较AMD上一代产
品有了质的提升,PowerTune的引入更是为未来显卡的节
能设计树立了典范。
但和玩家X, ̄4D架构的期待值不太相符的是,Radeon
HD 6970在面对GeForce GTX 570时并没有表现出令人
折服的性能,甚至在不少游戏中落后。两者的性能只能说
互有胜负,GeForce GTX 570稍占优势。反倒是Radeon
HD 6950,其表现和价格更让人心动,在2399元价位上,
它没有竞争对手。虽然它的性能不及GeForce GTX 570,
但在面对G}eForce GTX 470时仍有不小的优势。再加上
其低功耗的表现,Radeon HD 6950有望成为新一代高端
性价比的代表和典范。
6950也即将面临NVIDIA新产品的有力挑战——代号
为GF114核心的GeForce GTX 560已经蓄势待发。总体
而言,AMD此次发布的Radeon HD 6970/6950让我们
看到了4D架构的威力和潜力。作为敲门砖,Radeon HD
697076950的积极意义非常重大。这让我们对AMD未来
的产品充满了期待。
除此之外,根据一些玩家的破解情况来看,Radeon
HD 6950还拥有摇身一变成为Radeon HD 6970的潜质。
Radeon H D 6970/6950图形技术解读
从4D+I D ̄}U4D:深入理解AMD 4D架构
Radeon HD 6970/6950最为重要的改变就是从传
有理论值的1/5。
AMD工程师很早就在思考解决上述问题的办法,
在R600以及后续的4D+1D计算中,AMD开始允许指令
合并,也就是说几个不同的指令可以合并在一起进入流处
理单元并进行计算。这样可以在部分场景下提升显卡的
性能。比如说,两个2D指令接踵而来,传统计算是先计算
个2D,再计算另外一个2D,这样4D+lD架构的性能只
统的4D+ID架构转变为4D架构,那么这样转变后的好
处在哪里?AMD为什么要作出这样的调整?竞争对手
NVIDIA又采用的是什么架构呢?
4{=)+’ 架构的不足
AMD显卡传统的4D+ID结构可以在每次计算中处理
一
一
有理论性能的40%,但一些新的设计可以允许这两个2D
个像素的所有色彩或者坐标信息,不过考虑到有时候还
个ALU单元,称之为ALU.trans。这个特殊的单元和传
指令合并成一次计算,变成2D+2D,这样就能发挥80%
的性能。与此类似的还有3D+1D、lD+lD+1D十lD+1D、
1D+4D等特殊的复杂计算。
虽然AMD利用了种种手段对4D+lD架构进行了优
化,但改进的4D+lD架构的效率还是不够理想,在很多情
况下部分晶体管都在打瞌睡。AMD的SIMD架构虽然效
率不一定高,但好处是规模扩充相当容易,比如AMD的
需要一些特殊计算,比如sin、COS等,AMD还特别设计了
一
统的用于计算四个ALU组成了AMD的4D+1D架构。
从理论上来看,4D+1D架构的效能是非常出色的。
因为它一次计算就能处理一个像素所有的色彩或者坐标
信息。但现实和理想总是有差距的,像素点并不是总需要
计算位置或者色彩。一些像素实际上只需要改变色彩,坐 4D+1D流处理单元作为一个整体,只需要一个指令发射
端就可以解决问题。Cypress拥有1600个流处理算数单
元,320个指令发射端就可以了a但NVIDIA的MIMD ID
架构,每个ALU都需要发射端等辅助设计,晶体管开销巨
标不变,或者只是运动—下,色彩信息没有变化,亦或者
只是色彩中的某个数据需要计算,其他的不需要。总之,
在实际计算中,并不是所有的信息都需要计算,这就造成
T4D+ID架构中的部分单元的闲置。在最严重的情况下,
4D+ID架构在遇到全部由lD组成的计算需求时,性能只
大。再加上缓存、线程调度器、寄存器等周边设计,1D架
构在芯片体积和规模上都有比较明显的劣势。这也是造成
从本质上来说.显卡计算的目标就是屏幕上显示的像素点。
例如一台24英寸显示器分辨率为1080p(1920×1080).如果你用
这台显示器玩游戏的话 显卡必须保证在一秒钟之内至少有24张
1080p的图像计算出来,然后才能在显示器上看到流畅的画面。
单独将一个像素拆分来看可以发现 其由两个部分构成:
色彩和坐标。色彩方面自然是RGB三原色,再加上一个特殊的透
明度参数 也就是A,最终组成RGBA四个数据的组合。每一个
像素点.都需要这四个参数才能最终确定色彩的信息。我们再
来看看坐标.在显终端上,像素是以二维方式存在的.即只存在
XTlfIY两个坐标。但我们都知道.之所以称之为3D计算.就是因
但这还不够.很多点并非单独的点.它们还需要包含其他
信息.比如3D计算中不同坐标系之间的变换 就需要确定不同
坐标系之间的计算方法。传统的XYZ三维坐标并不包含坐标系
信息,因此还得加上一个数据.这就诞生了XYZW——齐次坐
标。齐次坐标是目前计算机图形学应用的最重要的手段.可以
大大简化几何变换的计算.确定像素位置.还能够对向量和点
进行有效区分
我们现在就可以总结计算机计算中对某一个点的计算方
法了。对点来说.色彩信息有四个:RGBA 坐标信息也有四个:
XYZW。最初的分离式渲染架构(比如Radeon 9700等老显卡,
分为顶点引擎和像素引擎),是分开处理像素渲染和顶点渲染
为显卡在最初对物体建模的时候 是按照30空间的形状来处理
的 我们现在在屏幕上看到的2D画面 只是3D场景的一个投影
而已一只不过这个投影是根据观察者也就是游戏玩家所需要
的视角来不断变换的。这说明屏幕上每一个像素,先需要XYZ三
维坐标才能确定位置。最后通过光栅化的方法将其转换为XY---
的.他们的像素渲染确定的就是利用RGBA数据.顶点坐标变换
的处理是利用XYZW数据。在统一渲染时代后.无论是RGBA还
是XYzW.从 外形上”来看.都需要四次计算才能满足需求.因
此.在AMD传统的StMD架构上.基本的结构是4D.也就是一次
计算可以处理这四个信息。
维场景。二维场景中已经包含了类似 近大远小 的深度信息。
NVlDlA的1 D架构
相比AMD的SlMD架构 NVIDIA采用了MIMD(多指令多数
据流)的设计.这种设计保证了显卡随时处于最高效率运转。
数据在进A.NVIDIA显卡的流处理单元之前.就已经被全部拆
分为10,然后送A.1D流处理单元。比如进来一个3D数据 拆分
为三个1D,计算三次;进来一个2D数据.拆分为2个1D数据.计
利用率的提升已经没有太大帮助了。因此,AMD在新的
Cayman中,将4D+ID改进为4D结构,抛弃了之前的1D。
AMD放弃的1D,是一个体积比较大的、用于一些特
殊计算的AUJ.trans(NVIDIA称之为SFU)。在放弃这个
单元后,AMD重新设计了Cayman剩余的4D,将这四个
4D- ̄;变为对等的四个ALU。不仅如此,这四个ALU通过
“合纵连横”,接管了之前ALU_trans的计算任务,比如一
些特殊计算,可能需要占用3个ALU,但考虑到4D+ID本
算2次:在最差劲的情况下.进来的全部都是4O数据,每个数
据在AMD的显卡中,一次就可以完成 但NVIDIA显卡需要四次
计算。从理论来说,MIMD 1D计算方法的效率虽然接近100'/*
但问题是大量多数据需要多次计算。因此NVIDIA设计了分频
的核心——流处理器频率比核心频率高出一倍左右 再加上
庞大的流处理单元数量,也保证了相当高的性能。
身就不太高的效率,这样的取合从理论上来说是可能提升
晶体管利用率的。根据AMD给出的数据,在改变成4D结
构后,整个单元的每平方毫米. 能可以提升10%。
不过效率的提升代价也相当明显。以定位相同的
Radeon HD 5870为例,其具备1600个流处理算数逻辑
单元(SPU),需要320个指令发射端(Radeon HD 5870是
4D+l D架构,5D×320)。而Radeon HD 6970具备1 536
个流处理算数逻辑单元,SPU数量减少了,但指令发射端
数量却增加到了384个(4D×384)。再加上周边一些辅助
单元,整个晶体管规模就变得更为庞大。现在的Cayman
晶体管数量达到了26.4亿,相比之前的Cypress的21.5亿
提升了约23%,当然功耗也会随之提升。
双头鹰:更强的双图形引擎
对曲面细分技术的支持一直是AMD显卡的弱项,受
(DNVIDIAfl前 ̄DirectX 11显卡均采用ID,t ̄构设计
到不少外界的批评。AMD认为,曲面细分只是DirectX
l1游戏的一个方面,对它的使用并非越高越好。在游戏
中,过重的曲面细分系数并不会带来图形画质的明显提
升,反而会由于过大的计算负荷导致显卡性能大跌。在之
NVIDIA DircetX l】显卡功耗较高的一个主要原因。
放奔4D+tD,转向40
从RV670开始,AMD一直奉行小核心策略,在一定
程度上避开了工艺难度问题。但为了保证不错的性能,对
晶体管效率就必须有很高要求。因此,AMD在研发了很
长一段时间的SIMD架构后,掌握了大量显卡计算中的
前的Cypress中,AMD设计了一个曲面细分单元。这样的
设计只是达到了DirectX ll“拥有”曲面细分的基本需
求。当然,在AMD推出第一代显卡时,DirectX l1游戏尚
未发布,游戏要求也不高,因此AMD这样的设计也符合
当时游戏的需求。在DirectX ll时代正式来临后,AMD
信息和数据,认为继续保持这样的4D+1 D结构对晶体管
就需要重新考虑显卡对DirectX l1的支持特别是对曲面
细分的支持了。
因此在Cayman中,我们看到了AMD
全面加强了DirectX ll设计。首当其冲的就
是最受关注的曲面细分性能。相比上代产品
单曲面细分单元和NVIDIA的大量曲面细
分设计而言,AMD经过衡量。确定了自己
的曲面细分设计方法。AMD针对Cayman
的曲面细分设计并不过于突出,而是有序加
强 AMD将Cayman中负责曲面细分单元
①在4D(左)和4D+lD(右)架构下’一个SPU在一个时钟周期内--T ̄2完成的浮点计算和整数计
算性能的对比。 ・
的图形引擎(Graphics Engine)由之前的
101:Mi  ̄r#o智 。
AMD的EQAA目前有2XEQAA、4XEQAA和8×
EQAA ̄.种模式,其中2×EQAA ̄似2 XMSAA搭配2个
额外的覆盖采样点(2×MSAA本身还包括2个覆盖采样
点),4XEQAA则是4 ̄MSAA搭配4个额外覆盖采样点
(4×MSAA本身还包括4个覆盖采样点);8 XEQAA是
8×MSAA搭配额968个覆盖采样点(8×MSAA本身还
④Cayman(土)、Barts
(中)和Cypress(下)
在曲面细分设计上的差
异,Cayman的曲面细
分性能最强,Barts其
次,Cypress ̄底。
包括8个覆盖采样点)。相比NVIDIA的CSAA,AMD的
EQAA增加了覆盖采样点的数量,比如8×CSAA只有8个
覆盖采样点,和4×EQAA相同,但同级8xEQAA的覆盖
采样点则多达l6个,理论上EQAA的画质会稍微好l—J 。
PowerTune:更智能的电源管理
在节能省电的大潮下,能耗管理、电源管理技术
Cypress的一个提升至2个,随之而来的则是负责曲面细分
的几何单元、顶点单元以及曲面细分器数量也变成双份。
除此之外,光栅器和多级Z缓冲设计也都变成双份。整个
双图形引擎的设计,提高了Cayman在处理三角形时的能
力。现在Cayman ̄够实现多三角形的并行处理,理论上
可以得到相对Cypress高达3倍的曲面细分性能提升。
另外,Cayman在其他方面也有一定改进。比如后端
成为众多高端产品的特殊符号。在显卡方面,AMD的
PowerPlay技术能很好让显卡在2D状态下节约电能,但
AMD还不满足,在Cayman上,又引入了更为节能且能够
让用户手动进行控制的PowerTune技术。
传统的PowerPlay设置了三种功耗状态:3D满载、
3D轻载、2D待机,这三种功耗状态对应着高功耗、中等
功耗和低功耗。在AMD看来,很多应用程序并不需要让
显卡进行3D满载全负荷计算,但由于功耗设置的步进问
题,在性能要求超过中等功耗后,显卡就工作在功耗最高
的满载状态,这对节能来说是不利的。
因此,AMD引入了PowerTune技术,PowerTune
通过在中等功耗和满载功耗两档次之间引入更多的工
单元的能力被进一步加强,能够实现合并操作,在16bit、
32bit计算时的性能上都至少提升了2倍,其中32bit浮点性
能提升了最多4倍。后端单元的性能直接决定了显卡的抗
锯齿性能,Cayman在抗锯齿性能上应该会更为优秀。
在通用计算方面,Cayman最重要的变化就是双精度
性能由之前单精度性能的1/5提升到现在的1/4,当然这种
变化多数都是由架构4D+lD改进到4D带来的。另外一些
作模式,让显卡在一些3D负荷较低的场景中自动降低频
率。以Radeon HD 6950为例,核心频率波动频率范围是
650MHz~78OMHz,在3D应用中显卡频率会自动在此范
在通用计算上的变化包括可以执行Shader合并读操作、
改进了流控制、可以直接从LDS读取数据(之前需要先载
入寄存器)、可以读写本地显存数据等。总之,这些改进提
升了Cayman在通用计算上的表现,特别在一些特殊应用
场合会有更为出色的表现。
围内切换,起到智能节能的作用。
除此之外,PowerTune还能监控显卡的功耗情况,当
显卡功耗超出设定上限后,PowerTune会自动降低显卡频
率,将显卡功耗控制在限定值之内,保证显卡不会由于过
热而烧毁。当然,为了让显卡可玩性更高,满足一些玩家和
功耗敏感用户的需求,AMD在催化剂控制中心中还特别
X'tPower1.une给出了E下限设置,其中上限为+20%,下限
为-20%,默认为0。当用户调整这个数值时,显卡的核 频
率会有波动幅度的变化。
总的来说,Powefrune是一种相当先进的功耗控制方
式,和NVIDIA在GeForce GTX 58O/570上引入的功耗检
测和控制系统类似,但它功能又更为全面一些。PowerTune
EQAA:更新的抗锯齿技术
AMD最近在抗锯齿技术上的创新相当积极,在Barts
系列上AMD推出了全新的MLAA技术。作为初次技术
探索,AMD为我们展示了其在新技术研发上的实力。在
新的Cayman显卡上,AMD又马不停蹄地带来了EQAA
(Enhanced Quality Anti—Aliasing)技术。
从技术本质本身来说,EQAA并非AMD首创,在
NVIDIA的G80上,我们就看到了
技术。这两项技术都来源于MSAA,但通过覆盖采样和色彩
采样分开选择,通过更多的覆盖采样 ,获得更好的画质。
通过对显卡楱 各个部分的监控,在陛能、频率和功耗之间
作出最合适的取合,可以智能调节动态功耗。我们认为,这
种能耗控制的方法必将成为未来显卡的主流设计。酉