2024年7月17日发(作者:速元魁)
维普资讯
【评测报眚 栏目责编:吴挺 栏目信箱:pcdly.editor@gmail.conr w diY・ 0
GeForce 8 800GTS 文/图Coroy
Vista.一个令人浮想联翩的梦幻操作系统 明年一月就会正式来到我们身边 Vista除了华丽的VectorGlass效果 无所不在
的增强型搜索功能 整合的Windows Defender安全软件外.最值得大家关注的就应该是代表着未来游戏发展趋势的DirectX l0。
诚然,微软官方对显卡的要求是支持DirectX 9.但是,目前主流的GeForce7系列和xl000系列都只支持SM3.0。对于Vista
整合的DirectX l0标准来说.在使用DirectX 9显卡的情况下.很多的运算需要通过CPU来模拟.游戏的实际帧数会受到非常明
显的影响.同时很多无法通过CPU模拟的特效也无法打开 所以只能说.在Vista上使用DirectX 9显卡,只是微软对市场的一种
妥协.而不是最完美的解决方案。
So.are you ready for the Vista,
22 No.12.2006 DI ̄
维普资讯
让理性弓|导汹费 让f)f y政变生活
北京时间2006年11月9日 变晨3点整 NVIDIA
发布了第一款完整硬件支持DirectX 10的显卡核心
一一
需要提供被称为“游戏资源”的完整数据 也就是
游戏中涉及到的物体模型,和它们各自的表面数
据 通过GPU的运算将这些游戏资源还原到游戏
设计时的模型 就是GPU的最直接任务。
物体的模型通常用3DSMax等3D软件绘制 他
就像骨架一样,支撑起了游戏中所有物体的外形。
对于电脑来说 不必在意当前绘制的究竟是骡子还
是马,只要把所要表达的信息基本传达了,也就完
G80。至此,之前对于这个显卡系列的所有传
闻,揣测、流言和等待都画上了句号,通向一个完
美3D世界的大门正被缓缓打开。
G80只是人们对新一代显卡的整体称呼,细分
到具体的核心 G80目前有GeForce 8800GTX和
GeForce 8800GTS两个型号。因为G80采用的是统
一
渲染架构(Unified Shader) 所以我们在分析
G80架构的时候,不能说GeForce 8800GTx和
GeForce 8800GTS有多少的”渲染管线“和“顶点
着色器“,而要说GeForce 8800GTX和GeForce
8800GTS各有多少个“Streaming Processor”,也
就是流处理器。GeForce 8800GTX具有128个流处
理器 GeForce 8800GTS则是96个,在显存容量
和频率上,GeFO rCe 8 800GTS也比GeFO rCe
8800GTX要低一些 流处理器是G80系列的创新,
也是G80与之前所有显卡的最主要区别。
要解释流处理器的意义 就不得不从PC的3D
显示流程开始。
GPU对于显示图像的处理,需要考虑的只有
形状和表面的材质,而不是该物体的物理或者化学
特性一一也就是说,GPU只是从外表上去简单的
描述.让人眼在第一时间就能清楚分辨出该物体.
而不再进~步提供详细信息。但对于这样的工作,
GPU也必须通过基本的八个步骤来完成。
任何一款游戏都需要表达游戏中各个物体的外
观 运动与即时变化。所以对于每个游戏来说 就
成了任务
表面数据一般被称为“贴图”,是将物体的”骨
架”还原到真实的必需品 就好比做风筝一样.骨
架上必须搭配完整的贴纸.才能飞起来 贴图的提
供方法也有很多种.在以前GPU功能还不算强大
的时候,通常用一块”样品“反复地粘贴在表面。
在早期的一些3D游戏中 人物的皮肤颜色从头到
脚都是一样的.甚至在衣服和皮肤的接缝处还能看
到明显的锯齿状黑色缝隙.这是因为”样品“的裁
取大小不合适.使得贴图的真实性大打折扣。
到了后期,GPU的运算能力大为提升.所以就
可以在人体不同的部位上使用不同的”样品”.不
同的”样品”可以有不同的颜色和形状。在目前主
流游戏中 贴图甚至可以是一个Sin()曲线的旋
DI ̄No.1 2.2006 23
维普资讯
【评测报眚】 栏目贾编:吴挺 栏目信箱:pcdly.edltor@gmal1.COnr www—P , c0IT/
转面或者是被拉开的一张脸。
这些模型和贴图都是在游戏编写的时候就已经
建立并使用的资源.当游戏运行的时候 程序将这
些数据输送到GPU 由GPU来完成还原工作。
GPU在接受游戏资源时,不会直接将物体的
皮肤贴在骨架上.因为3D游戏是互动的,游戏中
物体的形状,表面和位置时时都会变化.否则玩家
的操作就没有意义,整个3D游戏也就成了3D电
影。为了准确地表达这些变化,必须在贴图之前先
行确定物体的这些变化所相关的参数.这就是三维
变换.是由Vertex Shader来完成。可以说 每一个
画面帧的确定 都必须经过此步.否则无法让玩家
感受到模拟出来的真实感。
目前我们使用的都是平面显示器.虽然GPU
能将物体还原到3D,但最终显示出来的仍然只能
是2D。如果在贴图之后再将3D画面还原到2D并
输出.那被其它物体遮挡住的部分就不需要进行处
理了 不然会浪费GPU极大的运算资源。哪些坐标
点应该被处理.哪些则跳过 这就是坐标转换所做
的工作。
好了.经过以上几个步骤.当前输出帧的架构
就基本完成了.下面才能开始为这些骨架贴上合适
的皮肤。
3D物体的表面情况很复杂 有的圆润 有的粗
糙 如何使用平面的小块将这些特性表达出来,就
只能靠三角形。三角形具有很好的可塑性.连续的
三角形平铺可以组成平面 无数小三角形按照一定
的角度拼接可以组成球面,平面和球面的连接又能
组成更为复杂的褶皱。随着三角形大小和形状的改
变,能够组合成大千世界所有固体和液体的皮肤形
状。
为了还原物体 GPU会将坐标转换后的有效
24 No.1 2.2006 r ̄DIq
显示物体进行三角化.也就是用物体间的关系来确
定如何用三角形来构造皮肤,这个步骤也被称为
SetuP。三角化的速度是GPU一个非常重要的参
数,每一个帧中的物体都必须经过三角化.构造每
个物体皮肤的三角形往往以万计数 整个帧中需要
的三角形很可能就要以亿来计算了。所以三角形生
成能力是以前显卡性能的衡量标准之一。
■-_
、. _■■一
—’。●_
/‘ 1一.,
.
, .
—,
一
平面的三角化
物体被三角化之后.GPU就会根据物体的每
个部分的材质来进行贴图,也就是将游戏资源里的
”表皮“贴到骨架上去。这时候的骨架是由大大小
小不同的三角形拼凑出来的,游戏资源中的”表皮”
事先并不知道三角形的大小和具体形状。三角化只
是将物体表面拆分成三角形.而不是都拆分成等边
三角形.所以在贴图之前要对”表皮 进行处理.
也就是拉伸、缩小和裁剪,使其能和三角形相匹配
然后贴上去。这个过程就是 填充材质 .由Pixel
Shader来完成。在贴图的时候 不但要考虑三角形
的匹配.还得加入光照、阴影等实时的细节.并且
根据驱动的要求去进行二线性过滤、三线性过滤、
各项异性过滤等操作.这样才能提高图像的真实
感。
填充材质后 每一个像素的信息也就被基本确
定 三角形上每一个点的信息也就被确定 这个过
程就是三角形填充。它和Pixel Shader几乎是同时
工作的.处理一部分像素.然后填充 再处理一部
分像素,然后再填充,如此反复.直到将一帧画面
所需要的信息处理完。
填充完毕后.GPU还必须根据物体的透明度
来确定每一个2D像素点最终的颜色.比如说河床
里的鹅卵石.颜色就会比暴露在日光下的淡一些
外形也模糊一些.这就需要做光栅处理。光栅处理
维普资讯
让理性 |导消费 让DlY政变生活
的压力也不轻,因为基本上每帧的每个像素都需要
被处理过去。在同一游戏中,分辨率越大 光栅处
理单元需要计算的像素就越多,所以现代的GPU
都使用多个ROP来进行计算。
ROP将最终的计算结果输出到帧缓冲中 最后
由RAMDAC将数字信号转换为模拟信号,由s—
被风吹动后的坐标、河流水面的波纹、云层的随机
变换都会大大增加三维变换的计算复杂度,这些都
对GPU的Vertex Shader单元的计算能力提出要求。
同样的,材质填充单元在面对现在主流游戏的时
候,模型表面的复杂度迅速提高,尤其是人体脸部
的细节表现部分,脸部的皱纹 毛孔等细节在这些
游戏中越来越成为模拟真实度的重要指标,加上对
细节的过滤技术,要模拟出最真实的物体 Pixel
Video信号线输出到显示器。RAMDAC的速度根
据GPU的计算能力也在不断地提升,目前400MHz
的频率已经不再是显卡的瓶颈。
至此,从游戏代码到显示器的图像输出,GPU
就完成了一帧的工作量,这样就能用2D画面去表
达3D的世界。虽然从单帧来看还不是非常接近,但
在连续的画面下 视觉角度的移动、光照对物体表
面及阴影的影响 远景的逐渐模糊,都能欺骗肉眼
让人感觉看到的是一个3D的画面。
关于GPU的工作原理说了这么多,我们再来
说说GPU中的瓶颈。现代GPU在坐标转换,三角
形重建、光栅处理等运算能力上已经发展得很成
熟 在计算方面已经不存在明显的问题。如果一个
物体被遮挡的话 那么整体模型的复杂程度便提高
了,但遮挡算法可以通过由近及远的优先法则来计
算 在前一次计算中已经被判定被遮挡的物体,在
下一次计算中就直接忽略.这样即使复杂度提高了
N倍,计算量也不会受到明显的影响。三角形上每
个像素点的颜色.随着分辨率的扩大会提高计算
量 但即使从l024×768提高到1600×l200,计
算量也只提高了1 34% 相对于GPU整体频率的提
升,这些需求的提高也可以忽略不计。
三角形重建虽然会因为原始模型的复杂度提升
而对GPU的处理能力提出挑战 但是通常真正需
要大量运算能力的,只是近端的物体 远处的物体
还是可以用尽量少的三角形来重建,所以对GPU
性能的依赖程度也没有大幅度提高。光栅处理的道
理和坐标转换的道理一样,不会挑战GPU的运算
能力。
那么 究竟哪些环节是目前GPU性能的瓶颈
呢7那就是三维变换和材质填充。为了提升模拟的
真实度 不但需要将近景中的物体做的更为细致
而且即便是远景,也要增加物体的数量。越来越多
的游戏喜欢在场景中加入树木、云层、草地、河流
等背景.这些看似普通的物体其实在模型的构建上
非常复杂 每一片树叶和绿草都必须被严格计算。
Shader的压力不言而喻。
Vertex Shader和Pixel Shader的计算能力是流
畅3D大作的瓶颈,但是反过来,3D游戏在编写的
时候并不会考虑如何去优化对Vertex Shader和Pixel
Shader的使用,因为根本无法做到真正的优化。
以目前的主流显卡而言,GeForce7和xl000两
个系列都各有数款不同的显示核心产品.它们的
Vertex Shader和Pixel Shader数量比例都不一样.频
率也不同。例如7300GT.有8个Pixel Shader和4
个Vertex Shader.也就说,如果不考虑显存频率的
因素,每时每刻Pixel Shader和Vertex Shader的计
算量是2:1.那么才能正好使所有渲染管线和顶
点着色器能同时工作,显卡的性能也达到最高的水
平。可是实际上,游戏设计者不可能掌握游戏的即
时工作量 因为随着玩家的不同操作 画面的变化
完全是随机的,这不能由游戏设计者来掌控,只能
由显卡来根据当前需求进行工作的分配
当Pixel Shader计算量加大的时候,Vertex
Shader必然会有部分在闲置 同样当Vertex Shader
计算量加大的时候.Pixel Shader也必然会有部分
在闲置。即便我们假设游戏设计者完成了能保证让
Pixel Shader和Vertex Shader时刻100%保持工作状
态的目标 但是 当这个游戏使用X1600 Pro显卡
i)lq No.1 2.2006 25
维普资讯
【评测报眚1 膏编:吴挺 栏目信箱:pcdly.edltor@gmal1.COnr d,
Shader和
运行的时候.X1600 Pro核心有12条Pixel Shader
序迅速吞噬掉。之前的显卡由于Pixel
ex Shader的数量固定.所以在Pixel Shader或
和5个Vertex Shader.这时就会有2条Pixel Shader
Vert
时刻处于闲置状态。也许有人会说.游戏可以为不 者Vertex Shader中肯定有一种功能单元在同一时间
被全部使用 同时.受到工作压力随机性的影响.
另一种功能单元不能满负荷工作.造成了闲置。而
基于DirectX10标准的G80不一样.G80的所有渲
同的显卡进行优化.NVIDIA显卡的工作压力比例
保持在2:1.ATi显卡的工作压力比例保持在12
:5。OK.那NVIDIA的显卡还有7600、7800,
7900、7950.ATi的显卡还有X 1 300、X 1 800、
染单元都可以自由地选择当前工作在Pixel Shader
模式或者Vertex Shader模式.当前两种功能单元的
xl900 X1950.加上以前的9550、6600 9700、
6800
,
4200……
.
如此多的显示核心令游戏无法对
每款都进行优化.而且这样的优化对于未来的显卡
来说.其有效性是不确定的.没有哪个游戏工作室
会接受用这样的办法去解决显卡的运行效率问题。
所以.要解决瓶颈.只能从显卡自身开始。
我们之前就介绍过NVIDIA和ATi将在下一代
显卡核心中采用US(Unified Shader)架构 不.也
许现在再称为“下一代”已经不符合时代的意义.
因为G80已经实实在在地躺在了我们的评测台上。
US架构,已经真实地来到了我们身边。
Unified Shader架构是超前的 其核心US单元
将Pixel Shader和Vertex Shader单元整合在一起,
经过重新的整合设计后能节省部分线路和电子晶体
管.这样就能在有限的显示核心中容纳更多的US
作为目前G 8 0系列最高端的G e F O r c e
8800GTX
,
渲染单元达到了l28个之多。也就是说.
当渲染任务需要大量Pixel Shader的时候.GPU可
以提供1 28个Pixel Shader;当渲染任务需要大量
Vertex Shader的时候,这些Pixel Shader可以全部
转换成Vertex Shader来完成当前工作。实际上这种
情况极少出现,更多的时候是一部分担当Pixel
Shader.另一部分担当Vertex Shader。
这1 28个渲染单元理论上不会有任何一个闲
置.因为3D游戏的设计就是尽可能地利用GPU资
源.在单位时间内提供最多的画面帧。即便是最简
单的3D场景.例如只是屏幕上一个跳动的球体.也
会占用所有的GPU资源。GPU性能越强 计算出
来的画面帧数越多,用户就感觉到越流畅 GPU性
能越弱,计算出来的画面帧数就越少,当连续的两
个画面帧之间显示时间超过1/24秒的时候,即便该
单位时间里帧数可以达到24帧以上.用户也会感觉
画面的不流畅,也就是我们通常所说的“卡”。所
以3D程序对GPU性能的需求是无止境的,GPU提
供再多的Pixel Shader和Vertex Shader.也会被程
数量是由显卡自己决定.尽可能地让每一个渲染单
元做到满负荷.而不必再去考虑程序优化等问题。
虽然统一渲染的工作模式只有DirectXl0才能
支持.但G80和竞争对手一一也就是明年才推出的
R600不一样。G80超越时代的硬件设计可以使显卡
和驱动不受系统DirectX版本的影响.直接进行统
一
渲染.这必须归功于Gigathread管理体系 在
Gigathread系统中.所有的渲染单元的执行顺序都
是被打乱的.并不存在工作的先后之分.哪个渲染
单元正在闲置,Gigathread就将下一个需要渲染的
数据交给该渲染单元处理,因此.所有的渲染单元
能够闲置的机会很小.GPU也就突破了传统显卡
Pixel Shader和Vertex Shader数量固定的瓶颈,整
体的运算能力也上升了一个明显的台阶。
传统GPU由于Vertex Shader和Pixel Shader的
数量固定.所以在整体的流程中只需要将Vertex
Shader单元设计在Pixel Shader单元之前.只要把
数据从Vertex Shader开始就会按照硬件设计的顺序
被处理,而不用考虑内部的大量循环。但G80不一
样.它的Vertex Shader和Pixel Shader是并行的,
必须通过专门的硬件去协调每个数据块的流向。如
果我们用US【1~1 28.PS/VS】来模拟渲染单元 那
么这个协调器就是负担决定由US【97,VS]处理后
的数据是交给US[35.PS]还是USf46,PS1来处理
的工作 G80一共l28个渲染单元,其问关系的复
杂度是传统显卡不能相比的,需要很好地协调才能
正常并高效率的工作。G80中,这样的协调器被称
为Thread Control Unit。
当游戏的数据传送到G80之后,Thread Con・
trol Unit会首先将当前的数据拆分为超过l000个平
行的线程,并根据当前渲染单元的空闲情况安排尽
可能多的渲染单元担当Vertex Shader的工作,当这
些渲染单元完成任务后.Thread Control Unit将其
又标记为空闲,然后再将后面的数据随机交给这些
维普资讯
谴理性弓f导潸费 浊})f Y牧童争活
完成工作的渲染单元处理。而处理完的数据在经过
三角化之后,又会被Thread Control Unit安排进入
GPU内部近乎两纳秒的时钟周期而言,会在一个
线程上让一个渲染单元浪费十几个时钟周期用来等
当前空闲的渲染单元进行贴图步骤。
Thread Control Unit会保存每个渲染单元的当
前空闲或工作模式属性,并追踪每个数据线程的位
置.然后在不断的内部循环中将经过半加工的数据
交给渲染单元继续处理 处理完毕的数据交给后面
的处理模块 完成最终输出工作。所以无论是对
NVIDIA还是ATi显卡进行过有限优化的游戏 在
G80上画面帧数都有明显地提高。
另外 虽然最高端的GeForce 8800GTX采用
了频率为1 800MHz的显存颗粒,但如果渲染单元
在执行当前任务的时候需要从显存读取部分数据
时 那就需要通过显存控制器去访问显存。虽然显
存的频率很高 但从提出申请到显存返回数据,其
间需要十几纳秒甚至几十纳秒的时间,这对于
待。所以Thread Control Unit的另一个重要任务之
一
,
就是监控这种显存的读取行为,一旦发现,就
将该线程移出渲染单元并给予该渲染单元另外的任
务,等数据从显存中返回后.该线程才被随机送入
当前空闲的渲染单元继续处理。与传统GPU流程
相比,这样的设计可以使得等待显存数据不再成为
影响工作流程的主要因素,而传统GPU因为Vertex
Shader和Pixel Shader的固定流水线设计而必须停
下当前的工作来进行等待。
同样的.通过Thread Control Unit打乱渲染单
元的办法对于SIMD指令流的执行效率来说,也是
非常有意义的。传统GPU中,位于同~个Quad内
的4条Pixel Shader着色管线都共享同一套指令分配
体系,并处于同一个控制电路的控制之下。所以,
在执行动态分支的时候,这个Quad内的4条Pixel
Shader着色管线在每个时钟周期只有运行同一类型
指令,才能让所有ALU都保持工作。如果遇到不同
的指令组合,那么因为指令发射器和控制单元共享
的问题 实际无法在单周期完成,必须等待指令组
合中耗时最长的指令完成后,才能真正释放该
Quad 因为新的指令组合无法在Quad工作的时候
进入。G80能够将所有的数据分拆成最小化的4 X
4像素单元,并且维持一个极大数量的线程群,这
样就能避免在同一个像素单元中同时执行两条不同
耗时的指令,提高每一个渲染单元的效率。
我们之前也对G80在DirectX9下的工作模式
感到疑惑 但因为它是内部控制统一渲染的循环。
所以可以无视操作系统本身提供的是DirectX9 API
还是DirectX10 API 甚至没有优化过的程序也能
运行得非常流畅。
NVIDIA之前的GPU 因为受到FP16和FP32
数据格式的影响 一直都不能同时开启HDR效果
维普资讯
【评渊报青】 i栏目责编:吴挺 栏目信箱:pcdly.edltor@gmal1.conr w Pc iy— o
在物理运算方面,G80也提供了强劲的解决方
案。因为G80单卡就拥有128个渲染单元.传统显
卡的SLI或者CrossFire.都是将物理计算扔给了
CPU.可是目前最高端的CPU在浮点计算能力上还
不如一块普通的X1600,而CPU还必须负担3D程
序的流控制、人工智能AI的模拟及一些其它的系统
和MSAA功能.而其对手ATi在X1000系列中通
过建立一个带MSAA功能的FP16 render target和
FP1 6 render target texture.用stretchrect把带AA
的render target复制到target texture中,就实现了
HDR+MSAA的功能。所以NVIDIA在画面的特效
质量方面,一直不如ATi的产品。
G 8 0为了改善画面的特效质量.遵照
资源管理,这就造成了即便CPU性能再强,也无法
有效提升SLI性能的怪圈 在Thread Control Unit的 DirectX10的FP32标准.并提供了FP Tex filter—
ing Unit(浮点纹理过滤单元)对FP32格式的HDR
提供从运算 存储 过滤到混合的原生硬件支持。
通过Orthogonalized Frame Buffer(正交帧缓存).
G80只是增加了渲染单元在处理细节时的一些延
迟,任何对于Frame Buffer的操作都是独立的.而
不会影响其它操作的进行,这样就在对较小影响性
能的前提下实现了HDR+MSAA功能。
在渲染的过程中,有些像素是可以完全被忽略
掉的.比如说一大片相同的蓝色天空,就没有必要
对所有的像素进行完整的渲染。所以在每次渲染
前.G80都通过Early—Z技术判断当前渲染的必需
性.如果被判断为无用像素,就将前一步的结果直
接输出到显存.而不必再浪费GPU的渲染管线资
源。相对于GeForce7系列。在这个模块上 G80的
速度能够提升3倍。
28 No.1 2.2006 r ̄Dl ̄
管理下,G80的性能已经超越了目前所有的其它显
卡产品 所以在NVIDIA的设计中,G80 SLI的工作
模式将打破现在SLI的概念,不再是将渲染工作平均
分给两个GPU处理,而是一个GPU进行传统的渲染
工作 另一个GPU专注于物理计算。G80 SLI的物
理计算模式就可以打破这种现象 让CPU从物理浮
点计算的束缚中摆脱出来,将图形计算的工作交还
给GPU.从而有效提升系统运行3D的能力。
Shader Model 4.0是DirectX10的重要设计之
一
,
从各种宣传资料来看,DirectX 1 0号称能够使
游戏的运行速度提升10倍.那么.这是如何实现的
呢7在sM4.0中 引入了名为Geometry Shader(几
何着色器)的新图形功能层.每个从Vertex Shader
出来的线程都会先通过几何着色器.然后再交给
Pixel Shader。在这个几何着色器中,相关联的线程
数据被重新整合在一起,模型中类似的顶点被结合
起来进行运算.而不用判断数据在3D图像中的位
置。当确定了模型的物理形状后,可以对该物体整
体使用函数进行处理.然后再将结果重新划分成线
程交给下一个处理单元。这样就可以不用像传统
GPU那样必须由CPU去判断物体细节的处理,烟
雾飘动 爆炸效果等场景就可以完全交给GPU.从
维普资讯
谴理性弓|导消爨 谴DI Y改变生活
而提高整体的速度。
在长达26.8CM的PCB上,十二颗显存颗粒
三面环绕巨大的显示核心,而且在巨大盖片下, 因为G80提供了对IEEE FP32的支持,所以理
论上现在逐渐流行的G PG P U程序也能使用
NVIDIA的显卡来进行通用运算。由于G80的多线
我们可以推测整合了7亿个晶体管的G80核心面
积是G7 1核心的4倍以上。因为考虑到80nm工
艺并不成熟,所以G80核心还是采用了90nm工
艺,核心面积无法做的很小,所以将RAMDAC
程能力超过1000条 1 28个统一渲染单元架构能够
随时提供Pixel Shader或者Vertex Shader功能,通
过Thread Control Unit能够将这些渲染单元高效率
地运作起来,加上384位显存控制器,可以说,在
模块分离出来,以独立芯片的模式安置在PC B
上。不过从另一个角度考虑,目前的显示器对显
GPGPU方面,G 80的前途无可限量,将来通过
DirectX1 0进行NVIDIA和ATi的GPGPU指令统
一
,
那G80就应该是当之无愧的王者。
以上描述了诸多G80的新特性,下面我们就看
一
下G80的真实面目。首先是GeForce 8800GTX。
卡的RAMDAC性能需求并没有大幅度的提升
RAMDAC模块完全可以以远低于GPU的频率
工作而不影响画质 所以将RAMDAC独立,利
于成本和降低发热量。同时,在供电电路部分,
G80首次使用了两个6Pin头供电,其实我们想想
G80的7亿个晶体管就知道原因了 PCB提供了
两个MIO接口,根据NVIDIA的解释,在组建
GeForce 8800GTX SLI系统的时候只需要连接一
对MIo接口就可以了,另外 个MIO接口的用
意却没有表明。联想到和G 80同时发布的就是
NVIDIA 680i芯片组,它提供了两条PCI Ex—
pres S 16X插槽和一条PCI Expre s 8X插槽,可
以组建SLI+PPU平台,或许,额外的MIO就是
用来连接PPU或担当PPU任务的NVIDIA显卡
所用。
接着是GeForce 880(1GTX
DIV No.12.2006 29
维普资讯
【评测报眚】 栏目责缩:吴挺 栏目信箱:pcdiy.editor@gmail.COnr 黼
而GeForce 8800GTS的MIO接口和6Pin电源
口只有一个,不过在供电电路部分比GeFO rC e
8800GTX更为庞大的电容阵容似乎说明GeForce
8800GTS 供电需求也不小。和8800GTX相比.
PCB板的长度缩短到了24CM,但还是远高于
GeForce 7950GT的l9.9CM的长度。在照片上我
们可以看到GeForce 8800GTS只使用了l0颗显存,
留下2个显存空焊位。并不是说因为8800GTS少了
32个渲染单元而减少了显存的位宽,而应该是出于
成本考虑的因素,这点我们下面会分析。
B-n0 8∞O1丽噶
{ ^1
{
。
|II潮錾自瞒 翱由科西毒 90 nfrI 抑nm
哺硼峨啊r 锄.-I or譬 6BlM 柏1M
《 螨a 薯l 翱柙嚷
I岫il睢 幅 5巧 5邮MHz
|II雌l蕾自 -弛 曩 , “
㈡ --。 ¨川
13S0M} 1200MHz
霸呻悄蛾糊fj蟠 .垮瓣盏 缸v
.
商蚋 ‘-' 1Z8 96
露 00_ l刮18∞ 800/1600
:
.-
‰ ・
.
啼硎姆 0 -珊日牯 j 8啦
一 p 0 ‰ ㈠
嘲噍 lli-‘ I . 澎 85一GB,§ GB,s
l嵋瞩粕 婚 。
■^。。I-,i0 i・ 24 20
q释|r萄I酶 ” 768 B S12M日
翔 自 fl薯| 啦{伪qh唯 .8 24G 5
嘲1I翻 曩_I 确0≯
叭 越 咖№ 4OOMHz
抽 i l lb【D% 阳E)叩
GS0核心对比
G 8 0的显存控制器比较特殊,G e F O r C e
8800GTX是384位 而GeForce 8800GTS是320
位.并不是说GeForce 8800GTS的内存控制器是经
过修改的版本.而是在8800GTS专用PCB中没有
使用。为了让Unified Shader Architecture统一着
色结构具有很高的效率.G80必须提供巨大的显存
带宽,因为G80核心可以任意地将数据传输给6个
ROP分区或者6个L2缓存。这6个ROP分区或者
6个L2缓存再通过一个64bit的显存控制器存取显
存,实际上G80相当于具备了~个六通道64bit显
存控制器,比起一个单通道384bit显存控制器在具
有同样带宽的同时还能保持更高的灵活性和效率,
所有的显存带宽都能得到高效的利用。而GeForce
8800GTS的市场定位是注重性价比的中端市场,所
以只启用了6个64位内存控制器中的5个,也就是
320位带宽和1 0颗显存颗粒的由来。在实际操作
中 这6个64位内存控制器是以一个5l 2位控制器
和一个128位控制器的模式工作的。
为了充分体现G80核心的性能 我们开始考虑
的是使用四核心Conroe.但考虑到目前主流的游戏
并没有对多核心处理器优化.同时3DMark06也只
支持双核心处理器.即使采用四核心处理器.对测
试的结果也不会有特别明显的帮助 所以我们使用
的是双核的CO re DUe 2 6700,并且超频到了
340MHz外频,也就是CPU工作在3.4GHz。
内存方面,由于受到处理器FSB的限制,即便是
DDR2—800内存组建双通道 其所能提供的1.6Gtlz内
存带宽对于处理器超频后的1.36GHz前端总线也没
有多少意义 加上如果工作在异步模式.对整体的性
能也会有影响,所以我们采取了工作在DDR2—533的
工作模式 并且和CPU外频同步.也就是最终工作
在68lMHz。和DDR2—800模式相比,68IMHz不但
能提供和CPU前端总线匹配的内存带宽.我们还能
降低内存颗粒的延迟来获得更好的性能。
显示器方面,NVIDIA建议使用2560×2048
的大屏幕模式.但我们手上的大屏幕显示器只有一
台Dell PIl 30 默认能够达到1 800×l440的分辨
率.但这台显示器的341 MHz带宽完全可以支持
2048×1536分辨率,我们取消了显示器属性中的
隐藏该显示器无法显示的模式 ,在2048×1536
分辨率下,显示器也能正常工作。不过在3DMark
系列测试软件中,我们只能最大打开到驱动默认的
1800×1440分辨率,我们通过对显示器驱动的修
改 将最大分辨率强制设定为2048×1536 在重
新安装显示器驱动后.3DMark系列就可以打开
2048 x l536的测试模式。
由于G80核心的高功耗 使其在组建了SLI系
统之后更是吞噬电力的大户.NVIDIA为了保证
维普资讯
让踺烊弓|导渭落 让Dl Y政变生活
G80 SLI平台的稳定运行.必须在12V输出上达到
30A.因为一共有4个显卡6Pin头需要连接。因此
在3DMa rk03中 测试程序默认的分辨率是
l024×768 而且测试只涉及到SM2 0 G80在这
个级别的3D运算上可谓是得心应手 得分和我们
之前所做的NVtDIA Quad SLI和ATi CrossFire的
电源的必须能提供足够的6Pin头或D型头.否则系
统中的驱动程序会弹出电源不足的警告并不能打开
显卡的SLI功能。同时也给出了G80单卡平台电源 最终成绩相当。
的标准,必须迭到450W。但在我们开始测试的时
候 我们使用的是航嘉LW-8388S.其额定功率为
300W
.
最大输出360W。在CPU没有超频的时候
G80能够通过所有的测试.但是将CPU超频到3.
4GHz之后 无论是游戏测试还是3DMark测试 都
会随机自动跳出。这说明.300W电源只能勉强维
持G80平台的工作 想获得更好的性能 必须大幅
度提升电源的档次。目前.不少电源厂商都已经推
出了符合G80 S LI平台电源要求的产品 比如
Seasonic.700HM等等。
测试平台
CPU CoreDue 2 6700oc 3 4GHz f34(1ד}1
主板 七彩虹C 975X-MVP
内存 Kingmax DDR2—800 lOB x 2 l降频至DDR2-533并与CPU同步1
电源 航矗极能8688 I528W)
显示器 Del lPI I30(最高分辨率2048 I536)
在3DMark05中 默认的分辨率也是l024×
768 同样只是基于SM2.0.只是提高了场景的复
杂度 增加了对DirectX 9.0b AP]的支持。从测试
的成绩上来说也非常令人满意 GeForce 8800GTX
的成绩依然保持着单卡成绩的第一。
在3DMark06中 SM的规格从2.0提升到3 0
提供了对HDR的支持,并且将CPU的成绩强行加
入总分.默认分辨率从l048×768提高到1280×
l024以适应新的主流市场。我们从测试的成绩中
看到,G80的成绩依然是单卡成绩第一 根据我们
第l0期的相关评测文章,GeForce 8800GTX和
GeForce 8800GTS的成绩都已经超过了作为前一代
产品旗舰产品GeForce 7950Gx2。
维普资讯
【评测报告】 栏目责缩:‘吴挺 栏目信箱:pcdly.editor@gmail.conr w 。Pcdiy 0卅
Quake4也是基于DOOM3引擎.高分辨率拉
8FSAA测试中,l280×l024和l600×l200两个
分辨率下.两个核心拉开的性能差距应该比较正
大差距的现象显得更为明显,似乎更进一步证明了
我们对DOOM3测试成绩的理论分析。看来想要彻
底的驾驭G80.将Core Dua 2 6700超频到了3.
4GHz也没能填满G80巨大的运算量胃口.目前也
常.而在2048×l536分辨率下.两者的得分十分
接近.只有3分的差距。我们只能解释为在8FSAA
的高强度压力下,CPU此时已经彻底成为了系统的
瓶颈,无法为GPU提供更为强力的配合。
许只有最疯狂的超频爱好者.才有可能充分挖掘出
G80的真实成绩。
DOOM3基于OpenGL标准,但其引擎调用
FarCry在打了1.3补丁之后.能够支持SM3.0.
在这个DirectX 9.0c游戏中.还是高分辨率的得分
差距比较明显。此时的CPU已经彻底成为了系统整
DirectX的硬件相关特性去处理光源、法线贴图等
步骤.所以显卡性能的提升.在一定程度上也能加
速画面的帧率,使其更为流畅。但由于DOOM3最
大只能提供1600×l200的测试模式,我们只能尽
量提升画面的特效细节来测试。在测试中,传统的
1024 ×768模式下的成绩达到了令人疯狂的278.7
帧.可见G80核心在Z-Fill方面强大的运算能力。
DOOM3中.高分辨率比低分辨率拉开的得分差距
更为明显.是不是可以解释为在计算压力比较低的
时候.两块显卡中渲染单元有时会处于空闲状态.
而CPU在满负荷工作:而在计算压力提升后.GPU
才开始全力工作.由于渲染单元数量和显存容量,
体的瓶颈。当然.这已经是在开启了HDR特效之
后的测试成绩.如果不开启HDR.G 80核心中
Thread Control Unit所需要处理的循环细节会大为
减少.此时G80的实际运算能力还能提升一个档
次。那CPU就将成为整体系统的最直接瓶颈.G80
只能在一旁呐喊:“我饿!”
G80是目前唯一的DirectX10显卡.通过SM4.
0能够将C地说.利用GPU强大的浮点运算能力.
通过GPGPU让显卡去分担一部分CPU的浮点运算
工作.并不是没有可能。届时.CPU可能只专注于
速度的不同.才明显拉开了显卡的性能差距7 擅长的整数计算,而浮点计算则全部交给GPU来
32 No.1 2.2006『i DII_l
维普资讯
谴理性 |导消费t| 1){Y政变//. 活
完成.AMD目前将GPU整合进CPU的计划就是
将GPU作为CPU的浮点协处理器的最直接应用。
但是.G80的设计过于超前.因为现在DirectX还
空有Athlon64处理器却没有64位操作系统相配合
的苦涩.也只有NVIDIA体会最深刻。竞争对手ATi
的R600要到明年才能发布,现在的G80.就好比
没有真正普及。微软宣布DirectX10只能在Vista上
使用 Windows XP将无法享受到SM4.0带来的速
度快感。可现在Vista只是完成了RTM版本.还有
很多漏洞需要去修补 硬件驱动所能表现出来的性
能还没有达到极致.3D能力也没能充分挖掘。更重
是在一个没有裁判、没有规格、没有对手的赛场上
奔跑.但却找不到停止的终点。
G80本身也还有很长的一段路要走,比如说功
耗、生产成本和PCB板长度等问题。G80的功耗达
到了GeForce 7900GTX的两倍.也是GeForce
要的是.基于DirectX的游戏到目前为止屈指也数
不出来一 号称第一款基于D i re ctX l 0的大作
((Hellgate:London{地狱之门:伦敦)》或许能赶
上今年的圣诞节.((Crysi S(孤岛危机)》的发布日
期还遥遥无期.微软的《模拟飞行X》我们相信肯
定不会抢在Vista之前正式发布,((Eve Online))虽
然宣称支持DirectX10.但个已经上市近一年的
游戏能完美支持还在不断修正的DirectX10吗7
同样的 在测试软件方面,即使现在的主流3D
游戏都提供了测试游戏画面帧数的功能,但其引擎
至多也是基于DIrectX9.0C的sM3.0.而不是
DirectX10的SM4.0.这些游戏的测试得分.只能
说是DirectX10架构显卡在DirectX9平台上的怪异
结果.就好比让原始人类来评价现代的科学技术一
样,没有多少意义。测试软件的道理也是如此,就
像我们在测试GeForce7系列显卡的时候,最看重
的.是3DMark06的测试成绩,3DMa rk05和
3DMark03的得分只能说是作为“参考“,毕竟用
s M 3.0架构去运行s M 2.0的程序并不公平。
NVIDIA的处境和昔日的AMD有几分相似;AMD
7950GX2的1.5倍。NVIDIA不允许显卡的最终销
售商{此次的G80显卡都是NVIDIA自己生产后交
给各显卡厂商)自己提升显卡的频率 也许是出于
显卡默认频率下功耗就已经超高的因素。虽然目前
NVIDIA能够使用80纳米生产工艺.但仅仅只能实
现小面积的晶体管集成.例如G7l核心。如果晶体
管数量达到7亿个的G80也使用8O纳米工艺.对于
生产线来说.7亿个晶体管就是7亿个可能出现问
题的雷区.即便晶体管的缺陷率控制在目前G7l核
心允许的范围内.产品出现问题的概率也会提升3
倍.成品率将比现在的水平低不止一个档次。同样
的.为了维持G80核心的功耗,PCB板不得不增加
到26.8CM.直接导致的问题就是G80无法安装进
绝大部分的机箱.因为不但和传统机箱的硬盘位有
冲突.甚至还会挡住部分主板的SATA硬盘接13。
这些问题的解决.最终都得依靠8O纳米或者65纳
米工艺来改进.在以往新一代显卡的生产工艺升级
惯例看来.我们很可能要到2007年下半年才能看
到全新工艺生产的G80核心一一也许到时候会被称
为是G81。
本文中的测试成绩.也只能说是用来衡量新一
代显卡在老游戏上的性能表现.而并非它们的真实
成绩.如果想知道G80的潜力到底有多大,我们只
能等待Vista的正式发行和大量DirectXl0游戏及
测试软件的发布。那时,游戏将通过DirectX10架
构充分挖掘新一代显卡的运算能力,将游戏中物体
的模型构造得更为逼真,贴图做的更为细腻。虽然
这些游戏在复杂度上的提升会使得G80运行的最终
画面不比现在的DirectX9平台画面快很多,但更华
丽的场景 更逼真的3D世界效果和更接近实际的
物理效果,都会让我们在回忆起今天3D画面的时
候.轻轻说一句: 不过如此。
感DIv No.1 2.2006 33
2024年7月17日发(作者:速元魁)
维普资讯
【评测报眚 栏目责编:吴挺 栏目信箱:pcdly.editor@gmail.conr w diY・ 0
GeForce 8 800GTS 文/图Coroy
Vista.一个令人浮想联翩的梦幻操作系统 明年一月就会正式来到我们身边 Vista除了华丽的VectorGlass效果 无所不在
的增强型搜索功能 整合的Windows Defender安全软件外.最值得大家关注的就应该是代表着未来游戏发展趋势的DirectX l0。
诚然,微软官方对显卡的要求是支持DirectX 9.但是,目前主流的GeForce7系列和xl000系列都只支持SM3.0。对于Vista
整合的DirectX l0标准来说.在使用DirectX 9显卡的情况下.很多的运算需要通过CPU来模拟.游戏的实际帧数会受到非常明
显的影响.同时很多无法通过CPU模拟的特效也无法打开 所以只能说.在Vista上使用DirectX 9显卡,只是微软对市场的一种
妥协.而不是最完美的解决方案。
So.are you ready for the Vista,
22 No.12.2006 DI ̄
维普资讯
让理性弓|导汹费 让f)f y政变生活
北京时间2006年11月9日 变晨3点整 NVIDIA
发布了第一款完整硬件支持DirectX 10的显卡核心
一一
需要提供被称为“游戏资源”的完整数据 也就是
游戏中涉及到的物体模型,和它们各自的表面数
据 通过GPU的运算将这些游戏资源还原到游戏
设计时的模型 就是GPU的最直接任务。
物体的模型通常用3DSMax等3D软件绘制 他
就像骨架一样,支撑起了游戏中所有物体的外形。
对于电脑来说 不必在意当前绘制的究竟是骡子还
是马,只要把所要表达的信息基本传达了,也就完
G80。至此,之前对于这个显卡系列的所有传
闻,揣测、流言和等待都画上了句号,通向一个完
美3D世界的大门正被缓缓打开。
G80只是人们对新一代显卡的整体称呼,细分
到具体的核心 G80目前有GeForce 8800GTX和
GeForce 8800GTS两个型号。因为G80采用的是统
一
渲染架构(Unified Shader) 所以我们在分析
G80架构的时候,不能说GeForce 8800GTx和
GeForce 8800GTS有多少的”渲染管线“和“顶点
着色器“,而要说GeForce 8800GTX和GeForce
8800GTS各有多少个“Streaming Processor”,也
就是流处理器。GeForce 8800GTX具有128个流处
理器 GeForce 8800GTS则是96个,在显存容量
和频率上,GeFO rCe 8 800GTS也比GeFO rCe
8800GTX要低一些 流处理器是G80系列的创新,
也是G80与之前所有显卡的最主要区别。
要解释流处理器的意义 就不得不从PC的3D
显示流程开始。
GPU对于显示图像的处理,需要考虑的只有
形状和表面的材质,而不是该物体的物理或者化学
特性一一也就是说,GPU只是从外表上去简单的
描述.让人眼在第一时间就能清楚分辨出该物体.
而不再进~步提供详细信息。但对于这样的工作,
GPU也必须通过基本的八个步骤来完成。
任何一款游戏都需要表达游戏中各个物体的外
观 运动与即时变化。所以对于每个游戏来说 就
成了任务
表面数据一般被称为“贴图”,是将物体的”骨
架”还原到真实的必需品 就好比做风筝一样.骨
架上必须搭配完整的贴纸.才能飞起来 贴图的提
供方法也有很多种.在以前GPU功能还不算强大
的时候,通常用一块”样品“反复地粘贴在表面。
在早期的一些3D游戏中 人物的皮肤颜色从头到
脚都是一样的.甚至在衣服和皮肤的接缝处还能看
到明显的锯齿状黑色缝隙.这是因为”样品“的裁
取大小不合适.使得贴图的真实性大打折扣。
到了后期,GPU的运算能力大为提升.所以就
可以在人体不同的部位上使用不同的”样品”.不
同的”样品”可以有不同的颜色和形状。在目前主
流游戏中 贴图甚至可以是一个Sin()曲线的旋
DI ̄No.1 2.2006 23
维普资讯
【评测报眚】 栏目贾编:吴挺 栏目信箱:pcdly.edltor@gmal1.COnr www—P , c0IT/
转面或者是被拉开的一张脸。
这些模型和贴图都是在游戏编写的时候就已经
建立并使用的资源.当游戏运行的时候 程序将这
些数据输送到GPU 由GPU来完成还原工作。
GPU在接受游戏资源时,不会直接将物体的
皮肤贴在骨架上.因为3D游戏是互动的,游戏中
物体的形状,表面和位置时时都会变化.否则玩家
的操作就没有意义,整个3D游戏也就成了3D电
影。为了准确地表达这些变化,必须在贴图之前先
行确定物体的这些变化所相关的参数.这就是三维
变换.是由Vertex Shader来完成。可以说 每一个
画面帧的确定 都必须经过此步.否则无法让玩家
感受到模拟出来的真实感。
目前我们使用的都是平面显示器.虽然GPU
能将物体还原到3D,但最终显示出来的仍然只能
是2D。如果在贴图之后再将3D画面还原到2D并
输出.那被其它物体遮挡住的部分就不需要进行处
理了 不然会浪费GPU极大的运算资源。哪些坐标
点应该被处理.哪些则跳过 这就是坐标转换所做
的工作。
好了.经过以上几个步骤.当前输出帧的架构
就基本完成了.下面才能开始为这些骨架贴上合适
的皮肤。
3D物体的表面情况很复杂 有的圆润 有的粗
糙 如何使用平面的小块将这些特性表达出来,就
只能靠三角形。三角形具有很好的可塑性.连续的
三角形平铺可以组成平面 无数小三角形按照一定
的角度拼接可以组成球面,平面和球面的连接又能
组成更为复杂的褶皱。随着三角形大小和形状的改
变,能够组合成大千世界所有固体和液体的皮肤形
状。
为了还原物体 GPU会将坐标转换后的有效
24 No.1 2.2006 r ̄DIq
显示物体进行三角化.也就是用物体间的关系来确
定如何用三角形来构造皮肤,这个步骤也被称为
SetuP。三角化的速度是GPU一个非常重要的参
数,每一个帧中的物体都必须经过三角化.构造每
个物体皮肤的三角形往往以万计数 整个帧中需要
的三角形很可能就要以亿来计算了。所以三角形生
成能力是以前显卡性能的衡量标准之一。
■-_
、. _■■一
—’。●_
/‘ 1一.,
.
, .
—,
一
平面的三角化
物体被三角化之后.GPU就会根据物体的每
个部分的材质来进行贴图,也就是将游戏资源里的
”表皮“贴到骨架上去。这时候的骨架是由大大小
小不同的三角形拼凑出来的,游戏资源中的”表皮”
事先并不知道三角形的大小和具体形状。三角化只
是将物体表面拆分成三角形.而不是都拆分成等边
三角形.所以在贴图之前要对”表皮 进行处理.
也就是拉伸、缩小和裁剪,使其能和三角形相匹配
然后贴上去。这个过程就是 填充材质 .由Pixel
Shader来完成。在贴图的时候 不但要考虑三角形
的匹配.还得加入光照、阴影等实时的细节.并且
根据驱动的要求去进行二线性过滤、三线性过滤、
各项异性过滤等操作.这样才能提高图像的真实
感。
填充材质后 每一个像素的信息也就被基本确
定 三角形上每一个点的信息也就被确定 这个过
程就是三角形填充。它和Pixel Shader几乎是同时
工作的.处理一部分像素.然后填充 再处理一部
分像素,然后再填充,如此反复.直到将一帧画面
所需要的信息处理完。
填充完毕后.GPU还必须根据物体的透明度
来确定每一个2D像素点最终的颜色.比如说河床
里的鹅卵石.颜色就会比暴露在日光下的淡一些
外形也模糊一些.这就需要做光栅处理。光栅处理
维普资讯
让理性 |导消费 让DlY政变生活
的压力也不轻,因为基本上每帧的每个像素都需要
被处理过去。在同一游戏中,分辨率越大 光栅处
理单元需要计算的像素就越多,所以现代的GPU
都使用多个ROP来进行计算。
ROP将最终的计算结果输出到帧缓冲中 最后
由RAMDAC将数字信号转换为模拟信号,由s—
被风吹动后的坐标、河流水面的波纹、云层的随机
变换都会大大增加三维变换的计算复杂度,这些都
对GPU的Vertex Shader单元的计算能力提出要求。
同样的,材质填充单元在面对现在主流游戏的时
候,模型表面的复杂度迅速提高,尤其是人体脸部
的细节表现部分,脸部的皱纹 毛孔等细节在这些
游戏中越来越成为模拟真实度的重要指标,加上对
细节的过滤技术,要模拟出最真实的物体 Pixel
Video信号线输出到显示器。RAMDAC的速度根
据GPU的计算能力也在不断地提升,目前400MHz
的频率已经不再是显卡的瓶颈。
至此,从游戏代码到显示器的图像输出,GPU
就完成了一帧的工作量,这样就能用2D画面去表
达3D的世界。虽然从单帧来看还不是非常接近,但
在连续的画面下 视觉角度的移动、光照对物体表
面及阴影的影响 远景的逐渐模糊,都能欺骗肉眼
让人感觉看到的是一个3D的画面。
关于GPU的工作原理说了这么多,我们再来
说说GPU中的瓶颈。现代GPU在坐标转换,三角
形重建、光栅处理等运算能力上已经发展得很成
熟 在计算方面已经不存在明显的问题。如果一个
物体被遮挡的话 那么整体模型的复杂程度便提高
了,但遮挡算法可以通过由近及远的优先法则来计
算 在前一次计算中已经被判定被遮挡的物体,在
下一次计算中就直接忽略.这样即使复杂度提高了
N倍,计算量也不会受到明显的影响。三角形上每
个像素点的颜色.随着分辨率的扩大会提高计算
量 但即使从l024×768提高到1600×l200,计
算量也只提高了1 34% 相对于GPU整体频率的提
升,这些需求的提高也可以忽略不计。
三角形重建虽然会因为原始模型的复杂度提升
而对GPU的处理能力提出挑战 但是通常真正需
要大量运算能力的,只是近端的物体 远处的物体
还是可以用尽量少的三角形来重建,所以对GPU
性能的依赖程度也没有大幅度提高。光栅处理的道
理和坐标转换的道理一样,不会挑战GPU的运算
能力。
那么 究竟哪些环节是目前GPU性能的瓶颈
呢7那就是三维变换和材质填充。为了提升模拟的
真实度 不但需要将近景中的物体做的更为细致
而且即便是远景,也要增加物体的数量。越来越多
的游戏喜欢在场景中加入树木、云层、草地、河流
等背景.这些看似普通的物体其实在模型的构建上
非常复杂 每一片树叶和绿草都必须被严格计算。
Shader的压力不言而喻。
Vertex Shader和Pixel Shader的计算能力是流
畅3D大作的瓶颈,但是反过来,3D游戏在编写的
时候并不会考虑如何去优化对Vertex Shader和Pixel
Shader的使用,因为根本无法做到真正的优化。
以目前的主流显卡而言,GeForce7和xl000两
个系列都各有数款不同的显示核心产品.它们的
Vertex Shader和Pixel Shader数量比例都不一样.频
率也不同。例如7300GT.有8个Pixel Shader和4
个Vertex Shader.也就说,如果不考虑显存频率的
因素,每时每刻Pixel Shader和Vertex Shader的计
算量是2:1.那么才能正好使所有渲染管线和顶
点着色器能同时工作,显卡的性能也达到最高的水
平。可是实际上,游戏设计者不可能掌握游戏的即
时工作量 因为随着玩家的不同操作 画面的变化
完全是随机的,这不能由游戏设计者来掌控,只能
由显卡来根据当前需求进行工作的分配
当Pixel Shader计算量加大的时候,Vertex
Shader必然会有部分在闲置 同样当Vertex Shader
计算量加大的时候.Pixel Shader也必然会有部分
在闲置。即便我们假设游戏设计者完成了能保证让
Pixel Shader和Vertex Shader时刻100%保持工作状
态的目标 但是 当这个游戏使用X1600 Pro显卡
i)lq No.1 2.2006 25
维普资讯
【评测报眚1 膏编:吴挺 栏目信箱:pcdly.edltor@gmal1.COnr d,
Shader和
运行的时候.X1600 Pro核心有12条Pixel Shader
序迅速吞噬掉。之前的显卡由于Pixel
ex Shader的数量固定.所以在Pixel Shader或
和5个Vertex Shader.这时就会有2条Pixel Shader
Vert
时刻处于闲置状态。也许有人会说.游戏可以为不 者Vertex Shader中肯定有一种功能单元在同一时间
被全部使用 同时.受到工作压力随机性的影响.
另一种功能单元不能满负荷工作.造成了闲置。而
基于DirectX10标准的G80不一样.G80的所有渲
同的显卡进行优化.NVIDIA显卡的工作压力比例
保持在2:1.ATi显卡的工作压力比例保持在12
:5。OK.那NVIDIA的显卡还有7600、7800,
7900、7950.ATi的显卡还有X 1 300、X 1 800、
染单元都可以自由地选择当前工作在Pixel Shader
模式或者Vertex Shader模式.当前两种功能单元的
xl900 X1950.加上以前的9550、6600 9700、
6800
,
4200……
.
如此多的显示核心令游戏无法对
每款都进行优化.而且这样的优化对于未来的显卡
来说.其有效性是不确定的.没有哪个游戏工作室
会接受用这样的办法去解决显卡的运行效率问题。
所以.要解决瓶颈.只能从显卡自身开始。
我们之前就介绍过NVIDIA和ATi将在下一代
显卡核心中采用US(Unified Shader)架构 不.也
许现在再称为“下一代”已经不符合时代的意义.
因为G80已经实实在在地躺在了我们的评测台上。
US架构,已经真实地来到了我们身边。
Unified Shader架构是超前的 其核心US单元
将Pixel Shader和Vertex Shader单元整合在一起,
经过重新的整合设计后能节省部分线路和电子晶体
管.这样就能在有限的显示核心中容纳更多的US
作为目前G 8 0系列最高端的G e F O r c e
8800GTX
,
渲染单元达到了l28个之多。也就是说.
当渲染任务需要大量Pixel Shader的时候.GPU可
以提供1 28个Pixel Shader;当渲染任务需要大量
Vertex Shader的时候,这些Pixel Shader可以全部
转换成Vertex Shader来完成当前工作。实际上这种
情况极少出现,更多的时候是一部分担当Pixel
Shader.另一部分担当Vertex Shader。
这1 28个渲染单元理论上不会有任何一个闲
置.因为3D游戏的设计就是尽可能地利用GPU资
源.在单位时间内提供最多的画面帧。即便是最简
单的3D场景.例如只是屏幕上一个跳动的球体.也
会占用所有的GPU资源。GPU性能越强 计算出
来的画面帧数越多,用户就感觉到越流畅 GPU性
能越弱,计算出来的画面帧数就越少,当连续的两
个画面帧之间显示时间超过1/24秒的时候,即便该
单位时间里帧数可以达到24帧以上.用户也会感觉
画面的不流畅,也就是我们通常所说的“卡”。所
以3D程序对GPU性能的需求是无止境的,GPU提
供再多的Pixel Shader和Vertex Shader.也会被程
数量是由显卡自己决定.尽可能地让每一个渲染单
元做到满负荷.而不必再去考虑程序优化等问题。
虽然统一渲染的工作模式只有DirectXl0才能
支持.但G80和竞争对手一一也就是明年才推出的
R600不一样。G80超越时代的硬件设计可以使显卡
和驱动不受系统DirectX版本的影响.直接进行统
一
渲染.这必须归功于Gigathread管理体系 在
Gigathread系统中.所有的渲染单元的执行顺序都
是被打乱的.并不存在工作的先后之分.哪个渲染
单元正在闲置,Gigathread就将下一个需要渲染的
数据交给该渲染单元处理,因此.所有的渲染单元
能够闲置的机会很小.GPU也就突破了传统显卡
Pixel Shader和Vertex Shader数量固定的瓶颈,整
体的运算能力也上升了一个明显的台阶。
传统GPU由于Vertex Shader和Pixel Shader的
数量固定.所以在整体的流程中只需要将Vertex
Shader单元设计在Pixel Shader单元之前.只要把
数据从Vertex Shader开始就会按照硬件设计的顺序
被处理,而不用考虑内部的大量循环。但G80不一
样.它的Vertex Shader和Pixel Shader是并行的,
必须通过专门的硬件去协调每个数据块的流向。如
果我们用US【1~1 28.PS/VS】来模拟渲染单元 那
么这个协调器就是负担决定由US【97,VS]处理后
的数据是交给US[35.PS]还是USf46,PS1来处理
的工作 G80一共l28个渲染单元,其问关系的复
杂度是传统显卡不能相比的,需要很好地协调才能
正常并高效率的工作。G80中,这样的协调器被称
为Thread Control Unit。
当游戏的数据传送到G80之后,Thread Con・
trol Unit会首先将当前的数据拆分为超过l000个平
行的线程,并根据当前渲染单元的空闲情况安排尽
可能多的渲染单元担当Vertex Shader的工作,当这
些渲染单元完成任务后.Thread Control Unit将其
又标记为空闲,然后再将后面的数据随机交给这些
维普资讯
谴理性弓f导潸费 浊})f Y牧童争活
完成工作的渲染单元处理。而处理完的数据在经过
三角化之后,又会被Thread Control Unit安排进入
GPU内部近乎两纳秒的时钟周期而言,会在一个
线程上让一个渲染单元浪费十几个时钟周期用来等
当前空闲的渲染单元进行贴图步骤。
Thread Control Unit会保存每个渲染单元的当
前空闲或工作模式属性,并追踪每个数据线程的位
置.然后在不断的内部循环中将经过半加工的数据
交给渲染单元继续处理 处理完毕的数据交给后面
的处理模块 完成最终输出工作。所以无论是对
NVIDIA还是ATi显卡进行过有限优化的游戏 在
G80上画面帧数都有明显地提高。
另外 虽然最高端的GeForce 8800GTX采用
了频率为1 800MHz的显存颗粒,但如果渲染单元
在执行当前任务的时候需要从显存读取部分数据
时 那就需要通过显存控制器去访问显存。虽然显
存的频率很高 但从提出申请到显存返回数据,其
间需要十几纳秒甚至几十纳秒的时间,这对于
待。所以Thread Control Unit的另一个重要任务之
一
,
就是监控这种显存的读取行为,一旦发现,就
将该线程移出渲染单元并给予该渲染单元另外的任
务,等数据从显存中返回后.该线程才被随机送入
当前空闲的渲染单元继续处理。与传统GPU流程
相比,这样的设计可以使得等待显存数据不再成为
影响工作流程的主要因素,而传统GPU因为Vertex
Shader和Pixel Shader的固定流水线设计而必须停
下当前的工作来进行等待。
同样的.通过Thread Control Unit打乱渲染单
元的办法对于SIMD指令流的执行效率来说,也是
非常有意义的。传统GPU中,位于同~个Quad内
的4条Pixel Shader着色管线都共享同一套指令分配
体系,并处于同一个控制电路的控制之下。所以,
在执行动态分支的时候,这个Quad内的4条Pixel
Shader着色管线在每个时钟周期只有运行同一类型
指令,才能让所有ALU都保持工作。如果遇到不同
的指令组合,那么因为指令发射器和控制单元共享
的问题 实际无法在单周期完成,必须等待指令组
合中耗时最长的指令完成后,才能真正释放该
Quad 因为新的指令组合无法在Quad工作的时候
进入。G80能够将所有的数据分拆成最小化的4 X
4像素单元,并且维持一个极大数量的线程群,这
样就能避免在同一个像素单元中同时执行两条不同
耗时的指令,提高每一个渲染单元的效率。
我们之前也对G80在DirectX9下的工作模式
感到疑惑 但因为它是内部控制统一渲染的循环。
所以可以无视操作系统本身提供的是DirectX9 API
还是DirectX10 API 甚至没有优化过的程序也能
运行得非常流畅。
NVIDIA之前的GPU 因为受到FP16和FP32
数据格式的影响 一直都不能同时开启HDR效果
维普资讯
【评渊报青】 i栏目责编:吴挺 栏目信箱:pcdly.edltor@gmal1.conr w Pc iy— o
在物理运算方面,G80也提供了强劲的解决方
案。因为G80单卡就拥有128个渲染单元.传统显
卡的SLI或者CrossFire.都是将物理计算扔给了
CPU.可是目前最高端的CPU在浮点计算能力上还
不如一块普通的X1600,而CPU还必须负担3D程
序的流控制、人工智能AI的模拟及一些其它的系统
和MSAA功能.而其对手ATi在X1000系列中通
过建立一个带MSAA功能的FP16 render target和
FP1 6 render target texture.用stretchrect把带AA
的render target复制到target texture中,就实现了
HDR+MSAA的功能。所以NVIDIA在画面的特效
质量方面,一直不如ATi的产品。
G 8 0为了改善画面的特效质量.遵照
资源管理,这就造成了即便CPU性能再强,也无法
有效提升SLI性能的怪圈 在Thread Control Unit的 DirectX10的FP32标准.并提供了FP Tex filter—
ing Unit(浮点纹理过滤单元)对FP32格式的HDR
提供从运算 存储 过滤到混合的原生硬件支持。
通过Orthogonalized Frame Buffer(正交帧缓存).
G80只是增加了渲染单元在处理细节时的一些延
迟,任何对于Frame Buffer的操作都是独立的.而
不会影响其它操作的进行,这样就在对较小影响性
能的前提下实现了HDR+MSAA功能。
在渲染的过程中,有些像素是可以完全被忽略
掉的.比如说一大片相同的蓝色天空,就没有必要
对所有的像素进行完整的渲染。所以在每次渲染
前.G80都通过Early—Z技术判断当前渲染的必需
性.如果被判断为无用像素,就将前一步的结果直
接输出到显存.而不必再浪费GPU的渲染管线资
源。相对于GeForce7系列。在这个模块上 G80的
速度能够提升3倍。
28 No.1 2.2006 r ̄Dl ̄
管理下,G80的性能已经超越了目前所有的其它显
卡产品 所以在NVIDIA的设计中,G80 SLI的工作
模式将打破现在SLI的概念,不再是将渲染工作平均
分给两个GPU处理,而是一个GPU进行传统的渲染
工作 另一个GPU专注于物理计算。G80 SLI的物
理计算模式就可以打破这种现象 让CPU从物理浮
点计算的束缚中摆脱出来,将图形计算的工作交还
给GPU.从而有效提升系统运行3D的能力。
Shader Model 4.0是DirectX10的重要设计之
一
,
从各种宣传资料来看,DirectX 1 0号称能够使
游戏的运行速度提升10倍.那么.这是如何实现的
呢7在sM4.0中 引入了名为Geometry Shader(几
何着色器)的新图形功能层.每个从Vertex Shader
出来的线程都会先通过几何着色器.然后再交给
Pixel Shader。在这个几何着色器中,相关联的线程
数据被重新整合在一起,模型中类似的顶点被结合
起来进行运算.而不用判断数据在3D图像中的位
置。当确定了模型的物理形状后,可以对该物体整
体使用函数进行处理.然后再将结果重新划分成线
程交给下一个处理单元。这样就可以不用像传统
GPU那样必须由CPU去判断物体细节的处理,烟
雾飘动 爆炸效果等场景就可以完全交给GPU.从
维普资讯
谴理性弓|导消爨 谴DI Y改变生活
而提高整体的速度。
在长达26.8CM的PCB上,十二颗显存颗粒
三面环绕巨大的显示核心,而且在巨大盖片下, 因为G80提供了对IEEE FP32的支持,所以理
论上现在逐渐流行的G PG P U程序也能使用
NVIDIA的显卡来进行通用运算。由于G80的多线
我们可以推测整合了7亿个晶体管的G80核心面
积是G7 1核心的4倍以上。因为考虑到80nm工
艺并不成熟,所以G80核心还是采用了90nm工
艺,核心面积无法做的很小,所以将RAMDAC
程能力超过1000条 1 28个统一渲染单元架构能够
随时提供Pixel Shader或者Vertex Shader功能,通
过Thread Control Unit能够将这些渲染单元高效率
地运作起来,加上384位显存控制器,可以说,在
模块分离出来,以独立芯片的模式安置在PC B
上。不过从另一个角度考虑,目前的显示器对显
GPGPU方面,G 80的前途无可限量,将来通过
DirectX1 0进行NVIDIA和ATi的GPGPU指令统
一
,
那G80就应该是当之无愧的王者。
以上描述了诸多G80的新特性,下面我们就看
一
下G80的真实面目。首先是GeForce 8800GTX。
卡的RAMDAC性能需求并没有大幅度的提升
RAMDAC模块完全可以以远低于GPU的频率
工作而不影响画质 所以将RAMDAC独立,利
于成本和降低发热量。同时,在供电电路部分,
G80首次使用了两个6Pin头供电,其实我们想想
G80的7亿个晶体管就知道原因了 PCB提供了
两个MIO接口,根据NVIDIA的解释,在组建
GeForce 8800GTX SLI系统的时候只需要连接一
对MIo接口就可以了,另外 个MIO接口的用
意却没有表明。联想到和G 80同时发布的就是
NVIDIA 680i芯片组,它提供了两条PCI Ex—
pres S 16X插槽和一条PCI Expre s 8X插槽,可
以组建SLI+PPU平台,或许,额外的MIO就是
用来连接PPU或担当PPU任务的NVIDIA显卡
所用。
接着是GeForce 880(1GTX
DIV No.12.2006 29
维普资讯
【评测报眚】 栏目责缩:吴挺 栏目信箱:pcdiy.editor@gmail.COnr 黼
而GeForce 8800GTS的MIO接口和6Pin电源
口只有一个,不过在供电电路部分比GeFO rC e
8800GTX更为庞大的电容阵容似乎说明GeForce
8800GTS 供电需求也不小。和8800GTX相比.
PCB板的长度缩短到了24CM,但还是远高于
GeForce 7950GT的l9.9CM的长度。在照片上我
们可以看到GeForce 8800GTS只使用了l0颗显存,
留下2个显存空焊位。并不是说因为8800GTS少了
32个渲染单元而减少了显存的位宽,而应该是出于
成本考虑的因素,这点我们下面会分析。
B-n0 8∞O1丽噶
{ ^1
{
。
|II潮錾自瞒 翱由科西毒 90 nfrI 抑nm
哺硼峨啊r 锄.-I or譬 6BlM 柏1M
《 螨a 薯l 翱柙嚷
I岫il睢 幅 5巧 5邮MHz
|II雌l蕾自 -弛 曩 , “
㈡ --。 ¨川
13S0M} 1200MHz
霸呻悄蛾糊fj蟠 .垮瓣盏 缸v
.
商蚋 ‘-' 1Z8 96
露 00_ l刮18∞ 800/1600
:
.-
‰ ・
.
啼硎姆 0 -珊日牯 j 8啦
一 p 0 ‰ ㈠
嘲噍 lli-‘ I . 澎 85一GB,§ GB,s
l嵋瞩粕 婚 。
■^。。I-,i0 i・ 24 20
q释|r萄I酶 ” 768 B S12M日
翔 自 fl薯| 啦{伪qh唯 .8 24G 5
嘲1I翻 曩_I 确0≯
叭 越 咖№ 4OOMHz
抽 i l lb【D% 阳E)叩
GS0核心对比
G 8 0的显存控制器比较特殊,G e F O r C e
8800GTX是384位 而GeForce 8800GTS是320
位.并不是说GeForce 8800GTS的内存控制器是经
过修改的版本.而是在8800GTS专用PCB中没有
使用。为了让Unified Shader Architecture统一着
色结构具有很高的效率.G80必须提供巨大的显存
带宽,因为G80核心可以任意地将数据传输给6个
ROP分区或者6个L2缓存。这6个ROP分区或者
6个L2缓存再通过一个64bit的显存控制器存取显
存,实际上G80相当于具备了~个六通道64bit显
存控制器,比起一个单通道384bit显存控制器在具
有同样带宽的同时还能保持更高的灵活性和效率,
所有的显存带宽都能得到高效的利用。而GeForce
8800GTS的市场定位是注重性价比的中端市场,所
以只启用了6个64位内存控制器中的5个,也就是
320位带宽和1 0颗显存颗粒的由来。在实际操作
中 这6个64位内存控制器是以一个5l 2位控制器
和一个128位控制器的模式工作的。
为了充分体现G80核心的性能 我们开始考虑
的是使用四核心Conroe.但考虑到目前主流的游戏
并没有对多核心处理器优化.同时3DMark06也只
支持双核心处理器.即使采用四核心处理器.对测
试的结果也不会有特别明显的帮助 所以我们使用
的是双核的CO re DUe 2 6700,并且超频到了
340MHz外频,也就是CPU工作在3.4GHz。
内存方面,由于受到处理器FSB的限制,即便是
DDR2—800内存组建双通道 其所能提供的1.6Gtlz内
存带宽对于处理器超频后的1.36GHz前端总线也没
有多少意义 加上如果工作在异步模式.对整体的性
能也会有影响,所以我们采取了工作在DDR2—533的
工作模式 并且和CPU外频同步.也就是最终工作
在68lMHz。和DDR2—800模式相比,68IMHz不但
能提供和CPU前端总线匹配的内存带宽.我们还能
降低内存颗粒的延迟来获得更好的性能。
显示器方面,NVIDIA建议使用2560×2048
的大屏幕模式.但我们手上的大屏幕显示器只有一
台Dell PIl 30 默认能够达到1 800×l440的分辨
率.但这台显示器的341 MHz带宽完全可以支持
2048×1536分辨率,我们取消了显示器属性中的
隐藏该显示器无法显示的模式 ,在2048×1536
分辨率下,显示器也能正常工作。不过在3DMark
系列测试软件中,我们只能最大打开到驱动默认的
1800×1440分辨率,我们通过对显示器驱动的修
改 将最大分辨率强制设定为2048×1536 在重
新安装显示器驱动后.3DMark系列就可以打开
2048 x l536的测试模式。
由于G80核心的高功耗 使其在组建了SLI系
统之后更是吞噬电力的大户.NVIDIA为了保证
维普资讯
让踺烊弓|导渭落 让Dl Y政变生活
G80 SLI平台的稳定运行.必须在12V输出上达到
30A.因为一共有4个显卡6Pin头需要连接。因此
在3DMa rk03中 测试程序默认的分辨率是
l024×768 而且测试只涉及到SM2 0 G80在这
个级别的3D运算上可谓是得心应手 得分和我们
之前所做的NVtDIA Quad SLI和ATi CrossFire的
电源的必须能提供足够的6Pin头或D型头.否则系
统中的驱动程序会弹出电源不足的警告并不能打开
显卡的SLI功能。同时也给出了G80单卡平台电源 最终成绩相当。
的标准,必须迭到450W。但在我们开始测试的时
候 我们使用的是航嘉LW-8388S.其额定功率为
300W
.
最大输出360W。在CPU没有超频的时候
G80能够通过所有的测试.但是将CPU超频到3.
4GHz之后 无论是游戏测试还是3DMark测试 都
会随机自动跳出。这说明.300W电源只能勉强维
持G80平台的工作 想获得更好的性能 必须大幅
度提升电源的档次。目前.不少电源厂商都已经推
出了符合G80 S LI平台电源要求的产品 比如
Seasonic.700HM等等。
测试平台
CPU CoreDue 2 6700oc 3 4GHz f34(1ד}1
主板 七彩虹C 975X-MVP
内存 Kingmax DDR2—800 lOB x 2 l降频至DDR2-533并与CPU同步1
电源 航矗极能8688 I528W)
显示器 Del lPI I30(最高分辨率2048 I536)
在3DMark05中 默认的分辨率也是l024×
768 同样只是基于SM2.0.只是提高了场景的复
杂度 增加了对DirectX 9.0b AP]的支持。从测试
的成绩上来说也非常令人满意 GeForce 8800GTX
的成绩依然保持着单卡成绩的第一。
在3DMark06中 SM的规格从2.0提升到3 0
提供了对HDR的支持,并且将CPU的成绩强行加
入总分.默认分辨率从l048×768提高到1280×
l024以适应新的主流市场。我们从测试的成绩中
看到,G80的成绩依然是单卡成绩第一 根据我们
第l0期的相关评测文章,GeForce 8800GTX和
GeForce 8800GTS的成绩都已经超过了作为前一代
产品旗舰产品GeForce 7950Gx2。
维普资讯
【评测报告】 栏目责缩:‘吴挺 栏目信箱:pcdly.editor@gmail.conr w 。Pcdiy 0卅
Quake4也是基于DOOM3引擎.高分辨率拉
8FSAA测试中,l280×l024和l600×l200两个
分辨率下.两个核心拉开的性能差距应该比较正
大差距的现象显得更为明显,似乎更进一步证明了
我们对DOOM3测试成绩的理论分析。看来想要彻
底的驾驭G80.将Core Dua 2 6700超频到了3.
4GHz也没能填满G80巨大的运算量胃口.目前也
常.而在2048×l536分辨率下.两者的得分十分
接近.只有3分的差距。我们只能解释为在8FSAA
的高强度压力下,CPU此时已经彻底成为了系统的
瓶颈,无法为GPU提供更为强力的配合。
许只有最疯狂的超频爱好者.才有可能充分挖掘出
G80的真实成绩。
DOOM3基于OpenGL标准,但其引擎调用
FarCry在打了1.3补丁之后.能够支持SM3.0.
在这个DirectX 9.0c游戏中.还是高分辨率的得分
差距比较明显。此时的CPU已经彻底成为了系统整
DirectX的硬件相关特性去处理光源、法线贴图等
步骤.所以显卡性能的提升.在一定程度上也能加
速画面的帧率,使其更为流畅。但由于DOOM3最
大只能提供1600×l200的测试模式,我们只能尽
量提升画面的特效细节来测试。在测试中,传统的
1024 ×768模式下的成绩达到了令人疯狂的278.7
帧.可见G80核心在Z-Fill方面强大的运算能力。
DOOM3中.高分辨率比低分辨率拉开的得分差距
更为明显.是不是可以解释为在计算压力比较低的
时候.两块显卡中渲染单元有时会处于空闲状态.
而CPU在满负荷工作:而在计算压力提升后.GPU
才开始全力工作.由于渲染单元数量和显存容量,
体的瓶颈。当然.这已经是在开启了HDR特效之
后的测试成绩.如果不开启HDR.G 80核心中
Thread Control Unit所需要处理的循环细节会大为
减少.此时G80的实际运算能力还能提升一个档
次。那CPU就将成为整体系统的最直接瓶颈.G80
只能在一旁呐喊:“我饿!”
G80是目前唯一的DirectX10显卡.通过SM4.
0能够将C地说.利用GPU强大的浮点运算能力.
通过GPGPU让显卡去分担一部分CPU的浮点运算
工作.并不是没有可能。届时.CPU可能只专注于
速度的不同.才明显拉开了显卡的性能差距7 擅长的整数计算,而浮点计算则全部交给GPU来
32 No.1 2.2006『i DII_l
维普资讯
谴理性 |导消费t| 1){Y政变//. 活
完成.AMD目前将GPU整合进CPU的计划就是
将GPU作为CPU的浮点协处理器的最直接应用。
但是.G80的设计过于超前.因为现在DirectX还
空有Athlon64处理器却没有64位操作系统相配合
的苦涩.也只有NVIDIA体会最深刻。竞争对手ATi
的R600要到明年才能发布,现在的G80.就好比
没有真正普及。微软宣布DirectX10只能在Vista上
使用 Windows XP将无法享受到SM4.0带来的速
度快感。可现在Vista只是完成了RTM版本.还有
很多漏洞需要去修补 硬件驱动所能表现出来的性
能还没有达到极致.3D能力也没能充分挖掘。更重
是在一个没有裁判、没有规格、没有对手的赛场上
奔跑.但却找不到停止的终点。
G80本身也还有很长的一段路要走,比如说功
耗、生产成本和PCB板长度等问题。G80的功耗达
到了GeForce 7900GTX的两倍.也是GeForce
要的是.基于DirectX的游戏到目前为止屈指也数
不出来一 号称第一款基于D i re ctX l 0的大作
((Hellgate:London{地狱之门:伦敦)》或许能赶
上今年的圣诞节.((Crysi S(孤岛危机)》的发布日
期还遥遥无期.微软的《模拟飞行X》我们相信肯
定不会抢在Vista之前正式发布,((Eve Online))虽
然宣称支持DirectX10.但个已经上市近一年的
游戏能完美支持还在不断修正的DirectX10吗7
同样的 在测试软件方面,即使现在的主流3D
游戏都提供了测试游戏画面帧数的功能,但其引擎
至多也是基于DIrectX9.0C的sM3.0.而不是
DirectX10的SM4.0.这些游戏的测试得分.只能
说是DirectX10架构显卡在DirectX9平台上的怪异
结果.就好比让原始人类来评价现代的科学技术一
样,没有多少意义。测试软件的道理也是如此,就
像我们在测试GeForce7系列显卡的时候,最看重
的.是3DMark06的测试成绩,3DMa rk05和
3DMark03的得分只能说是作为“参考“,毕竟用
s M 3.0架构去运行s M 2.0的程序并不公平。
NVIDIA的处境和昔日的AMD有几分相似;AMD
7950GX2的1.5倍。NVIDIA不允许显卡的最终销
售商{此次的G80显卡都是NVIDIA自己生产后交
给各显卡厂商)自己提升显卡的频率 也许是出于
显卡默认频率下功耗就已经超高的因素。虽然目前
NVIDIA能够使用80纳米生产工艺.但仅仅只能实
现小面积的晶体管集成.例如G7l核心。如果晶体
管数量达到7亿个的G80也使用8O纳米工艺.对于
生产线来说.7亿个晶体管就是7亿个可能出现问
题的雷区.即便晶体管的缺陷率控制在目前G7l核
心允许的范围内.产品出现问题的概率也会提升3
倍.成品率将比现在的水平低不止一个档次。同样
的.为了维持G80核心的功耗,PCB板不得不增加
到26.8CM.直接导致的问题就是G80无法安装进
绝大部分的机箱.因为不但和传统机箱的硬盘位有
冲突.甚至还会挡住部分主板的SATA硬盘接13。
这些问题的解决.最终都得依靠8O纳米或者65纳
米工艺来改进.在以往新一代显卡的生产工艺升级
惯例看来.我们很可能要到2007年下半年才能看
到全新工艺生产的G80核心一一也许到时候会被称
为是G81。
本文中的测试成绩.也只能说是用来衡量新一
代显卡在老游戏上的性能表现.而并非它们的真实
成绩.如果想知道G80的潜力到底有多大,我们只
能等待Vista的正式发行和大量DirectXl0游戏及
测试软件的发布。那时,游戏将通过DirectX10架
构充分挖掘新一代显卡的运算能力,将游戏中物体
的模型构造得更为逼真,贴图做的更为细腻。虽然
这些游戏在复杂度上的提升会使得G80运行的最终
画面不比现在的DirectX9平台画面快很多,但更华
丽的场景 更逼真的3D世界效果和更接近实际的
物理效果,都会让我们在回忆起今天3D画面的时
候.轻轻说一句: 不过如此。
感DIv No.1 2.2006 33