英伟达新显卡发布的节奏非常快,RTX3080还没发布多久,RTX3090就发布了,而RTX3070也将在下月中旬发布。
小熊错过了RTX3080,这次先写RTX3090的评测。对比RTX 3080,RTX 3090的流处理器数量、Tensor Core、 ROP单元、显存带宽、纹理单元都提升了20%左右,TDP也从RTX 3080的320W进一步提高到了350W。9月24日上市,售价11999元,相比RTX3080的价格也翻了一倍。
▼这次拉来作对比的是RTX2080s,完全同步的对比评测。以前玩过RTX2080Ti,所以也有些数据,但平台和驱动都不同。最大的遗憾是没有一手的RTX3080数据,只能参考现在网上的评测数据。
纸上谈兵
RTX2080TI的的流处理器(CUDA)数量是4352,RTX2080S是3072,而RTX3080则暴增到了8704个,RTX3090更夸张,是10496个,那么RTX3090,3080相对RTX2080TI的性能提升不应该是200%以上吗?但是并没有!原因就是要从SM单元说起。
显卡运算处理方式主要有2种,一种是负责浮点型运算,负责比较大小,处理结果,计算最大值最小值的数学运算;另一种是负责整数运算,主要负责内存寻址和获取资料等工作。但在Turing诞生之前,GPU核心中并没有单独的FP32和INT32单元,从Kepler到Maxwell到再到Pascal,无论整数还是浮点都交给相同的核心进行运算,显卡所以核心在一个周期内只能进行一种运算。
就强度而说浮点运算是高于整数运算的。经过英伟达的分析每100条指令操作中有62条是浮点指令操作,38条是整数指令操作,即浮点(FP32)/整数(INT32)核心的科学比例为62:38(也有说是64:36的)。
Turing设计思路是认为之前的运算效率太低,造成了大量核心的闲置,于是将负责浮点和整数的核心分开,每个SM单元拥有64个FP32核心,64个INT32小核心,但由于这些小核心性能比较弱,所以NVDIA并未把这些核心算作CUDA核心。
新一代Ampere(安培)架构的RTX30系列显卡则又统一了INT32与FP32单元,原本只能做整数运算的INT32单元现在既能做整数运算,也能做单精度浮点运算,即原来的FP32并没有动,INT32变成了INT32与FP32的混合核心,并且由小核心变成和FP32一样的大核心,这样这些混合核心也被算进了CUDA。所以其实严格意义上说Ampere的CUDA数量提升远没有官方说的那么夸张。
再回到到开头说的,那Ampere不是把Turing的改动又改回去了?正应了那句话,天下大事合久必分,分久必合。当然小熊毕竟是门外汉,也不明白这两种架构哪个更好,个人也觉得大家就不要在意CUDA数量了,毕竟性能提升才是实实在在的。
测试平台介绍:
买不起10900k,只能用OC 5GHz的10700k为大家作测试了,还请大家谅解!具体配置如下:
CPU:英特尔(intel) i7 10700k OC 5GHz
主板:华擎(ASRock) Z490 Phantom Gaming-ITX/TB3
内存:影驰(Galaxy)HOF OC Lab 大师 DDR4 4000 8G*2
显卡:耕升(GAINWARD)RTX 3090炫光
索泰(ZOTAC) RTX2080super玩家力量至尊PGF OC
SSD:西部数据 (Western Digital)WD_BLACK SN750 1TB
电源:安钛克(Antec) HCG 1000 Extreme
机箱:安钛克 (Antec) Striker 锋芒
▼在RTX3090的24G显存面前,16G的内存已经抬不起头了
▼电源采用了额定1000w,保证电力供给充足。
▼由于Striker机箱的特殊结构,使得显卡被安装在正面,对显卡来说是一个基本完全开放的平台。
▼再次抱歉没有8K显示器来测试RTX3090,只能使用PD2700U(27寸,4k分辨率)的显示器!
对比测试
系统:Windows 10 Version 2004 64-bit
驱动: 456.38
理论性能分析
▼这款耕升的RTX3090炫光版基本就是公版的性能参数。
▼在3DMARK firestrike ultra基准跑分项目中,耕升RTX3090炫光的图形得分为12561、显卡测试1的帧数为68.25,已经非常流畅了;显卡测试2帧数为45.53,算是基本流畅。以DX12为基准的time spy extreme的图形得分为10146、显卡测试1的帧数为65.19,显卡测试2帧数为58.91,都很流畅。
▼UNIGINE SUPERPOSITION的8K OPTIMIZED的平均帧数也到达了54.22。
▼数据直接汇总为表格:以RTX3090为100%计,3DMark Fire Strike(DX11)中 ,RTX2080s的性能为~57%;RTX2080TI为~70%;RTX3080为~86%,3DMark Time Spy(DX12)以及SUPERPOSITION测试也基本是这个结果。
RTX3080的数据参考网上评测。另外还要说明的是使用的RTX2080s以及以前的RTX2080TI都是超高公版的顶级显卡,而耕升RTX3090炫光基本为公版性能,所以如果是公版比公版,RTX3090和这两款显卡数据差距会更大。
实际游戏测试
在实际游戏测试中,RTX3080都已经可以完美流畅进行4K游戏了,那么RTX3080就更不成问题了!游戏测试截图如下:
▼
▼
▼
▼
▼在吃鸡中,无脑全部超高特效,2k分辨率下帧数可以在~200fps以上;4k分辨率率下也能在~120以上,即使没有8K显示器,也可以让4k的144Hz显示状态拉满!
不过在测试中也发现了一个问题,就是RTX3090在1080p分辨率下表现不佳,很多评测认为是CPU性能不够。个人倒认为是功耗墙的限制,因为实测在1080p分辨率下,显卡的负载会变的非常低,而频率则会维持在比较高水平(肯定是没碰到温度墙);到了4k分辨率,显卡的负载会基本拉满,而频率则会有所降低,所以小熊分析这是功耗墙限制显卡的性能,因为低分辨率下如果性能全开帧数会非常高,将把显卡的功耗进一步拉高,所以驱动不得不降低负载以便功耗还在限制之内。
RTX3090的流处理器相对于3080多了20%,但是功耗提升只有~10%。所以说如果说320W的TDP不能完全发挥RTX3080的性能,那么350W的TDP显然更不能完全发挥RTX 3090的性能。
▼分析数据汇总成表,由于上面说到1080p的问题,所以就没有统计1080p的数据。可以看到RTX3090在4k分辨率下性能优势远超过2k分辨率的,因为降负载的问题,2k分辨率下的小部分游戏也会出现这个问题,不过出现的频率小,时间短很,所以最后还是以4k的性能为准。
▼DX12的游戏中,还是以4k的性能为准,具体数据见下表,基本和DX11的趋势差不多。
再次强调,使用的RTX2080s以及以前的RTX2080TI都是超高公版的顶级显卡,而RTX3080的数据来自网上评测,这部分数据只能等到小熊实测过3080才能进一步修正了。
光线追踪以及DLSS表现
安培构架采用了第二代RT Core使得光追性能得到了翻倍提升,以及第三代Tensor Core(负责DLSS),效率是第二代的4倍,当然由于安培构架将每个SM中的Tensor Core减半,所以实际上它能达到图灵2倍的效能。
光线追踪技术,即利用算法来模拟真实世界中的光线的物理特点,能够做到物理上精确的阴影、反射和折射以及全局光照,在虚拟的游戏场景下,让游戏中的物体更加具有真实感。有种身临其境的感觉。
▼如《飞向月球》开了光追,才能从玻璃中看到镜像,另外环境中的阴影表现有更加丰富和真实了。
▼地铁:离去中选择最猛的EXTREME预设以及ULTRA的光追特效也可以到达流畅的~60 fps,当然也得开DLSS。
▼德军总部-新血脉对显卡的要求比较低,开dlss的4k帧数也可以过百。
DLSS的全称为Deep Learning Super Sampling,翻译过来就是深度学习超级采样。其本质是用更低分辨率的图像来代替部分高分辨率的图像,从而减小运算量提高帧数,不过由于深度学习,即AI的锐化补偿技术,代替的非常巧妙,画面还能保持高分辨率下的清晰程度。
▼还是做个表格来统计下吧,占用资源%就是开启特效后帧数下降的百分比。现有条件只能和RTX2080s比一下了。可以看到即使RTX3090不开DLSS,帧数下降的比例也要比2080s少很多,而开启DLSS后的帧数提高幅度也要比2080s高一些。RTX30在光线追踪以及DLSS表现确实要好于RTX20。
理论计算能力
▼实测RTX3080的单精度浮点运算性能是34587GFLOPS,RTX2080S的单精度浮点运算性能是12126GFLOPS,提升的幅度已经快接近3倍了!
功耗和温度
▼测试时的环境温度为~25度。
▼首先使用使用Furmark来对进行烤机测试,参数设定为1920*1080分辨率、0AA,发现频率居然减少到了1125MHz,明显碰到了功耗墙,可以看到GPU-Z显示的功耗为350w。0AA下Furmark的帧数会非常高,所以不减低负载,只能减低频率以便不超越功耗墙。而前面说的1080p游戏测试则是维持频率,负载减少。总之都是功耗限制太死的原因。
▼运行10分钟之后, RTX 3090的温度稳定在72度附近,小米智能插座显示的输入功耗为为~470w。
▼在使用time spy的压力测试,这个测试帧数肯定高不了,所以可以看到频率可以维持在1700MHz左右,不过浮动变化还是比较大,GPU-Z检测到最大频率到了1995MHz。完成压力测试后的最高温度为75度,炫光的散热系统还是不错的。此时小米智能插座显示的输入功耗为为~485w,比之前的Furmark要高了一点。
超频?别想了!
▼耕升的GW-SOUL软件,提供简单超频设定功能,RGB灯效控制以及风扇调速等多种功能。使用该软件的一键超频功能,在GPU-Z上确实能有~50MHz左右的提升,实际测试3DMARK的最高频率也从1995MHz到了2040MHz,但分数方面却没有实际的提升,小熊认为就是功耗的管理机制,这里就不再复述了。
显卡以及其它硬件介绍
▼耕升GeForceRTX3080炫光的包装风格科技味十足,并且正面还标注了3年质保+个人送保的服务;附件包括RGB显卡支架,可安装在显卡背面的风扇,和一条显卡连接主板同步灯效的RGB连接线。
▼耕升RTX3080炫光的三围尺寸为329*136*63mm,采用了3个90mm风扇,风扇面有圆形和方向的图案,感觉充满几何图形的元素。
▼中间是圆形的扇框,风扇为十一片扇叶设计,扇叶采用锋刃设计。
▼两边的是棱形导风罩。
▼RTX3080炫光还是双槽固定,不过厚度达到63mm,基本上到达了三槽厚度。侧面有标志性GEFORCE RTX的LOGO,旁边还有耕升GAINWARD的标识,并且带有RGB灯。配备了双8PIN外接供电,和公版一致。
▼前端可以看到5根6mm镀镍热管,但其实有7根,等会在拆解部分会看到它的全貌。导风罩的前部,附带了两个接口,5PIN接口是通过线材连接主板实现RGB同步功能,而4PIN口则是用于连接背板风扇。
▼IO部分,拥有3个DP1.4a规格接口和1个HDMI2.1规格接口,可以支持8K&60Hz的输出。
▼金属背板的前部和后部都进行了镂空处理,尤其是前部,因为这部分并没有PCB,这样设计可以更轻松吹透鳍片散热部分。
▼SLI仅限RTX 3090独享,玩双卡的成本进一步增大了。
▼附件中的背板风扇,直径80mm。
▼风扇安装在背板上,可以增加散热系统的空气流动性,更轻松的轻松吹透鳍片。
▼但安装风扇也会使得显卡的厚度增加,一些机箱可能会安装不了,比如小熊测试用的Striker。
▼小熊是不会放弃拆解卡皇的机会!和RTX3080最大的不同就是PCB背面还有12颗显存,单颗容量1GB,再加上正面的12颗,正好24颗,24GB。
▼所有散热器部分贴近电感、显存芯片、MOS管芯片的地方都配置了导热垫。
▼除了前端看到的5根贯通的热管,还有2根在核心区域成U型,从后端穿出,组成了7条6mm镀镍热管+回流焊的散热系统。
▼显卡PCB的VRM供电使用独立加厚散热板设计,另外也可以看到显卡的整个PCB长度只有215mm,不过还是采用了12层PCB板,进一步提升显卡的电气性能。
▼ GPU核心为NVIDIA的GA102-200 ,8nm工艺制程。;显存是美光的GDDR6X;供电方案和采用了18相供电:9相NVVDD核心供电,5相MSVDD核心供电,4相显存供电。Dr mos的具体型号为Alpha & Omega的ALN0 0N18。PWM部分使用了3颗uP9511R,正面有1颗,2颗在PCB背面。
▼为了不给测试平台拖后腿,选择了高频内存:HOF OC Lab 大师 DDR4 4000 8G*2。
▼表面经过特殊涂层处理的纯白金属马甲,手感非常好。内存使用了三星的B-die芯片和10层的加强型PCB,XMP频率4000MHz,时序19-25-25-45,电压1.4V。
▼不过大师系列是无RGB灯效的,当然白色的马甲,非常容易映射周围的光效。
电源
High Current Gamer Extreme,简称 HCGX,包装的配色是玫瑰金,该系列通过80 PLUS金牌认证,并提供了10年质保,使用了额定1000w的型号。
▼开盒后可以看到除了说明书之外,在理线方面分别提供扎带和理线带。
▼1000w型号的长度为16cm,而850w型号的长度是14cm,对机箱的兼容性会更好些;两侧都为玫瑰金色的金属板,有品牌 LOGO和型号;在电源输入口旁边还有一个按键,就是Hybrid模式切换功能的开关,开启后电源风扇会在低负载时停转,提供更好的静音表现。
▼全模组输出接口,提供了8个12V的CPU/PCle接口,而且并不区分CPU/PCle,可以随意使用。
▼HCGX电源采用了单路12V设计,单路12V输出达到了83A,即996W,还是偏向游戏应用的设计。
显卡RGB效果
上面通过GW-SOUL软件可以看到炫光支持支持5种灯光效果,同时还有一键切换主板同步模式(需要连线),不过并不支持彩虹跑马灯的模式。
▼
▼中间的风扇带灯珠,而两边的是风扇框有光。
▼
▼品牌logo灯。
总结
RTX3090可能比RTX3080高~15%,理论上限也只有20%,但价格翻倍了。其实想想之前RTX2080s和2080ti的性能和价格,也就不会太奇怪现在RTX3090的定价,毕竟这种定位的显卡就不要去讨论性价比了。
耕升RTX 3090炫光这款显卡的颜值和散热系统还是不错的,当然现在的问题不是买哪个牌子型号,而是怎么才能买到!
确实4k分辨率下大多数游戏不会使用超过10GB以上的显存,所以RTX3090的优势还是在8K分辨率上。但由于没有设备 ,没发作8k分辨率的测试,由于时间关系也没有使用DSR来进行模拟测试。其实就像曾经的RTX2080以及RTX2080Ti在4k分辨率下表现的还不够完美一样,现在的RTX3090在8k分辨率上表现也不会非常完善,毕竟还要借助DLSS,但很多游戏是不支持的。所以RTX3090适合高玩们的尝鲜,毕竟8k是属于未来的!
另一方面24GB显存也是一些渲染以及视频创作者的需求。如果说你就是想用RTX3090在4k分辨率的显示器上玩游戏,那么它可以提供更好的光追性能,或者跑满您的高刷新率显示器。
困惑:为啥英伟达把功耗限制的那么死,限制了RTX3080和3090的进一步发挥。小熊想到的几个原因和大家一起分享和探讨:
1)CUDA过多,高负载高频率难以控制,限制功耗墙可以使显卡更稳定运行,减少返修率。
2)制式升级到了8nm,但功耗还是比上代显卡高了接近100w,再高了不太好看,会被说成电老虎,不利于宣传。
3)毕竟竞争对手还没出牌,而且现在的性能提升对于RTX20已足够,如果AMD的显卡性能优秀,可以再进一部分调整驱动释放性能,或者再推出功耗更高,性能更强的3080s、3090s来反制对手。
RTX30的到来肯定会使电源厂家高兴,高功率的电源好卖了!官方推荐RTX3080和3090最好使用额定750w的电源,经小熊实测后,显卡烤机功率在480w~490w左右,游戏时测试的功耗在~530w左右(游戏时CPU的负载会再高一些),当然余量还是要留好的,显卡的峰值用电也要考虑到,所以如果是10700k或者10900k最好还是老老实实按官方的750w,甚至850w来选电源;如果是10400,10500以及同级别的AMD CPU,选650w的电源也可以。
另一个高兴的可能是分体水冷厂家了,这么高的功耗不想尝试一下水冷的效果吗?小熊这个测试平台其实很方便连接显卡水冷,只是现在还没有冷头,等以后有机会在测试下RT30在水冷下的表现。