序言
▲1984年上映,由詹姆斯·卡梅隆导演,阿诺·施瓦辛格主演的《闭幕者》豆瓣评分高达8.2分,个中故事背景中的天网是人类于20世纪后期创造的以打算机为根本的人工智能防御系统。之后自我意识觉醒,视全人类为威胁。电影剧情中,公元2029年,经由核毁灭的地球已由电脑“天网”统治,人类险些被消灭殆尽。一个叫约翰·康纳的军事领袖调集幸存者一起对抗天网,组建了反抗军组织。

▲其续集于2003年上映的《闭幕者3》片中显示,天网的算力是60TFLOP/s,也便是每秒60万亿次浮点运算。

▲其续集于2003年上映的《闭幕者3》片中显示,天网的算力是60TFLOP/s,也便是每秒60万次F浮点运算
▲而在2022年的本日,英伟达最新发布的Ada Lovelace架构新旗舰RTX 4090在3.15 GHz频率下算力可以达到100TFLOP,所有也有网友调侃:看起来无所不能的天网,算力只相称于0.6张RTX 4090显卡。值得寻味的是《闭幕者》电影上映韶光是1984年,而天下上第一块显卡发明于1981年,还是8位ISA显卡。韶光催化科技落地再击穿曾经电影中的科幻数据,究竟是剧本预设太守旧,还是科技进步太迅速呢?
NVIDIA Turing GPU 架构于 2018 年推出,由TSMC 12nm工艺制造,首创了 3D 图形和 GPU 加速打算的未来。图灵在 PC 游戏、专业图形运用程序和深度学习推理的效率和性能方面取得了重大进步。利用新的基于硬件的加速器,Turing 领悟了光栅化、实时光芒追踪、人工智能和仿照,以在 PC 游戏中实现令人难以置信的真实感和电影品质的互动体验。
▲两年后的 2020 年,由Samsung 8nm 8N工艺制造的NVIDIA Ampere 架构整合了更强大的 RT 核心和Tensor核心,以及一种新颖的 SM 构造,与 Turing GPU 比较,该构造可供应 2 倍 FP32 时钟对时钟的性能。这些创新使得 Ampere 架构在传统光栅图形中的运行速率比 Turing 快 1.7 倍,在光芒追踪中的运行速率高达 2 倍。
▲2022年新的 NVIDIA Ada Lovelace GPU 架构以数学家 Ada Lovelace 命名,他被认为是天下上第一位打算机程序员,由于利用了 TSMC 5nm 4N工艺制造,其构架规模远远超过了 Turing 和 Ampere GPU。几何繁芜性的增加和照明的创新使图形看起来比以往任何时候都更加逼真。 与之前的 NVIDIA Ampere GPU 架构比较,Ada 在光栅化游戏中的速率高达 2 倍,在光芒追踪游戏中的速率高达 4 倍。
Ada 图形架构预示着第三代 NVIDIA RTX 技能,通过利用实时光芒追踪来提高游戏视觉效果的真实性,而无需绘制纯光芒追踪 3D 图形所需的大量打算能力。这是通过将传统的光栅图形与光芒追踪元素(例如反射、照明和全局照明等)稠浊来完成的。第 3 代 RTX 预示着新的更高 IPC “Ada” CUDA 核心、第 3 代 RT 核心、第 4 代 Tensor 核心和新的光流处理器(Optical Flow Processor),该组件在不涉及 GPU 主图形的情形下在天生新帧中起关键浸染渲染管道。
NVIDIA Ada GPU 完全架构
▲完全的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流处理器 (SM) 和一个 384 位显存接口以及12 个 32 位显存掌握器。此外还包括 288 个 FP64 内核(每个 SM 2 个),上图中未显示。 FP64 TFLOP 率是 FP32 操作的 TFLOP 率的 1/64。包含少量的 FP64 内核以确保任何具有 FP64 代码的程序都能精确运行,个中还包括FP64 Tensor Core 代码。
完全的 AD102 GPU 利用了12个GPC单元构成,每个GPC的SM为12个共144个SM,以是可以打算出:
144(SM)128(CUDA内核)=18432(CUDA内核)
144(SM)1(RT核心)=144(RT核心)
144(SM)4(Tensor核心)=576(Tensor核心)
144(SM)4(TMUs纹理单元)=576(TMUs纹理单元)
12(GPC)16(ROPs光栅单元)=192(ROPs光栅单元)
12(显存掌握器)32bit(位宽)=384bit(显存位宽)
和上一代第一款首发产品RTX 3090一样,RTX 4090不是完全版核心,而是配备了这一代的第一款 Ada Lovelace GPU: AD102-300-A1。
NVIDIA AD102-300-A1 GPU架构
▲只管这张旗舰卡中利用的芯片并不是完全的核心,AD102依然拥有128 个流式多处理器 (SM) ,包含16384 个 CUDA 内核。
RTX 4090的AD102-300-A1核心
▲RTX 4090利用了11个GPC单元构成,9个GPC的SM为12个,2个GPC的SM为10个,共144个SM。以是可以打算出:
128(SM)128(CUDA内核)=16384(CUDA内核)
128(SM)1(RT核心)=128(RT核心)
128(SM)4(Tensor核心)=512(Tensor核心)
128(SM)4(TMUs纹理单元)=512(TMUs纹理单元)
11(GPC)16(ROPs光栅单元)=176(ROPs光栅单元)
12(显存掌握器)32bit(位宽)=384bit(显存位宽)
Ada的图形处理集群 (GPC)
▲Ada的图形处理集群 (GPC)包含1个光栅引擎,6 个 TPC、12 个 SM 和 16 个 ROP。
GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高等硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包括一个专用的光栅引擎、两个光栅操作 (ROP) 分区,每个分区包含八个单独的 ROP 单元和六个 TPC。每个 TPC 包括一个 PolyMorph 引擎和两个 SM。
AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、1个 Ada 第三代 RT 核心、4个 Ada 第四代Tensor 核心、四个纹理单元、一个 256 KB 寄存器和 128 KB 的 L1/共享缓存。
Ampere 架构的第2代RT Core
▲Ampere 架构的第2代RT Core图中,BVH 遍历由 Box Intersection Engine (左侧)加速,光芒-三角形相交测试由 Box Intersection Engine 加速 三角形相交引擎 (右侧)。通过两者为光芒追踪功能供应专用资源,从而解放SM单元,使其腾出韶光来实行其他像素、顶点和打算着色任务。在利用综合基准测试以及真实游戏和运用程序进行测试时,Turing 和 Ampere GPU 中的 RT Core 已被证明是迄今为止处理 RT 事情负载的性能最高的引擎。
Ada 架构的第3代RT Core
▲Ada 架构的第3代RT Core,在继续了第2代的两个功能单元之外,新增了Opacity Micromap Engine (左下)和 Displaced Micro-Mesh Engine (右下)这两个专用单元。
叶子或火焰等繁芜形状常日利用纹理中的 alpha 通道来表示透明度和不透明度的级别
▲在 Ada 的 RT Core 之前,开拓职员可以通过将某些内容标记为不透明来将它们合并到光芒追踪场景中。当叶子被光芒击中时,将调用着色器来确定如何处理相交,纵然光芒只是大略地表征为命中或未命中。这会产生很大的打算资源开销。详细来说,当光芒扭曲投射到非透明工具时,单个光芒查询可能须要多次着色器调用才能解析,而其他光芒会立即终止。结果是资源开销大以及效率低下。
为了有效处理此类内容,NVIDIA 工程师在 Ada 的 RT Core 中添加了 Opacity Micromap Engine。不透明微图是微三角形的虚拟网格,每个微三角形都具有不透明状态,RT Core 利用该状态直接解析与非透明三角形的光芒交叉点。详细而言,交叉点的重心坐标用于处理相应的微三角形的不透明度状态。不透明状态可以是不透明的、透明的或未知的。如果不透明,则记录并返回命中。如果透明,则忽略交叉点并连续搜索交叉点。如果未知,则将掌握权返回给 SM,调用着色器(“anyhit”)以编程办法办理交集。
新的Opacity Micromap Engine处理不透明度蒙版时,将其划分为规则的三角形网格,用于报告光芒/三角形交点的重心坐标。这些网格的大小可以是1到1600万个微三角形,每个微三角形有1-2bit。
▲考虑利用两个三角形和一个 alpha 纹理描述的详细枫叶(拜会子图 (a))。 不透明蒙版运用于由 2 个三角形组成的枫叶。Opacity Micromap Engine评估叶子并确定哪些部分是不透明的、透明的或未知的,对应叶子的不透明区域,末了赤色和蓝色对应稠浊不透明区域(未知)。在上面的示例中,Opacity Micromap Engine将微型三角形的 30 个标记为透明,41 个标记为不透明,57 个标记为未知。这意味着超过一半的叶子被完备表征,并且超过一半的与这些三角形相交的光芒要么错过了叶子,要么明确地与叶子的内部相交。结果是,Ada RT Core 无需调用任何着色器代码即可完备表征这些光芒,同时保留原始 Alpha 纹理的完全分辨率和保真度。不过当处于未知状态时,GPU会将掌握权返回给SM着色器进行解析。
▲与 Ampere 比较,Ada 的 Opacity Micromap Engine 与不透明蒙版减少了SM着色器事情负载,常日投射在 alpha通道中的测试几何体上的阴影光芒会看到最大的收益。 Ada 的不透明蒙版支持可以显著增加场景中详细几何图形的数量和保真度,从而提高真实感。借助这项新功能,它将 alpha 遍历速率提高了 2 倍。开拓职员可以非常快速地将不透明度值分配给不规则形状的物体(如蕨类植物和栅栏)或半透明的物品(如火焰或烟雾),从而许可 Ada RT Core 直接对对 alpha 测试纹理进行光芒追踪,而不是依赖 GPU 的 SM着色器单元。大幅提升对 alpha 测试纹理进行光芒追踪的速率。
▲集成到 Ada RT Core 中的第2个新硬件单元是 Displaced Micro-Mesh Engine,旨在减少处理具有高水平几何细节的繁芜工具时传统上所需的 BVH 构建韶光和存储哀求。有了这个新功能,NVIDIA开拓了一种新的位移微网格原语来进行光芒追踪。 当须要额外的几何细节时,Displaced Micro-Mesh Engine可以根据须要动态天生额外的微三角形。与传统渲染这些繁芜工具比较,Displaced Micro-Mesh Engine将 BVH 构建韶光缩短了 10 倍,同时将 BVH 存储需求降落了 20 倍。
Ada 流处理器 (SM)
▲与之前的Ampere一样,Ada SM 分为四个分区,每个分区包含一个 64 KB 寄存器、一个 L0 指令缓存、一个 warp 调度程序、一个调度单元,16 个专门用于处理 FP32 操作的 CUDA 内核(每个时钟最多 16 个 FP32 操作),16 个可以处理 FP32 或 INT32 操作的 CUDA 内核(每个时钟 16 个 FP32 操作或每个时钟 16 个 INT32 操作),一个 Ada 第4代Tensor 核心、四个加载/存储单元和一个实行先验和图形插值指令的分外功能单元 (SFU)。
Ada SM 包含 128 KB 的 1 级缓存。该缓存采取统一架构,可根据事情负载配置为 L1 数据缓存或共享内存。完全的AD102 GPU 包含 18432 KB 的 L1 缓存,而Ampere构架中完全的GA102 仅有 10752 KB。
与 Ampere 比较,Ada 的 2 级缓存进行了彻底改造。 AD102 配备了 98304 KB 的二级缓存,比 GA102 中的 6144 KB 提高了 16 倍。这会让所有运用程序都受益,而诸如光芒追踪之类的繁芜操作最为受益。
▲Ada GPU升级的第4代Tensor 核心为现有 FP16、BF16、TF32 和 INT8 格式供应双倍的吞吐量,其第4代Tensor 核心引入了对新 FP8 的支持。与 FP16 比较,FP8 的数据存储需求减半,吞吐量翻倍。借助新的 FP8 格式,GeForce RTX 4090 可为 AI 推理事情负载供应 1.3 PetaFLOPS 的性能。
▲NVIDIA DLSS 3 是 AI 驱动图形领域的革命性打破,可大幅提升性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器供应支持,可利用 AI 创造更多高质量帧。
▲基于 Ada 架构的全新显卡配备了支持 AV1 编码的全新第八代 NVIDIA 编码器 (NVENC),可为主播、广播爱好者和视频通话用户带来更多新的考试测验和体验。该技能的效率比 H.264 高 40%,这有助于主播在保持直播推流比特率不变的情形下,将画面分辨率从 1080p 提高到 1440p,且画质依然稳定。
开箱▲ PNY是一家美商公司,中文名:必恩威,成立于 1985 年,是致力于消费和商业级电子制造的环球技能领导者。PNY 拥有 30 多年为环球消费者、B2B 和 OEM 供应做事的履历。产品在北美、拉丁美洲、欧洲和亚洲的 50 多个国家和地区设有 20 家公司,在环球紧张零售店、电子零售店、批发商和分销商处发卖。产品组合包括种类繁多的 USB 闪存驱动器、闪存卡、PC 内存升级、固态驱动器、NVIDIA® 显卡和 HP 闪存产品。凭借面向移动、数字成像、打算和游戏办理方案的产品。
实在我对PNY的理解,还是由于在北美的bestbuy海淘Quadro专业显卡,PNY在北美是Quadro和Tesla的独家代理商,这个定位非常类似中国的丽台,2020年开始发卖的Geforce RTX 3000系列消费级显示卡基本和海内丽台发卖的形状是非常类似的,由于都是Palit代工出品,2021年底开始独立研发生产显示卡,那么RTX 4000便是PNY独立研发生产显示卡的开山之作。
▲而XLR8 Gaming系列便是PNY所方案的游戏系列产品,当然PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB™ TF便是PNY目前出品的消费级旗舰显卡。
▲包装正面
▲包装背面
▲包装侧面
▲同比其他品牌的RTX3090包装盒,PNY的包装体积要小不少
▲开箱
▲原封本体
▲原封标签
▲这是静电袋的标签,和盒子上的标签以及显卡上的标签,合营成三码合一。个中D43724是PNY独占的工厂码。
▲附件百口福
▲1组 16-Pin 转 四组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter。
▲这种带有NVIDIA标的4 x 8P转12VHPWR的线实在我不建议利用,由于这种线材全部是由NVIDIA配送的套料,每一家都是一样的,由于前期有宣布NVIDIA这批转接线有严重的焊接办法的质量问题,随意马虎导致显卡与转接线的12VHPWR位烧熔,以是这里我极力建议大家不要利用这条线,详细剖析我会放在文章结尾部分。
▲附赠的一组显卡支撑架,官方命名为:VGA Support Kits,来自联力代工制造。
▲安装办法如上图
▲显卡正面利用了三个100mm双滚珠环型风扇
▲与传统90mm风扇比较增加了40%以上的风量,风压提高55%。
▲显卡背面利用了冲压成型铝制金属背板
▲显卡背板的一块做了镂空设计,方便风扇将热风吹至机箱内部。
▲显卡顶部设计了一组XLR8的ARGB灯效
▲由于这次的RTX 4090各家都采取了短PCB设计,以是16PIN供电设计在短PCB的一侧上方,覆盖上全长度的散热器,就会显得外接供电貌似设计在显卡的中间部分。
▲显卡底部
▲显卡的厚度是71.1mm,标准的3.5槽厚度。接口部分为3x DisplayPort 1.4, 1x HDMI 2.1
▲显卡前部可以看出利用了4热管穿Fin。
▲这张显卡的体积掌握在331.8 x 136.8 x 71.1mm,长度比公版的创始者310mm略长,但是短于其他AIC的同型号产品。
▲显卡体积的兼容性比拟
拆解▲我直接对这张显卡进行了拆解
▲冲压全铝背板
▲散热器本体
▲散热利用了8根热管
▲打仗底座利用了Vapor-Chamber真空腔均热板设计。
▲PCB正面
▲PCB背面
PNY的这张卡的PCB是公版PG139-SKU330
▲这张显卡全部的MOSFET利用都是OnSemi NCP302150 DrMOS,分别用于GPU和显存供电;额定电流均为50A 。
▲GPU核心的PMW芯片是uPI uP9512U 。
▲该掌握器管理14 相GPU核心供电。
▲显存供电PMW芯片是UPI uP9512R
▲该掌握器管理3相显存供电。
▲GDDR6X 内存芯片由美光制造,型号为 D8BZC,解码为 MT61K512M32KPA-21:U。它们被指定以 1313 MHz(21 Gbps 有效)运行。
▲GPU核心是AD102-300-A1
▲HOLTEK HT32F52352芯片掌握灯效以及风扇转速。
▲GSTEK GS9216是一颗12A降压芯片。
▲UPI US5650Q是一颗四通道电压电流监控芯片,监测PCB上四颗SHUNT RESISTOR,2颗R002和1颗R005在12VHWPR附近, 1颗R005在金手指附近。
这个供电的思路看下来,觉得PNY的设计比较关注默认效能稳定性,没有大量的堆料供应超频需求。设计方案和Palit类似。
既然都是PG139-SU330公版参考设计,为什么各家的PCB有明显的不同,包括电源的相数以及供电的方案。实在来自igor'sLAB的主编Igor Wallossek早就揭橥过他的见地,在Ada设计之初,NVIDIA考虑的仍旧是利用SAMSUNG 8N制程,以是给与板卡厂商的散热以及电路设计参考指南都因此600W散热规模以及供电规模呈现的,由于全体产品的方案确实须要几个月韶光,但是AMD的NAVI 31确定下来利用TSMC 5-6nm稠浊工艺制造后,NVIDIA估计是不淡定了,立即改变Ada的制程,直接转投TSMC 5nm改良版4N,确实TSMC 4N面对AMD确定的TSMC 5-6nm稠浊制程是存在上风的,同时由于一些市场计策问题,NVIDIA并没有向板卡厂商透露工艺变更事宜,直到AD102出来,NVIDIA关照板卡厂商RTX 4090的TGP和散热设计为450W才得到确认。
ASUS ROG Strix GeForce RTX 4090 OC
▲这时候板卡厂商改换方案已经来不及了,于是就用600W的电路设计+散热方案直接推出了RTX 4090的产品,可以理解成PG139-SU330公版参考设计的600W加强版。
NVIDIA Geforce RTX 4090 Founders Edition
▲实在对付NVIDIA自己的FE版本也是早早设计好了600W的电路PCB,便是PG139-SU330公版的600W变种加强版,但是上市时候利用了450W的散热模块,原来操持的三风扇FE散热方案可以移交到RTX 4090Ti上去了。
Palit GeForce RTX 4090 GameRock OC
▲在投片TSMC 4N之后NVIDIA在市场方面向板卡厂商出售方案的时候就完备转向了450W的PG139-SU330公版设计,包括供电套料都一并供应,并极力哀求厂商这样去做,缘故原由便是在面对未来的NAVI-31的时候,NVIDIA希望表现的是一个比对方精良的能耗比,而不是一个多烧了33%TGP功耗性能多出5%的产品,诸如Palit抑或PNY便是属于后期被NVIDIA方案为450W产品线的主推厂商。
以是这一代产品,PG139-SU330公版参考设计是600W版本还是450W版本,完备取决于NVIDIA参与生产设计的韶光线,在转投TSMC 4N之前,都是600W方案,在投了TSMC 4N之后都是450W方案。
那么是不是600W版本的PCB以及散热设计就会强很多呢?这取决于板卡厂商的惯性思维,由于SAMSUNG 8N制程Ampere的GPU核心供应给厂商的时候是存在分级的,分为30%的BIN0,60%的BIN1,10%的BIN2。这是由三星的良率问题决定,以是产生了BIN2这样的Sorting GPU核心,精良的核心会供应给核心AIC装备,比如御三家这些,以是御三家的旗舰版会比下贱厂家的核心在同样电压下BOOST到更高更夸年夜的频率,这让超公版PCB和散热设计变得非常有代价。但是TSMC 4N却不供应所谓的Sorting GPU核心,这次只有BIN1,没有BIN0和BIN2,每一家拿到的核心系统编制都基本同等,没有特殊精良的也没有特殊差的,这就让想做超公版的厂家特殊头疼,因此,大家看评测所理解的600W满载的效能也并没有特殊多的效能提升,能耗比完备没有上风。
测试平台电源适配
▲为了尽可能稳定有效的完成测试任务,电源这次利用了Seasonic Prime TX-1600
▲Seasonic Prime TX-1600包装
▲80PLUS钛金认证,电源原生支持两个PCIe5 12VHPWR供电接口。
▲开箱
▲附件百口福
▲线材包1
▲线材包2
▲PCIe5 12VHPWR供电线
▲PCIe5 12VHPWR供电接口部分
▲海韵的PCIe5 12VHPWR供电线直接定义为600W输出。
▲电源本体背面
▲电源本体正面
▲电源本体侧面
▲电源模组接口
▲45°视角
京东
Seasonic 海韵 PRIME-TX 钛金牌(94%) 全模组ATX电源 电脑电源 1600W3599元实时价格8小时前已更新去购买
测试平台
【CPU】: AMD Ryzen 7 5800X
【主板】: ASRock X570S PG Riptide
【内存】: Lexar THOR DDR4-3600 16GB X2(White)
【硬盘】: LEXAR NM800 1TB M.2 PCIe Gen 4X4 SSD
【显卡】: PNY RTX 4090 OC XLR8 Gaming Verto
【散热】: Thermalright Forzen Magic 240 ARGB
【机箱】: SilverStone RM42-502
【电源】: Seasonic TX-1600
【系统】: Windows 11 x64 WorkStation 21H2
【系统】: Ubuntu 18.04.6 x64
▲视角1
▲点亮的光效
基本情形▲GPUZ默认参数
▲闲时,利用HWINFO对GPU功耗、GPU热点温度、GPU温度以及显存结温进行了监控,可以创造:
功耗=14.834W,
GPU热点温度=45.8°C
GPU温度=36.9°C
显存结温=40°C
▲我们进行3DMARK Speed Way的压力测试,本测试一共20轮,我们在第17轮开始统计,榨出当前最高的TGP和温度并利用HWinfo监控。
▲运行3DMARK Speed Way压力测试是由于要一贯处于GPU 100%满载状态:
功耗=443.946W,
GPU热点温度=79.9°C
GPU温度=70.3°C
显存结温=80°C
这基本是目前现有手段能榨出的最大表现力。
▲回到HWINFO监控页面去复盘,理解一下这张卡的一些特性:
关于GPU功耗,最低9.133W,最高445.763W,基本解释这张卡的功耗区间,看起来被锁450W TGP。
GPU频率在待机时候稳定在210MHz,满载时候达到2820MHz。
显存频率在待机时候稳定在101.3MHz,满载时候达到2625.5MHz。
GPU过热限定=84°C,解释全体显卡的散热设计是为了把GPU温度压制在84°C以内。
GPU风扇1是三颗风扇中的旁边两颗并联,待机基本不转,测试时候转速最大达到1713RPM,但这只是风扇全速转速的49%。
GPU风扇2是三颗风扇中的中间一颗,在待机时候基本不转,测试时候转速最大达到1721RPM,但这只是风扇全速转速的49%。
▲想让风扇全速,利用PNY的VelocityX软件就可以做到。
▲将风扇这里的自动关闭,转速拉到100%即可达到最大转速3086RPM。
下面看一下超频效果,
▲超频之前跑了一个3DMARK TIME SPY EXTREME测试,GPU分数19472
▲随后我直接将GPU核心加了200MHz,
▲进行3DMARK TIME SPY EXTREME测试,GPU分数19912
▲HWINFO监控数据的GPU功耗依然牢牢被锁在450W以内。
▲比较一下两个测试,差异紧张是CPU核心频率boost从2790MHz越迁到2985MHz,实际功耗没有增加,温度也没有增加。以是也不用动辄对boost核心频率达到3000MHz的600W超级公版垂涎三尺,实在哪怕450W TGP的RTX 4090往上随便拉个200-250核心频率就随意可以达到3000MHz的boost核心频率。
▲这解释这次的AD102-300-A1核心在不增加功耗的情形下是留有一定余量的性能可以压榨的,但是空间不大,200-250MHz,一旦超过这个范围,就须要BIOS破除Maximum Power Limit 450W的限定。
▲关于RGB殊效,VelocityX供应了多种选择,下面展示几张我拍摄的灯光效果。
视频
▲基本情形部分测试到此结束。
比拟测试▲从左往右,依次是PNY RTX 4090 Verto、影驰RTX 3090 Ti星耀以及七彩虹RTX 3090火神
▲三款产品同比
▲厚度上PNY RTX 4090略厚,长度和影驰RTX 3090 Ti星耀基本同等。
DLSS3 测试▲NVIDIA GeForce RTX 40系列显卡的一大变革便是新增了对DLSS 3技能的支持,DLSS 3在前代DLSS2的根本上,通过(OFA)光流加速推断下一帧天生的目标画面,使传统CUDA算力得到极大的节省,让GPU在应对高分辨率实时渲染游戏时可以更加游刃有余,与不该用DLSS比较,理论上游戏性能的提升可高达4倍。
▲DLSS 3由于Frame Generation的加入,它的理论帧数性能能达到原来DLSS 2的双倍,这使得GeForce RTX 40系显卡能够以更小的压力用4K分辨率高画质运行所有支持DLSS 3的游戏,同时间隔流畅体验8K游戏也更进一步。
▲目前有超过35款游戏和运用宣告即将支持DLSS3。
DLSS3 测试-Cyberpunk 2077《Cyberpunk 2077》DLSS3设置
▲DLSS 3的干系测试利用《Cyberpunk 2077》完成,虽然选择游戏自带的BENCHMARK进行测试,但由于DLSS 3运用了新技能,当下贱戏自带的帧数记录功能并不能精准地记录下开启DLSS 3之后的游戏帧数。因此在DLSS 3游戏中,虽然利用游戏自带的BENCHMARK进行测试,但实际帧数以NVIDIA的FrameView工具为准。
▲开启光追测试,我们可以创造,开启DLSS 2之后的游戏性能帧数已经相称可不雅观,然而当开启DLSS 3之后,游戏性能在DLSS 2的根本上又提升了一大截,与关闭DLSS比较,在4K分辨率下开启DLSS 3质量可以带来170%的性能提升,2K分辨率下可以带来145%的性能提升。
DLSS比拟测试DLSS比拟测试-FAR CRY 6DLSS比拟测试-Shadow of the Tomb Raider
生产力测试
生产力测试环节利用了Puget Systems的三个测试脚本进行测试:
生产力测试-Adobe After Effects 22.4
▲本测试以Adobe After Effects 22.4为测试载体
▲以PugetBench for After Effects 0.95.2为工具基准进行测试
本测试涉及到了许多不同的项目,个中包括一个专用的“GPU 压力”测试,该测试旨在往 GPU 上施加尽可能多的负载,同时仍保持在某人在现实天下中可能实际实行的范围内。 在 After Effects 等运用程序中查看 GPU 性能常日是检讨 GPU 承受重负载的极度情形的情形,因此通过每个 GPU 的 After Effects 基准测试中看到的整体性能开始,GPU 分数是根据“GPU Stress”组合的性能打算得出的,该组合旨在将尽可能多的负载置于 GPU 上,同时最大限度地减少 CPU 作为瓶颈,可以很好地显示 After Effects 中不同 GPU 之间的最大性能增量。
GPU分数的基准因此NVIDIA GeForce RTX 3080 10GB为100分参考基准。
NVIDIA GeForce RTX 3080 10GB
GPU分数:100
▲测试数据汇总
生产力测试-Adobe Premiere Pro 22.6.1▲本测试以Adobe Premiere Pro 222.6.1为测试载体
▲以PugetBench for Premiere Pro 0.95.3为工具基准进行测试。
这个基准测试通过4K和8K分辨率以及29.97和59.94 FPS的各种编解码器来研究实时回放和导出性能。对付GPU测试利用专用的“重载GPU效果”单独向GPU施加只管即便多的压力,使其超出普通Premiere Pro用户的事情范围来进行测试。
测试的剪辑素材 (59.94 FPS)素材分辨率以及编码器包含:4K H.264 150mbps 8-bit (59.94FPS)、4K ProRes 422、4K RED、8K RED、8K H.265 100Mbps。
对付每种类型的测试素材,进行四种测试:
标准 - 两个 59.94FPS 片段串联,运用 Lumetri Color 效果
2x Forward - 四个 59.94FPS 剪辑,在 119.88FPS 序列中将 Lumetri 颜色设置为 200% 速率,以仿照以 2 倍速率播放时的性能。
4x Forward - 8 个 59.94FPS 剪辑,在 239.76FPS 序列中将 Lumetri 颜色设置为 400% 的速率,以仿照以 4 倍速率播放时的性能。
MultiCam - 在多机位序列中跨四六个轨道的多个剪辑。在“多相机”显示模式下测试播放。
这些测试都用于全回放分辨率的实时回放性能测试。
标准测试还利用“Youtube 2160p 4K 超高清”预设(H.264、4K、40mbps)以及导出到 4K ProRes 422HQ 8-bpc 来测试其导出性能。
关于GPU有一个“Heavy GPU Effects”测试,利用:
串联的 Twp ProRes 422 剪辑,每个剪辑之间有交叉溶解
高等效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur 和 VR Digital Glitch。
极致效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur、VR Digital Glitch 和 VR De-Noise。
通过导出到 ProRes 422HQ 来衡量性能。
GPU 分数基准因此NVIDIA GeForce RTX 3080 10GB为100分参考基准:
NVIDIA GeForce RTX 3080 10GB
GPU分数:100
▲测试数据汇总
生产力测试-DaVinci Resolve Studio 18.0.2▲本测试以BlackMagic DaVinci Resolve Studio 18.0.2为测试载体,以PugetBench for DaVinci Resolve 0.92.3为工具基准进行测试。
本基准测试紧张利用各种编解码器以 4K 和 8K(仅限扩展预设)分辨率、OpenFX 以及 Fusion 中的性能进行渲染。
测试的剪辑素材 (59.94 FPS)素材溯源自以下两家自媒体供应的样片:包含以下分辨率和编解码器:
4K H.264 150mbps 8-bit、4K ProRes 422、4K RED、8K RED以及8K H.265 100mbps
GPU 效果部分侧重于 OpenFX 和降噪,包含以下效果:
Temporal NR x3 - 2 Frames Better
Temporal NR - 2 Frames Better
Film Grain
Spatial NR - Better
Lens Blur x5
Lens Flare
Optical Flow - 50% Enhanced Better
Face Refinement
▲测试数据汇总
末了须要解释的是,本次测试的剪辑素材来自以下两家自媒体:
▲4K和8K RED剪辑视频来自老莱的事情室,这些剪辑也已转码以创建H.265和ProRes 422剪辑。Linus Media Group是老莱的公司,在YouTube上供应了盛行的 LinusTips和 TechLinked频道。
▲Neil Purcell是伦敦著名的照明拍照师,在广播电视领域拥有超过25年的履历。从事各种各样的作品;从戏剧到木偶,现场新闻和事实,儿童节目,灯光娱乐,真人秀,外部广播,重大体育赛事,音乐演唱会,盛行视频,企业电影和商业广告。图中Neil Purcell(灯光拍照师/拍照操作员)正在以他的松下 GH5 拍摄 4K H.264 素材。本次测试利用的4K H.264素材来源于他的剪辑作品。
深度学习RTX 4090 具有576个第4代Tensor核心 ,RTX 3090 Ti 具有336个第3代Tensor核心,RTX 3090 具有328个第3代Tensor核心,理论上RTX 4090的Tensor核心不仅有数量上的上风而且有迭代的上风。这对深度学习来说是个非常大的利好。不过RTX 4090实在太新了可能须要点韶光才能让深度学习的周边支持跟上,恰好CUDA Toolkit 11.8赶着发布了,以是直策应用了NVIDIA的NGC 容器系统进行测试。
▲测试系统
Ubuntu 22.04 Linux
NVIDIA Enroot 3.4
来自NVIDIA NGC 的容器化运用程序
TensorFlow 1.15.5 ML/AI 框架标签:nvcr.io/nvidia/tensorflow:22.09-tf1-py3
PyTorch 1.13.0a0 ML/AI 框架标签:nvcr.io/nvidia/pytorch:22.09-py3
深度学习-TensorFlow ResNet50▲ TensorFlow 1.15.5版本是 NVIDIA 掩护的 ,能供应更好的性能。基准是演习 100 Step的 ResNet 50 卷积神经网络 (CNN)。结果因此每秒处理的图象数来决定。精度可选择FP32 和 FP16 。每秒处理的图象数越多解释性能越好。
命令行:
CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp16CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp32
▲测试数据汇总
深度学习-PyTorch Transformer▲基准测试利用 PyTorch 1.13 在带有 CUDA 的 Wikitext-2 的神经网络上对Transformer 模型进行 6 epoch 的演习,完成韶光越短,解释性能越好。
命令行:
time CUDA_VISIBLE_DEVICES=0 python main.py --cuda --epochs 6 --model Transformer --lr 5 --batch_size 640
▲测试数据汇总
值得把稳的是PyTorch和TensorFlow的迭代支持很快,一些优化一定会持续跟进Ada构架进行优化的,以是预留了未来可期许的深度学习性能提升空间。
硬件兼容性实在我对测试平台不太追新,最紧张的问题便是怕不兼容,结果还是碰着了不兼容的情形,末了得到理解决:
测试平台我选用的是ASRock X570S PG Riptide主板以及AMD Ryzen 7 5800X,没有选用INTEL 12和13代平台以及AMD Ryzen 7000系列平台最紧张的缘故原由是由于有部分的测试在Ubuntu 18.04.6 LTS下进去,对付Linux平台而言,支持如上新平台发挥效能须要更新内核到5.17-5.22以上,存在一些未知且不可预测的可能性,求稳以是利用了成熟的平台。
▲ASRock X570S PG Riptide包装
▲ASRock X570S PG Riptide附件一览
▲ASRock X570S PG Riptide本体
▲安装AMD Ryzen 7 5800X,散热器选用的是Thermalright Forzen Magic 240 ARGB。
▲ Thermalright Forzen Magic 240 ARGB包装
▲Thermalright Forzen Magic 240 ARGB本体1
▲Thermalright Forzen Magic 240 ARGB本体2
▲SSD选择的比较稳健的LEXAR NM800 1TB M.2 PCIe Gen 4X4 ,为了提高兼容性选用了主流的IG5236主控+美光B47R NAND。
▲SSD本体正面
▲SSD本体背面
▲安装设备在M.2-1 CPU PCIe Lane槽位。
▲CrystalDiskMark 8.0.24的持续读写利用QD32T1的默认设置,随机读写利用QD32T16的条件,可以非常靠近官标所标识的UP TO的最大值:
Sequential Read [持续读取](Q=32,T=1) : 7459 MB/s 超越官标
Sequential Write [持续写入](Q=32,T=1) : 5738 MB/s 靠近官标
Random Read 4KiB [4K随机读取](Q=32,T=16) : 399K IOPS 靠近官标
Random Write 4KiB[4K随机写入] (Q=32,T=16) : 1013K IOPS 远超官标
评估了下,基本可以认为达到了官标的性能。
内存选择的是Lexar THOR DDR4-3600 16GB X2(White)
▲DRAM本体正面
▲DRAM摆拍2
▲上机
▲安装内存在DIMM 2和DIMM 4。
▲上机用台风看了下,美光F-Die,颗粒编号D8CJV,美光里的内部编号为MT40A2G8SA-062E:F,原生DDR4-3200的颗粒,SPD里有DDR4-3600 18-22-22-42 1.35V的XMP参数以及DDR4-3200 22-22-22-52 1.2V的JEDEC参数。
▲机箱选用的是一款事情站机箱SilverStone RM42-502
▲这是一款可以通过导轨直接上机柜的RACK机箱
▲支持240-280水冷。打开前门可以看到兼容水冷的风扇进风位
▲SilverStone RM42-502的特点是可以通过附件里面的转换件变成塔式事情站机箱
▲SilverStone RM42-502的塔式形态--开门
▲SilverStone RM42-502的塔式形态--关门,前门钥匙是事情站机箱的标配。
▲组装好硬件
问题一
▲第一件事情创造点不亮。。。。。。如图所示显示器无显示,但是机器运行则统统正常。
▲ASRock X570S PG Riptide这种上市一年多的成熟产品竟然必须须要更新2022年10月22日最新2.20版本BIOS才可以支持RTX 4090,以是当创造点不亮RTX 4090的时候不用慌,先去用别的显卡点亮系统升级一个最新的BIOS。
问题二▲第二个问题,要清楚SilverStone RM42-502是一个支持ETAX双路主板的事情站做事器机箱,不仅宽大且做工精良。
▲规格是430mm (W) x 176mm (H) x 468mm (D),宽度是430mm。
▲就这个规格的机箱,在安装了前置240水冷之后,塞进去331mm长度的PNY GeForce RTX 4090 24GB OC XLR8也已经比较紧凑了,机箱在不安装前置水冷情形下许可安装的显卡最大长度为426mm,一样平常普通水冷排厚度为27mm,12025规格水冷风扇厚度为25mm,安装完水冷仅剩下374mm的长度空间,依然足够装下目前在售的任意品牌型号的RTX 4090!
如果你正在为找一款适宜RTX 4090的做工精良的事情站机箱而烦恼,如果你能够接管无ARGB的机箱底细况的话,SilverStone RM42-502绝对是您精确的选择!
但是市情上大多数的ATX机箱显卡限定长度都在350mm以内,这意味着,如果你购买RTX 4090显示卡,显卡的长度决定了你是否须要改换一个更大的机箱。以是这时候长度更短的RTX 4090的机箱兼容适配性当然是更强的。
问题三▲第三个问题,如果利用了Seasonic TX-1600原配的12VHPWR线材进行安装,如果发生过度波折,还是有可能发生以下情形:
▲由于过度波折发生的线材接头脱落情形,
▲PCI-SIG组织早就通报了由于12VHPWR的线材由于太硬太粗的缘故原由在过度波折的时候造成接头松动乃至脱落,和显卡12VHPWR接头部分发生电阻值过高,发热严重终极造成12VHPWR烧毁的问题。
现在问题来了,机箱的能盖上侧板能容纳的最大显卡高度为156mm,而显卡本身的高度为136.8mm,如果要盖上侧板,就必须在19mm的空间内进行12VHPWR线材弯折,这实在还是有风险。对付海韵电源而言,实在还有终极办理方案来办理这个问题。
▲海韵为办理波折问题出品了一款新的12VHPWR模组线,符合PCIe 5.0供电标准,兼容ATX 3.0,利用16AWG高规格线径,耐高电流合金铜端子,可支持高达600W功率输出。电源直连显卡供电,可降落转接带来的故障风险,为玩家带来更安全稳定的供电方案。其余,该模组线采取了新的模组线材,压纹工艺如编织质感,比一样平常的模组线更优柔,更有利于玩家走线。
▲海韵这款12VHPWR模组线适配于其PRIME和FOCUS系列850W及以上型号,可选玄色或白色,但与其他品牌并不适配。如果玩家利用的是国行在保的海韵电源,每个电源SN可免费申请一次,得到这款12VHPWR模组线。
▲1000W及以上的海韵电源需供应RTX 40系列显卡的购买凭据,850W及以上的海韵电源需供应RTX 3090 Ti显卡的购买凭据,其余玩家须要供应一张电源与显卡的合照(电源SN清晰可见),默认发玄色,白色需备注。玩家可将干系资料发送到官方邮箱cn.support@seasonic.com免费申请,邮费自理,以顺丰到付寄出。
问题四▲第四个问题,第一批次NVIDIA配给显卡生产商的1组 16-Pin转4组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter,存在严重质量问题。igor'sLAB 揭橥了一项关于 Nvidia 12VHPWR 适配器的研究,不建议利用此适配器!
▲reddit有个帖子专门持续申报请示发生的转接线烧毁显卡供电接口事宜,且持续更新。到2022年10月30日为止因NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材烧毁显卡接口事宜为12例,均为TGP大于550W的RTX 4090。目前无法确定NVIDIA哀求近期发行的RTX 4090新版TGP功耗锁定为450W是否与此有关。
▲NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材统共有 4 根 14AWG 粗线分布在统共 6 个触点上,两条外部引线分别焊接到一个引脚上,中间的两条引线分别焊接到两个引脚上。
▲焊料底座是仅 0.2mm的薄铜底座,每根进线宽度为 2 mm,因此中间连接的每对宽度为4mm。
▲将一根乃至两根14AWG 电线焊接到它上面是活动的,波折情形下非常随意马虎造成脱落。
▲目前上市的大多数的RTX 4090都是在600W TGP下运行,在这电流强度下,由于波折导致的不稳定且活动的焊打仗点引脚电阻值上升,迅速烧毁显示卡以及转接线的12VHPWR接口部分。
▲由于早期的RTX 3090Ti配送的1组12-Pin转3组 8-Pin的供电排线利用了相同的设计,可能是由于450W TGP功耗输入电流较低并未报告烧毁RTX 3090Ti的情形,但是这次有用户害怕利用RTX 4090配送的16-Pin转4组 8-Pin的12VHPWR线材,转而利用RTX 3090Ti配送的12-Pin转3组 8-Pin的12VHPWR线材,一样发生了烧毁情形。目前的报告是两例。顺带说一下PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB™ TF目前是和RTX 3090Ti一样的450W TGP功耗设计。
总结由于手里没有其他的RTX 4090显示卡,以是同类比测试是无法进行的,本次评测紧张对上代的旗舰级显示卡做了明确的性能比对。
基于DLSS3游戏用场的玩家是非常值得升级RTX 4090的,而对付普通DLSS游戏用户而言,需求没有那么强烈,生产力环节诸如Adobe AR PR类的软件而言,升级情由并不充分,而对付达芬奇用户来说就非常值得升级,深度学习方面是绝对值得升级的,但是周边支持的完善可能须要点韶光。
截至发文,RTX 4090的价格从首发12999奔着16000去了,京东缺货,天猫缺货,倒不是商家囤货居奇,是由于9成的大厂订单都直送美国了,这就造成中国目前的缺货真空期,自然水涨船高。
至于PNY这张RTX 4090显示卡,性能中规中矩,由于Maximum Power Limit 被锁定在450W,以是在不能动电压的情形下超频所得到性能有限在2-3%附近,其长度适中且不浮夸的散热规模令人印象深刻,由于能担保兼容适配大多数的普通机箱,同时性能也足够压制450W TDP,49%的自动风扇掌握可以最大程度担保满载运行时候的静音效果,如果不破解Maximum Power Limit 实在也用不到100%的手动风扇设置。VelocityX软件的利用理念比较简约,大略暴力比较适宜快速上手,ARGB的光效加持也起到了画龙点睛的效果。
那么问题来了,这张卡的潜在客户群体在哪里?这张卡适宜对稳定度有一定哀求,且对机箱电源的兼容适配哀求比较高的用户,换句话说,在不想改换更高功率电源和更大规模机箱的条件下,客户有一个850W的电源,一个普通ATX的机箱,如果你要塞进去RTX 4090,除了NVIDIA创始者版本,PNY RTX 4090 OC XLR8 Gaming Verto便是最佳的选择了。当然条件是你须要有一个适宜RTX 4090的电源以及弯折不会烧毁的12VHPWR线材。
作者声明本文无利益干系,欢迎值友理性互换,和谐谈论~








