GPU 的狂热涌入论坛,PC 爱好者对显卡市场的发展同样感到惊异和震荡。因此,人们很随意马虎忘却,最新的产品所利用的芯片是有史以来最繁芜、最强大的家用电脑芯片。
接下来让我们深入研究下所有的供应商的架构,剥去层,看看什么是新的,他们有什么共同点,以及这些对普通用户意味着什么。
文章将紧张从以下几方面进行阐发对此:

整体 GPU 构造:从顶部开始
让我们从本文的一个主要方面开始——这不是一个性能比较。相反,我们将着眼于GPU内部的所有内容是如何安排的,通过查看统计数据和数字来理解AMD、英特尔和英伟达在设计图形处理器时的方法差异。
我们将从查看利用我们正在研究的架构的可用最大芯片的整体 GPU 组成开始。须要强调的是,英特尔的产品与 AMD 或 Nvidia 的目标市场不同,由于它在很大程度上是一款中档图形处理器。
这三种芯片不仅彼此之间,而且与利用以前架构的类似芯片在大小上都有很大不同。所有这些剖析纯粹是为了理解这三个处理器的底层到底是什么。在分解每个GPU的基本部分之前,我们将检讨总体构造——着色器核心、光芒跟踪能力、内存层次构造以及显示和媒体引擎。
AMD Navi 31按字母顺序排列,第一名是AMD的Navi 31,这是他们迄今公布的最大的RDNA 3驱动芯片。与Navi 21比较,我们可以看到他们之前的高端GPU的组件数量有了明显的增长。
AMD Navi 31 框图
着色器引擎 (SE) 包含更少的打算单元 (CU),从 200 个减少到 16 个,但现在统共有 6 个 SE——比以前多了两个。这意味着 Navi 31 拥有多达 96 个 CU,统共支配了 6144 个流处理器(SP)。AMD 已经对 RDNA 3 的 SP 进行了全面升级,我们将在本文后面先容这个问题。
每个着色引擎还包含一个专门处理栅格化的单元,一个用于三角形设置的原始引擎,32个渲染输出单元(rop)和两个256kB L1缓存。末了一个,现在是两倍的规模,但ROP本身仍旧保持不变。
AMD 也没有对光栅化器和原始引擎进行太多变动——所述 50% 的改进是针对全体芯片的,由于它的 SE 比 Navi 21 芯片多 50%。然而,SE 处理指令的办法发生了变革,例如更快地处理多个绘图命令和更好地管理流水线阶段,这该当会减少 CU 在连续实行另一项任务之前须要等待的韶光。
最明显的变革是在11月发布之前得到最多谣言和八卦的——GPU封装的Chiplet办法。凭借在该领域多年的履历,AMD选择这样做是合乎逻辑的,但这完备是出于本钱/制造的缘故原由,而不是性能。
我们将在本文后面对此进行更详细的研究,以是现在,让我们只关注哪些部分在哪里。在 Navi 31 中,内存掌握器及其干系的终极层缓存分区位于主处理器(GCD,图形打算芯片)周围的独立小芯片(称为 MCD 或内存缓存芯片)中。
由于须要供应更多 SE,AMD 也将 MC 数量增加了 50%,因此 GDDR6 全局内存的总总线宽度现在为 384 位。这次的 Infinity Cache 总量较少(96MB 对 128MB),但更大的内存带宽抵消了这一点。
英特尔 ACM-G10接下来是英特尔和ACM-G10芯片(以前称为DG2-512)。虽然这不是英特尔生产的最大的图形处理器,但却是英特尔最大的消费图形处理器。
ACM-G10芯片的框图是一个相称标准的安排,它看起来更像是Nvidia而不是AMD的。它共有8个渲染片,每个包含4个x核,共计512个向量引擎(英特尔ACM-G10芯片相称于AMD的流处理器和英伟达的CUDA核心)。
英特尔 ACM-G10 框图
每个渲染切片中还包含一个基本单元、光栅化器、深度缓冲处理器、32个纹理单元和16个ROP。乍一看,这个GPU看起来相称大,由于 256 个 TMU 和 128 个 ROP 比 Radeon RX 6800 或 GeForce RTX 2080 中的要多。
然而,AMD 的 RNDA 3 芯片包含 96 个打算单元,每个打算单元有 128 个 ALU,而 ACM-G10 的统共有 32 个 Xe 核心,每个核心有 128 个 ALU。因此,仅就 ALU 数量而言,英特尔的 Alchemist GPU 是 AMD 的三分之一。但正如我们稍后将看到的,ACM-G10 的大量芯片被交给了不同的数字运算单元。
与英特尔通过 OEM 供应商发布的第一款 Alchemist GPU比较,该芯片在组件数量和构造安排方面具有成熟架构的所有特色。
英伟达AD102我们用英伟达的AD102完成了对不同布局的开场概述,这是他们第一个利用Ada Lovelace架构的GPU。与它的前身安培GA102比较,它彷佛没有那么大的不同,只是大了很多。不管怎么说,的确如此。
英伟达利用图形处理集群(GPU)的组件层次构造,个中包含6个纹理处理集群(tpc),每个集群包含2个流多处理器(SMs)。这种安排并没有随着Ada而改变,但总数肯定有......
英伟达AD102框图
在完全的 AD102 芯片中,GPC 数量从 7 个增加到 12 个,因此现在统共有 144 个 SM,统共有 18432 个 CUDA 内核。与 Navi 31 中的 6144 个 SP 比较,这彷佛是一个高得离谱的数字,但 AMD 和 Nvidia 对它们的组件进行了不同的打算。
只管这大大简化了问题,一个Nvidia SM相称于一个AMD CU——都包含128个ALU。因此,Navi 31是英特尔ACM-G10的两倍(只打算ALU), AD102则是3.5倍。
这便是为什么在芯片的规模如此明显不同的情形下,对它们进行任何直接的性能比较都是不公正的。然而,一旦它们进入显卡,定价和发卖,情形就完备不同了。
但是我们可以比较的是三款处理器中最小的重复部分。
着色器核心:进入 GPU 的大脑
从全体处理器的概览,现在让我们深入芯片的核心,看看处理器的基本数字运算部分:着色器核心。
这三家制造商在描述他们的芯片时利用了不同的术语和短语,特殊是在谈到他们的概述图时。以是在这篇文章中,我们将利用我们自己的图像,利用共同的颜色和构造,这样就更随意马虎看出什么是相同的,什么是不同的。
AMD RDNA 3AMD 在 GPU 的着色部分中最小的统一构造称为双打算单元(DCU)。在某些文档中,它仍称为事情组处理器 (WGP),而其他文档则将其称为打算单元对。
请把稳,如果这些图表中没有显示某些内容(例如常量缓存、双精度单元),这并不虞味着它们不存在于体系构造中。
在很多方面,整体布局和构造元素与 RDNA 2 没有太大变革。两个打算单元共享一些缓存和内存,每个打算单元包含两组 32 个流处理器 (SP)。
第 3 版的新功能是每个 SP 现在包含的算术逻辑单元 (ALU) 因此前的两倍。现在每个 CU 有两组 SIMD64 单元,每组有两个数据端口——一个用于浮点、整数和矩阵运算,另一个仅用于浮点数和矩阵。
AMD 确实为不同的数据格式利用单独的 SP——RDNA 3 中的打算单元支持利用 FP16、BF16、FP32、FP64、INT4、INT8、INT16 和 INT32 值的操作。
另一个主要的新功能是 AMD 所谓的 AI 矩阵加速器的涌现。
与我们很快就会看到的英特尔和 Nvidia 的架构不同,它们不作为单独的单元——所有矩阵运算都利用 SIMD 单元,任何此类打算(称为 Wave Matrix Multiply Accumulate,WMMA)将利用整组 64 ALU。
在撰写本文时,AI 加速器的确切性子尚不清楚,但它可能只是与处理指令和所涉及的大量数据干系的电路,以确保最大吞吐量。在他们的Hopper 架构中,它可能具有与 Nvidia 的 Tensor Memory Accelerator 类似的功能。
与 RDNA 2 比较,变革相对较小——旧架构也可以处理 64 线程波前(别号 Wave64),但这些是在两个周期内发布的,并且在每个打算单元中都利用了两个 SIMD32 块。现在,这统统都可以在一个周期内完成,并且只利用一个 SIMD 块。
在之前的文档中,AMD 表示 Wave32 常日用于打算和顶点着色器(也可能是光芒着色器),而 Wave 64 紧张用于像素着色器,驱动程序相应地编译着色器。因此,转向单周期 Wave64 指令问题将为严重依赖像素着色器的游戏供应推动力。
然而,所有这些额外的电力须要精确利用,以充分利用它。这是所有GPU架构的真实情形,为了做到这一点,它们都须要大量的线程负载(这也有助于隐蔽与DRAM干系的固有延迟)。
因此,随着ALU的更加,AMD推动了程序员尽可能多地利用指令级并行的需求。这在图形领域并不新鲜,但RDNA相对付AMD的老GCN架构的一个显著上风是,它不须要那么多线程来达到充分利用。考虑到当代渲染在游戏中的繁芜程度,开拓者在编写着色器代码时将有更多的事情要做。
英特尔Alchemist
现在让我们转向英特尔,看看 Alchemist 架构中的 DCU 等效项,称为Xe Core(我们将其缩写为 XEC)。乍一看,与 AMD 的构造比较,这些看起来绝对弘大。
RDNA 3中的单个DCU包含4个SIMD64块,而Intel的XEC包含16个SIMD8单元,每个单元由自己的线程调度器和调度系统管理。和AMD的流处理器一样,在《炼金师》中所谓的向量引擎可以处理整数和浮点数据格式。虽然不支持FP64,但这在游戏中并不是什么大问题。
英特尔一贯利用相对较窄的 SIMD——在 Gen11 之类的产品中利用的 SIMD 只有 4 个宽度(即同时处理 4 个线程),而在第 12 代中宽度仅翻了一番(例如,在他们的 Rocket Lake CPU 中利用)。
但考虑到游戏行业多年来一贯习气利用 SIMD32 GPU,因此游戏也相应地进行了编码,因此保留窄实行块的决定彷佛揠苗助长。
AMD 的 RDNA 3 和 Nvidia 的 Ada Lovelace 的处理块可以在一个周期内发出 64 或 32 个线程,而英特尔的架构须要 4 个周期才能在一个 VE 上实现相同的结果——因此每个 XEC 有 16 个 SIMD 单元。
然而,这意味着如果游戏没有以确保 VE 被完备占用的办法进行编码,则 SIMD 和干系资源(缓存、带宽等)将处于闲置状态。英特尔Arc 系列显卡基准测试结果的一个共同主题是,它们每每在更高的分辨率和/或具有许多繁芜的当代着色器例程的游戏中表现更好。
这部分是由于高度的单位细分和资源共享所造成的。Chips and Cheese网站的微基准剖析显示,只管有大量的ALU,但该架构仍难以实现适当的利用。
再来看看XEC的其他方面,目前还不清楚0级指令缓存有多大,但AMD的是4路指令缓存(由于它做事于4个SIMD块),英特尔的必须是16路指令缓存,这增加了缓存系统的繁芜性。
英特尔还选择为处理器供应专用的矩阵运算单元,每个向量引擎一个单元。有这么多单位意味着裸片的一个主要部分是专用于处理矩阵数学。
AMD利用DCU的SIMD单元来做到这一点,而Nvidia每SM有四个相对较大的张量/矩阵单元,英特尔的方法彷佛有点过分,由于他们有一个单独的架构,称为Xe-HP,用于打算运用。
另一个奇怪的设计彷佛是处理块中的加载/存储(LD/ST)单元。在我们的图中没有显示,它们管理来自线程的内存指令,在寄存器文件和L1缓存之间移动数据。Ada Lovelace和安培一样,每个SM分区有四个,统共有16个。RDNA 3也和它的前身一样,每个CU都有专门的LD/ST电路作为纹理单元的一部分。
英特尔的Xe-HPG演示显示,每个XEC只有一个LD/ST,但实际上,它可能由内部更多的独立单元组成。然而,在OneAPI的优化指南中,有一个图表表明LD/ST每次循环一个注册文件。如果是这种情形,那么Alchemist将始终努力实现最大的缓存带宽效率,由于不是所有文件都在同一韶光被做事。
英伟达 Ada Lovelace末了一个须要关注的处理块是英伟达的流媒体多处理器(SM)——DCU/XEC的GeForce版本。这个构造与2018年的图灵架构比较并没有太大的变革。事实上,它和安培险些千篇一律。
一些单元已经被调度以提高它们的性能或功能集,但在大多数情形下,没有太多的新东西可以评论辩论。实际上,可能会有,但众所周知,英伟达不愿透露太多其芯片的内部操作和规格。英特尔供应了更多的细节,但这些信息常日隐蔽在其他文档中。
但是为了总布局造,SM被分成四个分区。每个处理器都有自己的L0指令缓存、线程调度器和调度单元,以及与SIMD32处理器配对的64 kB寄存器文件部分。
就像在AMD的RDNA 3中一样,SM支持双发出指令,每个分区可以并发处理两个线程,一个利用FP32指令,另一个利用FP32或INT32指令。
Nvidia 的 H100 GPU 利用他们的 Hopper 架构
英伟达的张量内核现在是在他们的第四次修订,但这一次,唯一值得把稳的变革是包括FP8变压器引擎从他们的Hopper芯片-原始吞吐量数据保持不变。
加入低精度浮点格式意味着GPU该当更适宜AI演习模型。张量核心仍旧供应了安培的稀疏特性,这可以供应高达两倍的吞吐量。
另一个改进在于光流加速器(OFA)引擎(没有在我们的图表中显示)。该电路产生光流场,用作DLSS算法的一部分。在安培中,OFA的性能是OFA的两倍,额外的吞吐量被用于他们的最新版本的临时抗锯齿升频器DLSS 3。
DLSS 3已经面临了相称多的批评,紧张环绕两个方面:DLSS天生的帧不是“真实的”,该过程增加了额外的渲染链延迟。第一种方法并非完备无效,由于该系统首先让GPU渲染两个连续帧,将它们存储在内存中,然后利用神经网络算法确定中间帧的样子。
然后,当前链返回到第一个呈现的帧并显示该帧,然后是dss帧,然后是呈现的第二个帧。由于游戏引擎还没有为中间帧循环,以是屏幕会在没有任何潜在输入的情形下刷新。由于两个连续的帧须要被停息,而不是被呈现,任何已经为那些帧轮询的输入也将被停息。
DLSS 3 是否会变得盛行或司空见惯还有待不雅观察。
虽然Ada的SM和安培非常相似,但RT核心有明显的变革,我们将很快办理这些问题。现在,让我们总结一下AMD、Intel和Nvidia的GPU重复构造的打算能力。
处理块比较
对付标准数据格式,我们可以通过查看每个时钟周期的操作数量来比较SM、XEC和DCU功能。请把稳,这些都是峰值数据,在现实中不一定能实现。
英伟达的数据在安培之后并没有改变,而RDNA 3的数据在某些领域翻了一番。只管《炼金术士》是在另一个层面上的矩阵操作,但这些都是峰值理论值的事实该当再次强调。
考虑到英特尔的图形部门严重依赖于数据中央和打算,就像英伟达一样,看到架构将如此多的die空间用于矩阵运算就不足为奇了。短缺FP64功能并不是问题,由于这种数据格式在游戏中并没有真正利用过,并且功能呈现在他们的Xe-HP架构中。
在矩阵/张量运算方面,Ada Lovelace和Alchemist理论上比RDNA 3更强,但由于我们关注的是紧张用于游戏事情负载的GPU,这些专用单元紧张只是为涉及DLSS和XeSS的算法供应加速——这些算法利用卷积自编码器神经网络(CAENN),扫描图像探求工件并纠正它们。
AMD的韶光上标器(FidelityFX超分辨率,FSR)不该用CAENN,由于它紧张基于Lanczos重采样方法,然后通过DCUs处理一些图像校正例程。然而,在RDNA 3发布中,简要先容了下一个版本的FSR,引用了一个名为流体运动帧的新功能。由于FSR 2.0的性能提升高达两倍,普遍的共识是,这可能涉及到帧天生,就像DLSS 3一样,但这是否涉及到任何矩阵操作尚不清楚。
现在每个人都可以进行光芒追踪
随着他们的Arc显卡系列的推出,利用了Alchemist架构,英特尔加入了AMD和英伟达的行列,为图形中利用射线追踪的各种算法供应专用加速器。Ada和RNDA 3都包含了显著更新的RT单元,以是有必要看看有什么新的和不同的。
从AMD开始,他们的射线加速器最大的变革是增加硬件来改进边界卷层次构造(BVH)的遍历。在3D天下中,这些数据构造用于加速确定光芒击中的表面。
在RDNA 2中,所有这些事情都是通过打算单元处理的,并且在一定程度上仍旧如此。但是,对付DXR(微软的射线跟踪API),有对射线标志管理的硬件支持。
利用这些可以大大减少BVH须要被遍历的次数,减少缓存带宽和打算单元的总体负载。从实质上说,AMD一贯专注于提高他们在之前架构中引入的系统的整体效率。
此外,硬件已经更新,以改进框排序(使遍历更快)和剔除算法(跳过测试空盒)。加上缓存系统的改进,AMD表示,在相同的时钟速率下,与RDNA 2比较,射线跟踪性能提高了80%。
然而,在利用光芒追踪的游戏中,此类改进并没有转化为每秒增加 80% 的帧数——这些情形下的性能受许多成分影响,RT 单元的功能只是个中之一。
由于英特尔是光芒追踪游戏的新手,因此没有任何改进。相反,我们只是被奉告他们的 RT 单元处理射线和三角形之间的 BVH 遍历和相交打算。这使得它们更类似于 Nvidia 的系统而不是 AMD 的系统,但是关于它们的可用信息并不多。
但我们知道每个 RT 单元都有一个未指定大小的缓存用于存储 BVH 数据和一个单独的单元用于剖析和排序光芒着色器线程,以提高 SIMD 利用率。
每个 XEC 与一个 RT 单元配对,每个渲染切片统共有四个。在游戏中启用光芒追踪的 A770 的一些早期测试表明,无论英特尔采取何种构造,Alchemist 在光芒追踪方面的整体能力至少与 Ampere 芯片一样好,并且比 RDNA 2 型号好一点。
但让我们再次重申,光芒追踪也对着色核心、缓存系统和内存带宽施加了沉重压力,因此无法从此类基准测试中提取 RT 单元性能。
对付 Ada Lovelace 架构,Nvidia 进行了许多变动,与 Ampere 比较,Nvidia 对性能提升提出了相称大的哀求。用于光芒-三角形相交打算的加速器据称具有两倍的吞吐量,并且非不透明表面的 BVH 遍历现在听说速率是原来的两倍。后者对付利用带有 alpha 通道(透明度)的纹理的工具很主要,例如,树上的叶子。
当射线击中这种表面的全透明部分时,不应该产生撞击的结果——射线该当直接穿过。然而,在当前的游戏中,为了精确地确定这一点,须要处理多个其他着色器。英伟达的新不透明度微舆图引擎将这些表面分解成更多的三角形,然后确定到底发生了什么,减少了所需的光芒着色器的数量。
Ada的射线跟踪能力的两个进一步增加是BVHs的构建韶光和内存占用的减少(分别声称快了10倍和小了20倍),以及为射线着色看重新排序线程的构造,供应了更好的效率。然而,前者不须要开拓者改变软件,后者目前只能通过Nvidia的API访问,以是它对目前的DirectX 12游戏没有好处。
当我们测试 GeForce RTX 4090 的光芒追踪性能时,启用光芒追踪后帧率的均匀低落略低于 45%。利用 Ampere 驱动的 GeForce RTX 3090 Ti,低落了 56%。然而,这种改进不能完备归因于 RT 内核的改进,由于 4090 的着色吞吐量和缓存比以前的型号大得多。
我们还没有看到 RDNA 3 的光芒追踪改进有何不同,但值得把稳的是,没有一家 GPU 制造商期望 RT 被孤立地利用——即仍旧须要利用升级来实现高帧费率。
光芒追踪的粉丝可能会有些失落望,由于新一轮的图形处理器在这一领域没有取得任何重大进展,但自 2018 年 Nvidia 的 Turing 架构首次涌现以来已经取得了很大进展.
内存:推动数据高速公路
GPU 处理数据的办法与其他芯片不同,让 ALU 吸收数据对其性能至关主要。在 PC 图形处理器的早期,内部险些没有缓存,全局内存(全体芯片利用的 RAM)是非常慢的 DRAM。纵然就在 10 年前,情形也没有那么好。
因此,让我们深入理解当前的情形,从 AMD 在其新架构中的内存层次构造开始。自第一次迭代以来,RDNA 利用了繁芜的多级内存层次构造。最大的变革发生在去年,当时在 GPU 中添加了大量的 L3 缓存,在某些型号中高达 128MB。
第三轮的情形仍旧如此,但有一些细微的变革。
寄存器文件现在增大了50%(为了应对alu的增加,它们必须这样做),前三层缓存现在都变大了。L0和L1的大小增加了一倍,L2缓存高达2MB,在Navi 31中统共为6MB。
L3 缓存实际上已缩小到 96MB,但这是有充分情由的——它不再位于 GPU 芯片中。我们将在本文的后面部分详细谈论这个方面。
由于不同高速缓存级别之间的总线宽度更宽,整体内部带宽也更高。逐个时钟,L0 和 L1 之间多出 50%,L1 和 L2 之间增加相同。但最大的改进是在 L2 和外部 L3 之间——它现在统共宽了 2.25 倍。
Radeon RX 6900 XT中利用的 Navi 21的 L2 到 L3 总峰值带宽为 2.3 TB/s;由于利用了 AMD 的 Infinity 扇出链接, Radeon RX 7900 XT中的 Navi 31 将其提高到 5.3 TB/s。
将 L3 缓存与主芯片分开确实会增加延迟,但这被 Infinity Fabric 系统利用更高时钟所抵消——总体而言,与 RDNA 2 比较,L3 延迟韶光减少了 10%。
RDNA 3 仍旧设计为利用 GDDR6,而不是速率稍快的 GDDR6X,但高真个 Navi 31 芯片多了两个内存掌握器,将全局内存总线宽度增加到 384 位。
AMD 的缓存系统肯定比英特尔和 Nvidia 的更繁芜,但Chips and Cheese对 RDNA 2 的微基准测试表明它是一个非常高效的系统。延迟很低,它供应了 CU 达到高利用率所需的后台支持,因此我们可以期待 RDNA 3 中利用的系统也是如此。
英特尔的内存层次构造轻微大略一些,紧张是一个两层系统(忽略较小的缓存,例如常量缓存)。没有 L0 数据缓存,只有 192kB 的 L1 数据和共享内存。
与 Nvidia 一样,此缓存可以动态分配,个中最多 128kB 可用作共享内存。此外,还有一个单独的 64kB 纹理缓存(图中未显示)。
对付设计用于中端市场显卡的芯片(A770 中利用的 DG2-512 ) ,L2 缓存非常大,统共有 16MB。数据宽度也适当大,每个时钟统共 2048 字节,位于 L1 和 L2 之间。该缓存包含八个分区,每个分区做事于一个 32 位 GDDR6 内存掌握器。
然而,剖析表明,只管有丰富的缓存和可用带宽,但 Alchemist 架构并不是特殊善于充分利用它们,它须要具有高线程数的事情负载来粉饰其相对较差的延迟。
Nvidia 保留了与 Ampere 相同的内存构造,每个 SM 都有 128kB 的缓存,充当 L1 数据存储、共享内存和纹理缓存。可用于不同角色的数量是动态分配的。目前还没有关于 L1 带宽的任何变革的,但在 Ampere 中,它是每个 SM 每个时钟 128 字节。Nvidia 从未明确解释这个数字是累积的、结合读写的,还是仅针对一个方向的。
如果 Ada 至少与 Ampere 相同,那么所有 SM 的总 L1 带宽是每个时钟 18 kB 的巨大带宽——远远大于 RDNA 2 和 Alchemist。
但必须再次强调,这些芯片不能直接比较,由于英特尔的定价和营销是作为中档产品进行的,而 AMD明确表示 Navi 31 从未设计用于与 Nvidia 的 AD102 竞争。它的竞争对手是 AD103,它比 AD102 小得多。
内存层次构造的最大变革是二级缓存在一个完全的 AD102 裸片中膨胀到 96MB——是其前身 GA102 的 16 倍。与英特尔的系统一样,L2 被分区并与 32 位 GDDR6X 内存掌握器配对,以实现高达 384 位的 DRAM 总线宽度。
AD102 的 L2 缓存大小在数据中央 GPU 中名列前茅
较大的缓存大小常日比较小的缓存具有更长的延迟,但由于时钟速率的提高和总线的一些改进,Ada Lovelace 显示出比 Ampere更好的缓存性能。
如果我们比较这三个别系,英特尔和 Nvidia 对 L1 缓存采取相同的方法——它可以用作只读数据缓存或打算共享内存。在后者的情形下,须要通过软件明确指示 GPU 以这种格式利用它,并且数据仅在利用它的线程处于活动状态时保留。这增加了系统的繁芜性,但它对打算性能产生了有用的提升。
在 RDNA 3 中,“L1”数据缓存和共享内存被分成两个 32kB L0 向量缓存和一个 128kB 本地数据共享。AMD 所说的 L1 缓存实际上是一组四个 DCU 和 L2 缓存之间的共享垫脚石,用于只读数据。
虽然缓存带宽都没有 Nvidia 的那么高,但多层方法有助于办理这个问题,尤其是当 DCU 未得到充分利用时。
高端卡有很多 DRAM,但速率仍旧相对较慢
巨大的处理器级缓存系统常日不是 GPU 的最佳选择,这便是为什么我们在以前的架构中没有看到超过 4 或 6MB,但 AMD、英特尔和 Nvidia 在 GPU 中都有大量缓存的缘故原由末了一层是为了应对 DRAM 速率相对缺少增长的情形。
向 GPU 添加大量内存掌握器可以供应充足的带宽,但代价是芯片尺寸和制造开销增加,而且 HBM3 等替代方案的利用本钱要高得多。
我们还没有看到 AMD 的系统终极表现如何,但他们在 RDNA 2 中的四层方法与 Ampere 比较表现良好,并且比英特尔的好得多。然而,随着 Ada 封装更多的 L2,竞争不再那么大略。
芯片封装和工艺节点:构建发电厂的不同办法
AMD、英特尔和英伟达都有一个共同点——它们都利用台积电来制造它们的 GPU。
AMD在Navi 31中的GCD和MCD利用了两种不同的节点,前者利用N5节点制作,后者利用N6(N7的增强版)制作。英特尔还在其所有 Alchemist 芯片中利用 N6。对付 Ampere,Nvidia 利用三星的旧 8nm 工艺,但对付 Ada,他们又切换回台积电及其 N4 工艺,这是 N5 的变体。
N4 拥有所有节点中最高的晶体管密度和最佳的性能功率比,但当 AMD 推出 RDNA 3 时,他们强调只有逻辑电路的密度有显著增加。
SRAM(用于高速缓存)和仿照系统(用于内存、系统和其他旗子暗记电路)的缩小幅度相对较小。再加上新工艺节点的每片晶圆价格上涨,AMD 决定利用稍旧且更便宜的 N6 来制造 MCD,由于这些小芯片紧张是 SRAM 和 I/O。
就裸片尺寸而言,GCD 比 Navi 21 小 42%,为 300 mm2。每个 MCD 仅为 37mm2,因此 Navi 31 的组合裸片面积与其前身大致相同。AMD 只公布了所有小芯片的合并晶体管数量,但这款新 GPU 的数量为 580 亿,是他们有史以来“最大的”消费类图形处理器。
为了将每个 MCD 连接到 GCD,AMD 利用了他们所谓的高性能扇出——密集的走线,占用的空间非常小。Infinity Links——AMD 专有的互连和旗子暗记系统——运行速率高达 9.2Gb/s,每个 MCD 的链路宽度为 384 位,MCD 到 GCD 的带宽达到 883GB/s(双向)。
对付单个 MCD,这相称于高端显卡的全局内存带宽。Navi 31 中有全部六个,L2 到 MCD 的总带宽达到 5.3TB/s。
与传统的单片芯片比较,利用繁芜的扇出意味着裸片封装的本钱会更高,但该过程是可扩展的——不同的 SKU 可以利用相同的 GCD,但利用不同数量的 MCD。较小尺寸的单个小芯片芯片该当会提高晶圆良率,但没有迹象表明 AMD 是否在 MCD 的设计中加入了任何冗余。
如果没有,则意味着任何小芯片在 SRAM 中存在毛病,这会阻挡内存阵列的该部分被利用,那么它们将不得不为低端型号 SKU 装箱或根本不该用。
到目前为止,AMD 只发布了两款 RDNA 3 显卡(Radeon RX 7900 XT 和 XTX),但在这两种型号中,MCD 各有 16MB 缓存。如果下一轮 Radeon 卡采取 256 位内存总线和 64MB 的 L3 缓存,那么它们也将须要利用“完美”的 16MB 芯片。
然而,由于它们的面积非常小,单个 300 毫米晶圆可能会产生超过 1500 个 MCD。纵然个中的 50% 必须报废,这仍旧足以供应 125 个 Navi 31 封装。
我们还须要一些韶光才能确定 AMD 设计的实际本钱效益如何,但该公司现在和将来都完备致力于利用这种方法,只管仅限于更大的 GPU。Budget RNDA 3 型号的缓存数量要少得多,将连续利用单片制造方法,由于以这种办法制造它们更具本钱效益。
英特尔的 ACM-G10 处理器为 406mm2,晶体管总数为 217 亿个,在组件数量和芯片面积方面介于 AMD 的 Navi 21 和 Nvidia 的 GA104 之间。
这实际上使它成为一个相称大的处理器,这便是为什么英特尔选择 GPU 的市场领域彷佛有些奇怪。Arc A770显卡利用完全的 ACM-G10 芯片,与 Nvidia 的 GeForce RTX 3060等同类产品竞争,后者利用的芯片尺寸和晶体管数量只有英特尔的一半。
那么为什么这么大呢?有两个可能的缘故原由:16MB 的 L2 缓存和每个 XEC 中的大量矩阵单元。拥有前者的决定是合乎逻辑的,由于它减轻了环球内存带宽的压力,但后者很随意马虎被认为对付它所发卖的部门来说过多。RTX 3060 有 112 个Tensor 核心,而 A770 有 512 个 XMX 单元。
英特尔的另一个奇怪选择是利用 TSMC N6 来制造 Alchemist 裸片,而不是他们自己的举动步伐。关于此事的官方声明列举了本钱、晶圆厂产能和芯片事情频率等成分。
这表明英特尔的同等生产举动步伐(利用更名后的英特尔 7 节点)无法知足预期需求,其 Alder 和 Raptor Lake CPU 霸占了大部分产能。
他们会将 CPU 输出的相对低落,以及这将如何影响收入,与他们利用 Alchemist 得到的收益进行比较。简而言之,最好是付钱给台积电来制造它的新 GPU。
在 AMD 利用其多芯片专业知识并开拓新技能来制造大型 RDNA 3 GPU 的地方,Nvidia 坚持为 Ada 系列产品采取单片设计。这家 GPU 公司在制造超大型处理器方面拥有丰富的履历,只管 608mm2的 AD102 并不是其发布的物理尺寸最大的芯片(该名誉归于 826mm2的GA100 )。
然而,Nvidia 拥有 763 亿个晶体管,其组件数量远远领先于迄今为止所见的任何消费级 GPU。
比较之下,用于GeForce RTX 3080及以上的GA102彷佛很轻,只有268亿。SM数量增长了71%,L2缓存数量增长了1500%。
像这样大而繁芜的芯片总是难以实现完美的晶圆良率,这便是为什么以前的高端 Nvidia GPU 催生了大量的 SKU。常日,随着新架构的发布,他们的专业显卡系列(例如 A 系列、Tesla 等)会首先发布。
当安培发布时,GA102在发布时涌如今两莳花费级卡中,并终极在14种不同的产品中找到了归属。到目前为止,英伟达只在两款产品中利用了AD102: GeForce RTX 4090和RTX 6000。不过,后者自去年9月上市以来一贯无法购买。
RTX 4090 利用的裸片朝向合并过程的最佳端,禁用了 16 个 SM 和 24MB 的二级缓存,而 RTX 6000 仅禁用了两个 SM。这让人不禁要问:别的的die在哪里?
但由于没有其他产品利用 AD102,我们只能假设 Nvidia 正在储备它们,只管其他产品的用场尚不清楚。
该架构推出两个月后,仍旧只有两张卡在利用它
GeForce RTX 4080利用AD103,它有 379mm2和 459 亿个晶体管,完备不像它的大哥——更小的裸片(80 个 SM,64MB L2 缓存)该当会带来更好的良率,但同样只有一个利用它的产品。
他们还发布了另一款 RTX 4080,一款利用更小的 AD104,但由于受到的批评太多,他们在发布时取消了。估量该 GPU 现在将用于启动RTX 4070 系列。
Nvidia 显然有大量基于 Ada 架构的 GPU,但彷佛也不太乐意出货。缘故原由之一可能是他们正在等待 Ampere 供电的显卡清空货架。另一个是它主导着一样平常用户和事情站市场,并且可能以为它现在不须要供应任何其他东西。
但鉴于 AD102 和 103 供应的原始打算能力的显著提高,Ada 专业卡如此之少有点令人费解——该行业总是渴望得到更多的处理能力。
超级明星 DJ:显示和媒体引擎
当谈到 GPU 的媒体和显示引擎时,与 DirectX 12 功能或晶体管数量等方面比较,他们常日会采取后台营销方法。但随着游戏流媒体行业产生数十亿美元的收入,我们开始看到更多的努力来开拓和推广新的显示功能。
对付 RDNA 3,AMD 更新了许多组件,最值得把稳的是对 DisplayPort 2.1(以及 HDMI 2.1a)的支持。鉴于监督 DisplayPort 规范的组织 VESA 在几个月前才发布 2.1 版本,GPU 供应商如此迅速地采取该系统是一个不屈常的举动。
新显示引擎支持的最快 DP 传输模式是 UHBR13.5,最高 4 通道传输速率可达 54 Gbps。这对付 4K 分辨率、144Hz 刷新率、没有任何压缩、标准时序来说已经足够了。
利用 DSC(显示流压缩),DP2.1 连接许可高达 4K@480Hz 或 8K@165Hz——与 RDNA 2 中利用的 DP1.4a 比较有了显著改进。
英特尔的 Alchemist 架构具有带 DP 2.0(UHBR10,40 Gbps)和 HDMI 2.1 输出的显示引擎,但并非所有利用该芯片的 Arc 系列显卡都可以利用最大功能。
虽然 ACM-G10 并非针对高分辨率游戏,但利用最新的显示器连接规格意味着可以在没有任何压缩的情形下利用电竞显示器(例如 1080p、360Hz)。芯片可能无法在这类游戏中呈现如此高的帧率,但至少显示引擎可以。
随着刷新率的攀升,须要更快的显示连接
AMD 和英特尔对 DP 和 HDMI 中的快速传输模式的支持是您期望从全新架构中得到的那种东西,因此 Nvidia 选择不与 Ada Lovelace 这样做有点不折衷。
AD102 的所有晶体管(险些与 Navi 31 和 ACM-G10 加在一起相同)仅具有带 DP1.4a 和 HDMI 2.1 输出的显示引擎。对付 DSC,前者对付 4K@144Hz 来说已经足够好了,但是当竞争对手在没有压缩的情形下支持它时,这显然是一个错失落的机会。
GPU 中的媒体引擎卖力视频流的编码和解码,所有三个供应商在其最新架构中都具有丰富的功能集。
在 RDNA 3 中,AMD 为 AV1 格式添加了完全的同步编码/解码(仅在之前的 RDNA 2 中解码)。关于新媒体引擎的信息不多,除了它可以同时处理两个 H.264/H.265 流,AV1 的最大速率为 8K@60Hz。AMD 还简要提到了“AI 增强型”视频解码,但没有供应更多细节。
英特尔的 ACM-G10 具有类似的功能范围,可用于 AV1、H.264 和 H.265 的编码/解码,但与 RDNA 3 一样,细节非常少。对 Arc 台式机显卡中第一批 Alchemist 芯片的一些早期测试表明,媒体引擎至少与 AMD 和 Nvidia 在其先前架构中供应的媒体引擎一样好。
Ada Lovelace 效仿 AV1 编码和解码,Nvidia 声称新系统的编码效率比 H.264 高 40%——表面上看,利用新格式时视频质量提高 40%。
高端 GeForce RTX 40 系列显卡将配备带有两个 NVENC 编码器的 GPU,让您可以选择以 60Hz 编码 8K HDR 或改进视频导出的并行化,每个编码器同时处理半帧。
有了更多关于系统的信息,就可以进行更好的比较,但是由于媒体引擎仍旧被视为与渲染和打算引擎的不良关系,我们将不得不等到每个供应商都将其最新架构的卡上架,在我们进一步审查问题之前。
GPU 的下一步是什么?
台式机 GPU 市场上已经有 3 家供应商了,很明显,每家都有自己的图形处理器设计方法,只管英特尔和 Nvidia 的思维办法相似。
对他们来说,Ada 和 Alchemist 有点像万事通,可用于各种游戏、科学、媒体和数据事情负载。ACM-G10 对矩阵和张量打算的高度重视以及不愿完备重新设计其 GPU 布局表明英特尔更方向于科学和数据,而不是游戏,但考虑到这些领域的潜在增长,这是可以理解的。
对付末了三种架构,Nvidia 专注于改进已经很好的东西,并减少整体设计中的各种瓶颈,例如内部带宽和延迟。但是,虽然 Ada 是 Ampere 的自然改进,这是 Nvidia 多年来一贯遵照的主题,但当您查看晶体管数量的绝对规模时,AD102 脱颖而出,成为一种进化怪异。
与 GA102 比较,差异非常显著,但这种巨大的飞跃引发了许多问题。第一个问题是,对付 Nvidia 来说,AD103 对付他们最高真个消费产品来说会是一个更好的选择,而不是 AD102 吗?
正如在 RTX 4080 中所利用的那样,AD103 的性能相对付 RTX 3090 有了可不雅观的改进,并且像它的大哥一样,64MB 的二级缓存有助于抵消相对较窄的 256 位全局内存总线宽度。
379mm²,比GeForce RTX 3070中利用的GA104要小,因此比AD102制造的利润要高得多。它也拥有与GA102相同数量的短信,该芯片终极在15种不同的产品中找到了一席之地。
另一个值得一问的问题是,Nvidia 在架构和制造方面将何去何从?他们能否实现类似水平的扩展,同时仍旧坚持利用单片芯片?
AMD 对 RDNA 3 的选择突出了竞争的潜在路子。通过将规模最差(在新工艺节点中)的裸片部分转移到单独的小芯片中,AMD 已经能够成功地连续在 RDNA 和 RDNA 2 之间实现的大型制造和设计飞跃。
虽然它不如 AD102 大,但 Navi 31 仍旧有 580 亿个晶体管的硅——是 Navi 21 的两倍多,是原始 RDNA GPU Navi 10 的 5 倍多(只管那不是旨在成为光环产品)。
但 AMD 和 Nvidia 的造诣并不是伶仃完成的。由于台积电和三星之间为成为半导体设备紧张制造商的激烈竞争,以是 GPU 晶体管数量的大幅增加才有可能。
两者都致力于提高逻辑电路的晶体管密度,同时连续降落功耗,三星今年早些时候开始量产其 3nm 工艺。台积电一贯在做同样的事情,并且对当前的节点改进和他们的下一个紧张过程有明确的路线图。
目前尚不清楚英伟达是否会照抄AMD的设计手册,在Ada的后继产品中采取Chiplet的布局,但未来14 - 16个月可能是决定性的。如果RDNA 3被证明在财务上取得了成功,无论是从收入还是总出货量来看,那么英伟达很有可能会效仿。
然而,第一款利用 Ampere 架构的芯片是 GA100——一款数据中央 GPU,尺寸为 829mm2,具有 542 亿个晶体管。它由台积电制造,利用他们的 N7 节点(与 RDNA 和大部分 RDNA 2 系列相同)。利用 N4 来制造 AD102,使 Nvidia 能够设计出晶体管密度险些是其前身两倍的 GPU。
GPU 仍旧是台式 PC 中最卓越的工程技能之一!
那么,不才一个架构中利用 N2 是否可以实现这一点?有可能,但高速缓存的大幅增长(扩展性非常差)表明,纵然台积电在其未来节点上取得了一些惊人的数字,掌握 GPU 大小也将变得越来越困难。英特尔已经在利用小芯片,但仅限于其巨大的Ponte Vecchio数据中央 GPU。由47块不同的tile组成,有的是台积电的,有的是intel自己代工的,参数偏高。
例如,完全的双 GPU 配置拥有超过 1000 亿个晶体管,这让 AMD 的 Navi 31 看起来很苗条。当然,它不适用于任何类型的台式 PC,严格来说也不仅仅是“GPU”——这是一个数据中央处理器,非常强调矩阵和张量事情负载。
在转向“Xe Next”之前,其 Xe-HPG 架构的目标是至少再进行两次修订(Battlemage 和 Celestial),我们很可能会在英特尔消费类显卡中看到平铺技能的利用。
不过,就目前而言,我们将让 Ada 和 Alchemist 利用传统的单片芯片至少一两年,而 AMD 将 chiplet 系统稠浊用于中上端和高端卡,并为他们的单芯片预算 SKU。
不过,到本世纪末,我们可能会看到险些所有类型的图形处理器,它们都是由一系列不同的 tile/chiplet 构建而成,所有这些都是利用各种工艺节点制造的。GPU 仍旧是台式 PC 中最显著的工程壮举之一——晶体管数量的增长没有放缓的迹象,而本日普通显卡的打算能力在大约 10 年前只能梦想。
开启下一场三向架构之战!