Nvidia下一代GPU细节泄露：芯片尺寸、架构、成本和机能_缓存_内存

文章目录 [+]

来源：内容由半导体行业不雅观察（ID：icbank）编译自semianalysis，感激。

专注不雅观察环球半导体最新资讯、技能前沿、发展趋势。
欢迎订阅摩尔精英旗下"大众号：摩尔精英MooreElite、半导体芯闻、摩尔芯球。
\"大众 data-from=\"大众0\"大众>

Nvidia 是 2 月尾网络攻击的受害者，他们被黑客入侵并丢失了大量数据。
这次黑客攻击不仅对英伟达来说是一场灾害，对所有芯片公司和所有“西方”国家的国家安全来说都是一场灾害。

据先容，被黑的数据包括英伟达下一代GPU Hopper 和 Ada 的详细规格和仿照数据。
Hopper现在正在发货，并由 Nvidia 在 GTC 上发布。
规格与这次泄露完备匹配，但以 Ada Lovelace 命名的 Ada 仍旧须要几个月的韶光。

Ada，下一代客户端和视频专业 GPU 将是本文的主题。
基于透露的规范和仿照，SemiAnalysis 和Locuza联手剖析了各种芯片的架构、裸片尺寸，并对 GPU ASIC 进行整天职析。

SemiAnalysis 和Locuza没有从 LAPSUS$ hack下载任何透露的文件，但许多人在网上分享了摘录。

根据泄露的这些摘录，我们能够为 Nvidia 的下一代 Ada Lovelace GPU 阵容提取以下规格，并将它们与当前一代 Ampere GPU 阵容进行比较。

Nvidia下一代GPU细节泄露：芯片尺寸、架构、成本和机能_缓存_内存 Nvidia下一代GPU细节泄露：芯片尺寸、架构、成本和机能_缓存_内存通讯

本文的别的部分将展示每个芯片的框图、架构剖析、估计的裸片尺寸、我们如何得出这些裸片尺寸，以及一些本钱和定位剖析。

（图片来自网络侵删）

Ada 架构中的佼佼者是 AD102，估计其面积约为 611.3mm²。
与上一代 GA102 比较，这是一个巨大的飞跃，由于通过 5 个额外的 GPC，他们得到70% 的 CUDA 内核增加。
内存总线宽度则保持384 位不变，但我们估量内存速率会略微提高到 21Gbps 旁边。
只管增加了，但这还不敷支持该野兽芯片我运行。
AD102拥有96MB L2 Cache，远高于上一代GA102的6MB L2 Cache。

有趣的是，这与 AMD 的 Navi 22 GPU 具有“InfinityCache”的 L2 缓存数量相同。
顺便说一句，我们希望 Nvidia 将他们的大型 L2 命名为“Nfinity Cache”只是为了吸引所有人。

AMD 的 Infinity Cache 是 L3 缓存，只管两家供应商之间的缓存层次构造存在差异，但我们估量hit rates的总体趋势是相同的。
以 AMD 为例，1080p 的hit rates为 78%，1440p 的hit rates为 69%，4k 的hit rates为 53%。
这些高hit rates有助于降落内存带宽需求。

如果 Nvidia 的大型 L2 以类似的办法事情，只管内存带宽略有增加，但它将极大地帮助馈送 AD102。
Ada 的高端配置该当配备24GB 的 GDDR6X，但我们估量会有一些配置因此而减少。

AD103 的配置非常有趣，估计约为379.69mm²。
与 AD102 比较，这是一个巨大的降级。
这可能是 GPU 一代中顶级芯片和第二个芯片之间近期内存中最大的差距，个中 AD102 的 CUDA 内核比 AD103 多70% 以上。

另一个有趣的事情是 CUDA 核心数量与当前一代高端 GA102 完备相同。
内存总线采取 256 位总线，远小于 AD102 的 384 位总线。
因此，基于 AD103 的游戏 GPU 最大容量为16GB，但可能会存在缩减版本。
只管内存带宽远低于 GA102，但包含 64MB L2 缓存仍将许可该 GPU 被馈送。

鉴于英伟达将利用定制的台积电“4N”节点，我们估量它们的时钟频率将高于 GA102。
时钟增加加上架构改进将使 AD103 的性能优于当前一代旗舰产品 RTX 3090 Ti；如果他们把它带到高功耗的桌面上。
须要把稳的是，GA103 从未涌如今台式机上，仅在条记本 GPU 的高端上可用，因此 Ada 一代可能会再次涌现这种情形。

AD104 估计约为 300.45mm²，由于其性能和本钱效益，它是 Ada 系列中的最佳选择。
192 位总线为游戏 GPU 带来了 12GB 内存，具有足够高的容量，同时将材料清单 (BOM) 保持在合理水平。

同时，Nvidia GPU 的 104 设计每每具有与上一代 102 相似的性能。
如果这种趋势持续下去，本钱/性能该当会非常出色。
事实上，它乃至可能有更多，由于 Nvidia 可能会增加相称多的时钟以达到 3090 以上的性能水平。

我们估量 Nvidia 的顶级 AD104 桌面 GPU 与GDDR6X 的功率将高达 350W 乃至 400W。
因此，我们估量这将是大多数发热友终极购买的 GPU。
GPU 也可以是高效的，我们期望在没有 G6X 内存和时钟回退一点的情形下实现这一点。

AD106 是真正的大众市场 GPU，估计约为 203.21mm²。
它可能是该系列中容量最大的 GPU，由于 106 个 GPU 是 Pascal、Turing 和 Ampere 世代的最大容量。
由于是 128 位总线，它紧张配备 8GB 内存。

在高端配置中，我们估量它的性能与GA104 相似，后者在 3070 Ti 中发挥最大浸染。
鉴于AD106 中只有 3 个 GPC 而 GA104 中只有 6 个 GPC，这个假设可能有点过于乐不雅观。

该 GPU 也将是移动设备中容量最大的 GPU。
利用 32MB 的二级缓存，GPU 缓存hit rates在 1080p 中可能为 55%，在1440p 中为 38%，在 4k 中为 27%，如 AMD 的 Navi 23。

在我们谈论这一代的宝贝 AD107 之前，我们须要先容一些背景知识。

来自透露文件的 Twitter 上发布的数据并未指定此 GPU 的缓存大小。
先前的 GPU 假定每个 64 位内存掌握器/帧缓冲区分区(FBP) 具有相同的 16MB。
对付 AD107，这没有多大意义，由于 GPC 数量和总线宽度保持不变，而每个 GPU 的 TPC 仅低落到 4。
如果 L2 缓存保持不变，那么芯片尺寸只会从 ~203.21mm²低落到 ~184.28mm²。
这种眇小的减少不敷以将堆栈中的两个 GPU 分开。

相反，我们假设与图灵一代 GPU 的 TU116 和 TU106 存在类似的关系。
TU116 有一个带有 0.5MB 二级缓存的 FBP，而不是像 TU10x 那样的1MB。
如果我们对每个 FBP 运用相同的 50% L2 缓存模式，AD107 终极估计约为 145.54mm²。
这对付产品定位和成本来说彷佛要合理得多。

有了这些假设，AD107 彷佛是一款出色的移动 GPU。
由于不须要更多的 PCIe 通道，它被调度为 8 个通道，并且 Nvidia 常日将其底部 GPU 向下移动到此通道数。
它的性能足以击败英特尔最好的 Meteor LakeiGPU 配置，但它的价格足够便宜，可以用于一些低本钱的条记本电脑。

总的来说，Ada 是一个相称有趣的阵容。
在高端，性能（和功耗）有相称大的提高。
AD102 的裸片尺寸与 GA102 相似，但采取更昂贵的定制台积电 4N 工艺技能，而不是更便宜的定制三星 8N 工艺技能。

相对付三星的 8nm 衍生产品，台积电 N4 衍生产品的密度增加相称大，这证明了本钱是合理的。

有趣的是，只管是一个更新得多的节点，但SemiAnalysis 的来源报告说，台积电 N4 的参数良率实际上比三星的 8nm 节点略好，只管它具有相似的灾害性良率。
这对付 GPU 来说基本上不是问题，由于险些每个芯片都可以收成良率。

就裸片尺寸和整体 BOM 而言，Ada 阵容的别的部分变得更加温和。
只管晶圆本钱要高得多，但在相同功率下性能常日应高于安培，但制造本钱要低得多。
我们玩了很多晶圆本钱和芯片打算器来对本钱进行一些估算，但终极英伟达的本钱只是终极用户价格的一部分。
Nvidia 出售带有标记的芯片，并协商 ODM/AIB 利用的内存定价。
ODM/AIB 互助伙伴仍旧必须以可能很低的利润率购买和集成内存以及电源组件和冷却系统。

Nvidia 彷佛已最佳地平衡了 L2 缓存大小和内存总线宽度。
内存大小将保持合理，由于大多数 GPU 将具有 16Gb G6X 或 G6。
一样平常来说，AD104正在取代 GA102，AD106 正在取代 GA104 在性能层。
内存成本相同，并且制造芯片的本钱更低。
由于效率更高且电路板更小，封装、冷却和电源组件等板级组件更便宜。

当我们比较堆栈中的相同裸片（例如GA104 与 AD104）时，内存大小有所增加，但这是须要的，由于 8GB 对付该段来说太少了，而 16GB 太贵了。

不过，该当考虑到对高功率的恐怖。
Nvidia很可能会像上一代那样为每个芯片注入能量。
事实上，我们可以想象他们会将功率推到堆栈中更高的 1 个芯片所做的事情，即顶级 AD104 配置达到 3080 级功耗，而顶级 AD106 配置达到 3070 级功耗。
谣言指向顶级AD102，冲破了GPU功耗的新记录。

接下来，我们将分解我们如何得出这些裸片尺寸估计值。

芯片尺寸剖析的第一步是网络有关 Ada的架构变革并将其与 Ampere 进行比较。
SM 架构是 8.9 而不是 8.6，以是这紧张是一代的改进。
因此，我们假设 SM 大小增加 10%。
我们不愿定SM 架构的变革是什么，但它们可能包括 192Kb L1 缓存和张量核心。

我们心中最大可能的变革是增加了新的第3 代 RT 内核。
在 IO 方面，泄露表明 NVLink 已完备从阵容中移除，这表明 Nvidia 不会为多 GPU 数据中央和专业可视化运用程序推出 Ada 阵容。
我们期待 PCIe 5.0，更好的内存掌握器，适用于更高速率的 GDDR6X，和 DisplayPort 2.0 将包括在内。
可能包括更新的 NVENC 和 NVDEC，这该当将 AV1 编码稠浊在一起。

Ada 最大的变革当然是 L2 缓存。
Nvidia 彷佛没有利用小型 L2 缓存，而是借鉴了 AMD 的 Infinity Cache ，并全面利用了更大的缓存。
鉴于我们拥有大部分规格，Ampere 的 GA102 IP 块可用于创建与 AD102 规格相似的假设 GPU 裸片。
这不会考虑某些变动，例如 SM 架构变动、更大的编码器块、PCIe 5.0、Displayport 2.0 或针对 GDDR6X 调度的内存掌握器。

通过利用 GA102 构建块，我们为这个假设的 Ampere GPU 得到了 1629.60mm²的裸片尺寸，该 GPU 具有与 AD102 相同的配置，但采取 8nm。
您会立即把稳到的是 L2 缓存是巨大的。
AMD 在其 Navi 21 GPU 上具有更大容量的 L3 Infinity Cache，但他们没有分配如此大的区域专用于该缓存。
是的，AMD位于更密集的 N7 节点上，但这只是难题的一小部分。
密度上的大部分差异来自 L2 缓存的布局和配置。

GA102 利用 48 个 128KB 的 SRAM 片，每个64 位内存掌握器/帧缓冲区分区 (FBP) 有 1MB 的 L2。
另一方面，GA100利用 80 个 512KB 的 SRAM 切片。
从与 AMD 的 L2缓存的比较中可以看出，这些更大的切片彷佛大大提高了密度。

GA100的密度提升远不止工艺节点缩小那么大略。
利用 AMD 的 L3 Infinity Cache 可以看到相同的效果。

虽然 AMD 在许多设计元素上不如 Nvidia，但我们相信它们在缓存和封装等某些领域无疑更好。
我们相信这在很大程度上源于他们的 CPU 团队的血统。
AMD 非常善于为GPU 制作极其密集的高性能缓存，如 Infinity Cache 所示。
事实上，在我们终极的芯片尺寸估计中，Nvidia 的 96MB L2 仍旧远不及 AMD 的 96MB L3 Infinity Cache。

无论如何，仅从三星 8 缩小到台积电 4 不会使 GA102 构建块达到合理的裸片尺寸。
相反，缓存设计须要进行架构返工。
泄露见告我们，现在 AD102 的 FBP 中每个 64 位内存掌握器有 16MB 的 L2。
我们估计Nvidia 将迁移到 48、2048KB 的 SRAM 切片。

有了这个缓存配置，我们就可以用这些数字打算出理论上的缓存带宽。

AMD 在 1.94GHz 的 Navi 21 上拥有 1.99TB/s 的 Infinity Cache 带宽。
如果我们假设 Nvidia 在 AD102 上以相同的 1.94GHz 运行，那么他们将能够在其 L2 上实现 5.96TB/s 的带宽。
终极产品的时钟会有所不同，但我们估量 2.25GHz 旁边的频率对付台式机中的 Ada 来说是现实的。
我们估量 RDNA3 在台式机上的时钟频率将高于 2.5GHz。
Nvidia 正在以一定的密度为代价做出利用高带宽缓存的设计选择。

Nvidia 本可以引入更高密度的缓存，每片 8-16MB。
这可能会使它们的 L2 密度与 AMD 的 Infinity Cache 相似，但它会导致 L2 带宽低落到 Ampere 的带宽以下。
末了，这可能不是一个选择。

我们对这种不同的缓存架构对 AD102构建块 L2 区域的影响进行了估算。
然后我们对台积电的 N7 运用了紧缩系数，对台积电 N4 运用了另一个紧缩系数。
SRAM 彷佛利用 60:40 的 SRAM 与逻辑分割，这有助于影响我们利用的 SRAM 缩小。
我们对 SM 运用了10% 的总增长因子来阐明那里的任何架构变革，并根据它们的 SRAM 与逻辑的稠浊（常日为 30:70）对各种数字逻辑块具有不同的紧缩因子。

末了，我们保持芯片的仿照部分相同，由于缩小幅度很小，但这些将通过可能增加面积的升级来平衡，例如 PCIe 5.0、GDDR6X 内存速率和 DisplayPort 2.0。
在这些图中删除了 NVLink。
末了我们到达了~611.3mm²。
这与kopite7kimi 所说的模具尺寸约为 600mm²的说法独立同等。

在网络了一个小的概述之后，我们可以从别的阵容的配置开始。
GPC、计数、TPC 计数、L2 大小、命令缓冲区、各种PHY、交叉开关等都可以根据 GPU 配置动态缩小。
基于我们对台积电和实际产品的陈述的捏造，我们为紧缩成分选择的所有数字都有些武断，以是末了它有点在阴郁中拍摄。
对付 AD107，我们略微放弃了不同的缓存架构，由于每个 FBP 的缓存量较少。

总体而言，Ada Lovelace 在架构上彷佛与当前的 Ampere 架构并没有太大的不同，但它确实带来的变革，例如改进的光芒追踪核心、改进的编码器和更大的 L2 缓存将在降落本钱的同时显著提升性能只管位于更昂贵的基于 TSMC N4 的定制节点上。
Nvidia 一贯保持着在堆栈中保持内存大小平衡的传统，每个级别的内存大小适度增加。
L2与 AMD 比较，有传言指出高端产品的性能非常高，但本钱也很高。
我们对他们的 Navi33芯片更感兴趣，它该当介于 AD104 和 AD106 之间。
范围很大，但泄露表明它在大众市场上是一个很好的竞争对手。

AMD 目前在光芒追踪性能方面远远掉队，并且缺少 DLSS 和广播等许多差异化软件功能确实危害了他们的竞争力，但我们相信这将是十年来最具竞争力的一代GPU 。

随着以太坊 2.0 剧烈鞭笞采矿需求的中断以及消费者将他们的支出组合从商品转向做事，GPU 价格正在快速下跌。
这些成分与更高的通货膨胀相结合意味着我们预测 AdaLovelace（和 RDNA 3）GPU 价格在 400 至 1,000 美元的市场中将是相称不错的性价比。
堆栈的顶端很可能具有惊人的性能水平，但本钱更高。

总之，消费者会赢！

★ 点击文末【阅读原文】，可查看本篇原文链接！

与30万半导体精英一起，订阅您的私家芯闻秘书！
欢迎订阅摩尔精英旗下更多公众年夜众号：摩尔精英、半导体行业不雅观察、摩尔App\"大众 data-from=\"大众0\"大众>

免责声明：本文由作者原创。
文章内容系作者个人不雅观点，半导体行业不雅观察转载仅为了传达一种不同的不雅观点，不代表半导体行业不雅观察对该不雅观点赞许或支持，如果有任何异议，欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第3014内容，欢迎关注。

晶圆｜集成电路｜设备｜汽车芯片｜存储｜台积电｜AI｜封装

原文链接！