最强AI芯片！英伟达B200宣告：2080亿晶体管FP4算力达40PFlops_英伟_芯片

文章目录 [+]

当地韶光3月18日，人工智能（AI）芯片龙头厂商英伟达在美国加州圣何塞召开了GTC2024大会，正式发布了面向下一代数据中央和人工智能运用的“核弹”——基于Blackwell架构的B200 GPU，将在打算能力上实现巨大的代际飞跃，估量将在今年晚些时候正式出货。
同时，英伟达还带来了Grace Blackwell GB200超级芯片等。

英伟达创始人兼CEO黄仁勋，英伟达目前按照每隔2年的更新频率，升级一次GPU构架，进一步大幅提升AI芯片的性能。
两年前推出的Hopper构架GPU虽然已经非常出色了，但我们须要更强大的GPU。

最强AI芯片！英伟达B200宣告：2080亿晶体管FP4算力达40PFlops_英伟_芯片最强AI芯片！英伟达B200宣告：2080亿晶体管FP4算力达40PFlops_英伟_芯片通讯

B200：2080亿个晶体管，FP4算力高达 40 petaflops

（图片来自网络侵删）

英伟达于2022年发布了采取Hopper构架的H100 GPU之后，开始引领了环球AI市场的风潮。
这次推出的采取Blackwell构架的B200性能将更加强大，更善于处理AI干系的任务。
而Blackwell构架则因此数学家David Harold Blackwell的名字命名。

据先容，B200 GPU基于台积电的N4P制程工艺（这是上一代Hopper H100和Ada Lovelace架构GPU利用的N4工艺的改进版本），晶体管数量达到了2080亿个，是H100/H200的800亿个晶体管两倍多。
这也使得B200的人工智能性能达到了20 petaflops。

黄仁勋表示，Blackwell构架B200 GPU的AI运算性能在FP8及新的FP6上都可达20 petaflops，是前一代Hopper构架的H100运算性能8 petaflops的2.5倍。
在新的FP4格式上更可达到40 petaflops，是前一代Hopper构架GPU运算性能8 petaflops的5倍。
详细取决于各种Blackwell构架GPU设备的內存容量和频宽配置，事情运算实行力的实际性能可能会更高。
黄仁勋强调，而有了这些额外的处理能力，将使人工聪慧企业能够演习更大、更繁芜的模型。

但是，须要指出的是，B200并不是传统意义上的单一GPU。
相反，它由两个紧密耦合的GPU芯片组成。
只管根据英伟达的说法，它们确实可以作为一个统一的CUDA GPU。
这两个芯片通过10 TB/s的NV-HBI（英伟达高带宽接口）连接连接，以确保它们能够作为一个完备同等的芯片正常事情。

同时，对付人工智能打算来说，HBM容量也是极为关键。
AMD MI300X之以是被广泛关注，除了其性能大幅提升之外，其所配备的容量高达192GB HBM（高带宽内存）也是非常关键，比较英伟达H100 SXM芯片的80GB高了一倍多。
而为了填补HBM容量的不敷，虽然英伟达也推出了配备141GB HBM的H200，但是仍大幅掉队于AMD MI300X。
而这次英伟达推出的B200则配备了同样的192GB HBM3e内存，可供应8 TB/s的带宽，填补了这一薄弱环节。

虽然英伟达尚未供应关于B200确切的芯片尺寸，从曝光的照片来看，B200将利用两个全掩模尺寸的芯片，每个管芯周围有四个HMB3e堆栈，每个堆栈为24GB，每个堆栈在1024 bit接口上具有1TB/s的带宽。

须要指出的是，H100采取的是6个HBM3堆栈，每个堆栈16GB（H200将其增加到6个24GB），这意味着H100管芯中有相称一部分专门用于六个HBM内存掌握器。
而B200通过将每个芯片内部的HBM内存掌握器接口减少到四个，并将两个芯片连接在一起，这样可以相应地减少HBM内存掌握器接口所需的管芯面积，可以将更多的晶体管用于打算。

支持全新FP4/FP6格式

基于Blackwell架构的B200通过一种新的FP4数字格式达到了这个数字，其吞吐量是Hopper H100的FP8格式的两倍。
因此，如果我们将B200与H100坚持利用FP8算力来比较，B200仅供应了比H100多2.5倍的理论FP8打算（具有稀疏性），个中很大一部分缘故原由来自于B200拥有两个打算芯片。
对付H100和B200都支持的大多数的数字格式，B200终极在理论上每芯片算力提升了1.25倍。

再次回到4NP工艺节点在密度方面缺少大规模改进的问题上。
移除两个HBM3接口，并制作一个稍大的芯片可能意味着B200在芯片级的打算密度上乃至不会显著更高。
当然，两个芯片之间的NV-HBI接口也会占用一些管芯面积。

英伟达还供应了B200的其他数字格式的原始打算值，并运用了常日的缩放因子。
因此，FP8的吞吐量是FP4吞吐量的一半（10 petaflops级），FP16/BF16的吞吐量是5 petaflops级的一半，TF32的支持是FP16的一半（2.5 petaflops级）——所有这些都具有稀疏性，因此密集操作的速率是这些速率的一半。
同样，在所有情形下，算力可以达到单个H100的2.5倍。

那么FP64的算力又如何呢？H100被评定为每GPU可供应60万亿次的密集FP64打算。
如果B200具有与其他格式类似的缩放比例，则每个双芯片GPU将具有150万亿次浮点运算。
但是，实际上，B200的FP64性能有所低落，每个GPU约为45万亿次浮点运算。
但这也须要一些澄清，由于GB200超级芯片将是关键的构建块之一。
它有两个B200 GPU，可以进行90万亿次的密集FP64打算，与H100比较，其他成分可能会提高经典仿照的原始吞吐量。

其余，就利用FP4而言，英伟达有一个新的第二代Transformer Engine，它将帮助用户自动将模型转换为适当的格式，以达到最大性能。
除了支持FP4，Blackwell还将支持一种新的FP6格式，这是一种介于FP4缺少必要精度但也不须要FP8的情形下的办理方案。
无论结果的精度如何，英伟达都将此类用例归类为“专家稠浊”（MoE）模型。

GB200超级芯片

英伟达还推出了GB200超级芯片，它基于两个B200 GPU，外加一个Grace CPU，也便是说，GB200超级芯片的理论算力将会达到40 petaflops，全体超级芯片的可配置TDP高达2700W。

黄仁勋也进一步指出，包含了两个Blackwell GPU和一个采取Arm构架的Grace CPU的B200，其推理模型性能比H100提升30倍，本钱和能耗降至了原来的1/25。

除了GB200超级芯片之外，英伟达还带来了面向做事器的办理方案HGX B200，它基于在单个做事器节点中利用八个B200 GPU和一个x86 CPU（可能是两个CPU）。
这些TDP配置为每个B200 GPU 1000W，GPU可供应高达18 petaflops的FP4吞吐量，因此从纸面上看，它比GB200中的GPU慢10%。

此外，还有HGX B100，它与HGX B200的基本架构相同，有一个x86 CPU和八个B100 GPU，只是它被设计为与现有的HGX H100根本举动步伐兼容，并许可最快速地支配Blackwell GPU。
因此，每个GPU的TDP被限定为700W，与H100相同，吞吐量降至每个GPU 14 petaflops的FP4。

值得把稳的是，在这三款芯片当中，HBM3e的每个GPU的带宽彷佛都是8 TB/s。
因此，只有功率，以及GPU核心时钟，大概还有核心数上会有不同。
但是，英伟达尚未透露任何Blackwell GPU中有多少CUDA内核或流式多处理器的细节。

第五代NVLink和NVLink Switch 7.2T

人工智能和HPC事情负载的一大限定成分是不同节点之间通信的多节点互连带宽。
随着GPU数量的增加，通信成为一个严重的瓶颈，可能占所用资源和韶光的60%。
在推出B200的同时，英伟达还推出其第五代NVLink和NVLink Switch 7.2T。

新的NVLink芯片具有1.8 TB/s的全对全双向带宽，支持576 GPU NVLink域。
它也是基于台积电N4P节点上制造的，拥有500亿个晶体管。
该芯片还支持芯片上网络打算中的3.6万亿次Sharp v4，这有助于高效处理更大的模型。

上一代NVSwitch支持高达100 GB/s的HDR InfiniBand带宽，是一个巨大飞跃。
而与H100多节点互连比较，全新的NVSwitch供应了18X的加速。
这将大大提高万亿参数模型人工智能网络的可扩展性。

与此干系的是，每个Blackwell GPU都配备了18个第五代NVLink连接。
这是H100链接数量的18倍。
每条链路供应50 GB/s的双向带宽，或每条链路供应100 GB/s的带宽。

GB200 NVL72做事器

英伟达还针对有大型需求的企业供应做事器成品，供应完全的做事器办理方案，例如GB200 NVL72做事器，供应了36个CPU和72个Blackwell构架GPU，并完善供应一体水冷散热方案，可实现总计720 petaflops的AI演习性能或1,440 petaflops的推理性能。
它内部利用电缆长度累计靠近2英里，共有5,000条独立电缆。

详细来说，GB200 NVL72 基本上是一个完全的机架式办理方案，有18个1U做事器，每个做事器都有两个GB200超级芯片。
然而，在GB200超级芯片的组成方面，与上一代比较存在一些差异。

曝光图片和规格表明，两个B200 GPU与一个Grace CPU匹配，而GH100利用了一个较小的办理方案，将一个GraceCPU与一个H100 GPU放在一起。
终极结果是，GB200超级芯片打算托盘将具有两个Grace CPU和四个B200 GPU，具有80 petaflops的FP4 AI推理和40 PB的FP8 AI演习性能。
这些是液冷1U做事器，它们霸占了机架中范例的42个单元空间的很大一部分。

除了GB200超级芯片打算托盘，GB200 NVL72还将配备NVLink交流机托盘。
这些也是1U液冷托盘，每个托盘有两个NVLink交流机，每个机架有九个这样的托盘。
每个托盘供应14.4 TB/s的总带宽，加上前面提到的Sharp v4打算。

GB200 NVL72统共有36个Grace CPU和72个Blackwell GPU，FP8运算量为720 PB，FP4运算量为1440 PB。
有130 TB/s的多节点带宽，英伟达表示NVL72可以处理多达27万亿个AI LLM参数模型。

目前，亚马逊的AWS已操持采购由2万片GB200芯片组建的做事器集群，可以支配27万亿个参数的模型。
除了亚马逊的AWS之外，DELL、Alphabet、Meta、微软、OpenAI、Oracle和TESLA成为Blackwell系列的采取者之一。

编辑：芯智讯-浪客剑