史上最大年夜AI芯片出身：462平方厘米、40万核心创下4项世界记录_芯片_焦点

文章目录 [+]

量子位宣布 | 公众年夜众号 QbitAI

美国一家芯片公司Cerebras推出了史上最大AI芯片，号称“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE）。

史上最大年夜AI芯片出身：462平方厘米、40万核心创下4项世界记录_芯片_焦点史上最大年夜AI芯片出身：462平方厘米、40万核心创下4项世界记录_芯片_焦点互联网

WSE将逻辑运算、通讯和存储器集成到单个硅片上，是一种专门用于深度学习的芯片。
它创下了4项天下记录：

（图片来自网络侵删）

晶体管数量最多的运算芯片：统共包含1.2万亿个晶体管。
虽然三星曾造出2万亿个晶体管的芯片，却是用于存储的eUFS。
芯片面积最大：尺寸约20厘米×23厘米，总面积46,225平方毫米。
面积和一块晶圆差不多。
片上缓存最大：包含18GB的片上SRAM存储器。
运算核心最多：包含40万个处理核心。

WSE由台积电代工，但是并没有利用当前最前辈的7nm工艺，而是利用相对较老的16nm制程工艺制造。

台积电运营高等副总裁JK Wang表示：“我们对与Cerebras互助制造WSE非常满意，这是晶圆级开拓的行业里程碑。
”

虽然WSE制造本钱可能很高，但Cerebras认为片上互连比构建和连接独立的内核速率更快、本钱更低。

与其他芯片比拟

WSE可以说是个庞然大物，一样平常的芯片都可以放在手掌心，而WSE面积比Mac的键盘还要大。
官方在先容这款芯片时，须要用双手捧着，和展示晶圆没什么两样。

WSE面积比英伟达最大的GPU核心V100还要大56倍，V100核心的尺寸为815平方毫米，包含211亿个晶体管。

最近AMD为数据中央供应的Epyc 2芯片，也是天下上最快的x86处理器，也只有320亿个晶体管，数量仅为WSE的30分之一。

英特尔最新的桌面级处理器i9-9900k有16MB缓存，英伟达RTX 2080Ti有5.5MB二级缓存，在WSE 18GB缓存面前也是小巫见大巫。
RTX 2080Ti已经堪称功耗怪兽，TDP为250W，而WSE则须要15千瓦的供电。

性能参数

WSE包含40万个对AI优化的打算核心，称为稀疏线性代数核心（SLAC），它灵巧、可编程，并针对支持所有神经网络打算的稀疏线性代数进行了优化。

SLAC的可编程性确保内核可以在不断变革的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络打算基元进行了优化，因此它们可实现业界最佳利用率，常日是GPU的3~4倍。
此外，WSE核心包括Cerebras发明的稀疏性网络技能，加速深度学习这类稀疏事情负载的打算性能。

零在深度学习打算中很普遍。
常日要相乘的向量和矩阵中的大多数元素都是零。
然而乘以零会摧残浪费蹂躏打算资源。

常日GPU和TPU被设计为永不碰着零的打算引擎，它们纵然有零也会乘以每个元素。
当深度学习中50-98％的数据为零时，大多数乘法都被摧残浪费蹂躏了。

由于Cerebras稀疏线性代数核心不会乘以零，所有零数据都会被滤除，并且可以在硬件中跳过，从而可以用着节约的资源去完成有用的事情。

内存是每个打算机体系构造的关键组件。
更靠近打算核心的缓存能带来更低的延迟和更好的数据移动效率。

高性能深度学习须要大量打算，并且频繁访问数据。
这须要打算核心和存储器之间的紧密靠近，但是在GPU中并非如此，大容量的显存并不在GPU核心上，而是外置的。

WSE片上的缓存达到了18GB，是GPU缓存的3000倍；可供应每秒9PB的内存带宽，比GPU快10,000倍。

Swarm是WSE上利用的处理器之间的通信构造，它只用传统通讯技能功耗的几分之一就实现了打破性的带宽和低延迟。

Swarm供应低延迟、高带宽的2D网格，可连接WSE上的所有40万个核心，带宽为每秒100 petabits。
WSE通信能量本钱远低于每比特1pJ，这比图形处理单元低近两个数量级。

面临的问题

为何其他芯片厂商不制造如此大尺寸的芯片呢？这是由于在制造晶圆的过程中不可避免会有一些杂质，这些杂质会导致芯片的故障。

常日的做法是将一片很大的晶圆切割成多少个小片，从中挑选出个中可用的部分，封装成芯片，而将报废部分丢弃。

而Cerebras的芯片已经和晶圆面积差不多大了，是在一个晶圆上切割出一块大的芯片，制造过程中不可避免会产生毛病。

为理解决毛病导致良率不高的问题，Cerebras在设计的芯片时候考虑了1~1.5%的冗余，添加了额外的核心，当某个核心涌现问题时将其屏蔽不用，因此有杂质不会导致全体芯片报废。

Cerebras团队碰着的其余一个问题是芯片的刻蚀。
本日的光刻设备仍旧只能刻蚀面积较小的单个芯片。
因此Cerebras与台积电互助发明了新技能，来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

纵然芯片制造成功，接下来还要面临三重寻衅：热膨胀、封装和冷却。

Cerebras的芯片功率达15千瓦，与AI集群相称。
给单个芯片供应巨大的功率，要考虑多方面的成分。

由于芯片在运行中会变得非常热，但是不同材料的热膨胀系数不同。
这意味着将芯片与PCB的热膨胀系数不能差距太大，否则两者之间产生裂痕。

Cerebras在芯片上方安装了一块“冷却板”，利用多个垂直安装的水管直接冷却芯片。
由于芯片太大而无法放入任何传统封装中，Cerebras还设计了却合了连接PCB和晶圆两者的定制连接器以及冷却装置。

关于Cerebras

Cerebras公司由Sean Lie（首席硬件架构师）、Andrew Feldman（首席实行官）等人于2016年创立。
后者曾创建微型做事器公司SeaMicro，并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工，个中包括173名工程师，迄今为止已经从Benchmark等风投契构得到了1.12亿美元的投资。

参考资料：

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/

https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html

https://www.crunchbase.com/organization/cerebras-systems#section-overview

— 完 —

诚挚招聘

量子位正在招募编辑/，事情地点在北京中关村落。
期待有才华、有激情亲切的同学加入我们！
干系细节，请在量子位公众年夜众号(QbitAI)对话界面，回答“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技能和产品新动态

标签：芯片晶圆

史上最大年夜AI芯片出身：462平方厘米、40万核心创下4项世界记录_芯片_焦点

相关文章

什么是soc？SOC与MCU的差异是什么？_内核_蓝牙

ME31型POS机刷机方法（2：公钥写入）_年夜众_所示

RPC2107 PLC控制模块_电流_暗记

选购UVC LED 芯片有哪些留心事项？_芯片_波长

七彩虹宣告首款便携式手机DAC蓝牙放大年夜器_蓝牙_放年夜器

美国断供芯片俄罗斯决定从头开造光刻机_俄罗斯_光刻

热门文章

最近发表

共享充电宝语音芯片ic筹划支持远程4g无线更新语音_语音_芯片

卫星导航+芯片这家公司细分北斗芯片国内市占率超60%_芯片_公司

最强车载芯片进级AI能力英伟达连续拉拢中国车企_英伟_芯片

富满微取得高压供电电路及开环控制电源系统专利降低电路成本提高机能和靠得住性_电路_所述

数控直流稳压电源中MOS管解决筹划_电压_直流稳压电源

TCOOP-M101-433M发射模块_暗记_波形

9月27日智能家居三分钟晨报_智能_家居

什么是soc？SOC与MCU的差异是什么？_内核_蓝牙

源代码遭泄露是谁在扰乱_北碚区_产物

若何设计嵌入式系统电路板供电系统_电压_事理

标签列表