量子位 宣布 | 公众年夜众号 QbitAI
美国一家芯片公司Cerebras推出了史上最大AI芯片,号称“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

WSE将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。它创下了4项天下记录:

WSE由台积电代工,但是并没有利用当前最前辈的7nm工艺,而是利用相对较老的16nm制程工艺制造。
台积电运营高等副总裁JK Wang表示:“我们对与Cerebras互助制造WSE非常满意,这是晶圆级开拓的行业里程碑。”
虽然WSE制造本钱可能很高,但Cerebras认为片上互连比构建和连接独立的内核速率更快、本钱更低。
与其他芯片比拟
WSE可以说是个庞然大物,一样平常的芯片都可以放在手掌心,而WSE面积比Mac的键盘还要大。官方在先容这款芯片时,须要用双手捧着,和展示晶圆没什么两样。
WSE面积比英伟达最大的GPU核心V100还要大56倍,V100核心的尺寸为815平方毫米,包含211亿个晶体管。
最近AMD为数据中央供应的Epyc 2芯片,也是天下上最快的x86处理器,也只有320亿个晶体管,数量仅为WSE的30分之一。
英特尔最新的桌面级处理器i9-9900k有16MB缓存,英伟达RTX 2080Ti有5.5MB二级缓存,在WSE 18GB缓存面前也是小巫见大巫。RTX 2080Ti已经堪称功耗怪兽,TDP为250W,而WSE则须要15千瓦的供电。
性能参数
WSE包含40万个对AI优化的打算核心,称为稀疏线性代数核心(SLAC),它灵巧、可编程,并针对支持所有神经网络打算的稀疏线性代数进行了优化。
SLAC的可编程性确保内核可以在不断变革的机器学习领域中运行所有神经网络算法。
由于稀疏线性代数核心针对神经网络打算基元进行了优化,因此它们可实现业界最佳利用率,常日是GPU的3~4倍。此外,WSE核心包括Cerebras发明的稀疏性网络技能,加速深度学习这类稀疏事情负载的打算性能。
零在深度学习打算中很普遍。常日要相乘的向量和矩阵中的大多数元素都是零。然而乘以零会摧残浪费蹂躏打算资源。
常日GPU和TPU被设计为永不碰着零的打算引擎,它们纵然有零也会乘以每个元素。当深度学习中50-98%的数据为零时,大多数乘法都被摧残浪费蹂躏了。
由于Cerebras稀疏线性代数核心不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以用着节约的资源去完成有用的事情。
内存是每个打算机体系构造的关键组件。更靠近打算核心的缓存能带来更低的延迟和更好的数据移动效率。
高性能深度学习须要大量打算,并且频繁访问数据。这须要打算核心和存储器之间的紧密靠近,但是在GPU中并非如此,大容量的显存并不在GPU核心上,而是外置的。
WSE片上的缓存达到了18GB,是GPU缓存的3000倍;可供应每秒9PB的内存带宽, 比GPU快10,000倍。
Swarm是WSE上利用的处理器之间的通信构造,它只用传统通讯技能功耗的几分之一就实现了打破性的带宽和低延迟。
Swarm供应低延迟、高带宽的2D网格,可连接WSE上的所有40万个核心,带宽为每秒100 petabits。WSE通信能量本钱远低于每比特1pJ,这比图形处理单元低近两个数量级。
面临的问题
为何其他芯片厂商不制造如此大尺寸的芯片呢?这是由于在制造晶圆的过程中不可避免会有一些杂质,这些杂质会导致芯片的故障。
常日的做法是将一片很大的晶圆切割成多少个小片,从中挑选出个中可用的部分,封装成芯片,而将报废部分丢弃。
而Cerebras的芯片已经和晶圆面积差不多大了,是在一个晶圆上切割出一块大的芯片,制造过程中不可避免会产生毛病。
为理解决毛病导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心涌现问题时将其屏蔽不用,因此有杂质不会导致全体芯片报废。
Cerebras团队碰着的其余一个问题是芯片的刻蚀。本日的光刻设备仍旧只能刻蚀面积较小的单个芯片。因此Cerebras与台积电互助发明了新技能,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
纵然芯片制造成功,接下来还要面临三重寻衅:热膨胀、封装和冷却。
Cerebras的芯片功率达15千瓦,与AI集群相称。给单个芯片供应巨大的功率,要考虑多方面的成分。
由于芯片在运行中会变得非常热,但是不同材料的热膨胀系数不同。这意味着将芯片与PCB的热膨胀系数不能差距太大,否则两者之间产生裂痕。
Cerebras在芯片上方安装了一块“冷却板”,利用多个垂直安装的水管直接冷却芯片。由于芯片太大而无法放入任何传统封装中,Cerebras还设计了却合了连接PCB和晶圆两者的定制连接器以及冷却装置。
关于Cerebras
Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席实行官)等人于2016年创立。后者曾创建微型做事器公司SeaMicro,并以3.34亿美元的价格出售给AMD。
该公司在加州有194名员工,个中包括173名工程师,迄今为止已经从Benchmark等风投契构得到了1.12亿美元的投资。
参考资料:
https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/
https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html
https://www.crunchbase.com/organization/cerebras-systems#section-overview
— 完 —
诚挚招聘
量子位正在招募编辑/,事情地点在北京中关村落。期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位公众年夜众号(QbitAI)对话界面,回答“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技能和产品新动态










