值得把稳的是,这一次Bow IPU的性能提升并非紧张依赖采取更前辈的制程,Bow IPU采取了和上一代IPU相同的台积电 7nm,通过采取和台积电共同开拓的前辈硅晶圆堆叠技能(3D Wafer-on-Wafer)达到性能和能耗比的提升。
Bow作为天下首款3D WoW处理器,证明了芯片性能提升的范式从前辈制程向前辈封装转移的可行性。

新一代 IPU 性能提升40%,价格保持不变

2016年,Graphcore成立并首创了全新类型处理器架构IPU,因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是打算机历史上的第三次革命。
经历6年韶光的发展,Graphcore的IPU逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore又推出了第三代产品Bow IPU。
据Graphcore先容,第三代IPU相对付上一代M2000,性能提高40%,每瓦性能提升16%,即能耗比实现16%的提升。不过,AI芯片的真实性能还须要放在不同的运用领域中谈论。为此,Graphcore也给出了在不同垂直领域中Bow的性能表现。
在图像方面,无论是范例的CNN网络,还是近期比较热门的Vision Transformer网络,以及深层次的文本到图片的网络,与上一代产品比较,Bow IPU都有30%到40%的性能提升,在EfficientNet-B4这一项中,靠近理论上限值。
BERT演习模型是自然措辞方面的经典模型,基于BERT,OpenAI提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展,通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。
“我们可以看到,这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore中国工程副总裁、AI算法科学家金琛先容道。
不仅如此,转换到实际模型中的吞吐量,与IPU POD64比较,在打算机视觉的ResNet50 和 EifficientNet-B4 演习模型中,Bow Pod64的吞吐量能够达到34%和39%的性能提升。自然措辞方面, BERT-Large Ph1 预演习模型和语音识别Conformer Large 演习模型,后者都有36%的吞吐量提升。
作为英伟达的竞争对手,Graphcore自然不忘将 Bow Pod16 与DGX-A100进行比拟,实验数据表明,EfficientNet-B4的backbone的演习在DGX-A100上须要花费70个小时的演习韶光,而在Bow Pod16上,只须要14小时旁边。
靠近理论极限的性能提升,Graphcore Bow IPU是如何实现的?
5nm不再是首选,采取前辈封装性价比更高
从芯片的规格上看,Bow IPU是天下上第一款基于台积电的 3D Wafer-On-Wafer的处理器,单个封装中拥有超过600亿个晶体管,具有350 TeraFLOPS的人工智能打算的性能,是上一代MK2 IPU的1.4倍。片内存储较上一代来看没有变革,依然保持0.9GB的容量,不过吞吐量从47.5TB提高到了65TB。
“变革紧张表示在,它是一个3D封装的处理器,晶体管的规模有所增加,算力和吞吐量均得到提升。” Graphcore大中华区总裁兼环球首席营收官卢涛说道。而在大家都关注的工艺制程上,Bow IPU 延续了上一代台积电 7nm 工艺制程,没有变革。
理论上,一颗芯片的性能提升很大程度上取决于工艺制程上的进步,但随着工艺制程越来越逼近物理极限,摩尔定律逐渐失落效,业界不得不探求新的技能方向来延续摩尔定律。个中,3D封装便是被业界广泛看好的技能方向。
中国工程院院士、浙江大学微纳电子学院院长吴汉明就曾在一次演讲中提到,如果将芯片制造和芯片封装相结合,也可以做到65nm工艺制程实现40nm工艺制程的性能功耗哀求。
Bow IPU恰好验证了吴院士的不雅观点。
卢涛表示,Bow IPU产品性能的提升紧张来源于3D WoW和新增的Die。
至于为何选择改变封装办法而不是更前辈的工艺,卢涛则表示MK2 IPU有594亿个晶体管,大概823平方毫米,已经是7nm单个Die能够生产的最精密的芯片。
“我们评估从7nm、5nm,到3nm平分歧工艺节点的收益时创造,从7nm到5nm的生产工艺提升所带来的收益不像以前从28nm到14nm一样,能够带来百分之几十的收益,而是降到了20%。这时候我们可以通过别的手段和方法得到同样的收益。”
通过3D堆叠的办法,Bow IPU的两个Die增加了晶体管的数量,个中一个Die(Colossus Die)和上一代一样,另一个Die紧张用于提高跨Colossus Die的电源功率传输,优化Colossus Die的操作节点,从而转化为有效的时钟加速。
在同台积电的互助方面,卢涛见告雷峰网,Graphcore在一年之前就同台积电互助了一颗测试芯片,与台积电的关系非常紧密,加上AI处理器本身规模较大,须要一些新技能支持落地,而从台积电的角度而言,新的技能也须要有需求的产品共同推进。
值得一提的是,虽然封装办法有所变革,但Bow IPU开箱即用,与前一代产品百分之百软件兼容,不用修正任何代码,老用户无需做任何软件适配事情就能得到性能提升,价格保持不变。
目前,美国国家实验室Pacific Northwest已经基于Bow IPU考试测验做一些基于Transformer的模型以及图神经网络,面向打算化学和网络安全方面的运用,且给出了比较正面的反馈。
延续3D封装,开拓超越人脑的超级智能机器
Bow IPU利用3D封装只是出发点,面向未来,Graphcore正在开拓一款可以用来超越人脑处理的超级智能机器。
Graphcore将这款正在研发的产品命名为Good Computer,一方面希望打算机能够为这个天下带来正面的影响,另一方面致敬著名打算机科学家Good。
基于3D WoW,估量未来Good Computer将包含8192个IPU,供应超过10 Exa-Flops的AI算力,实现4 PB的存储,可以助力超过500万亿参数规模的人工智能模型的开拓。
取决于不同的配置,Good Computer价格将在100万美元到1.5亿美元之间。
卢涛表示,开拓Good Computer还是会沿用IPU的体系构造,IPU的存储是在处理器里面,虽然不叫类脑、内存打算或存算一体,但从某种程度上而言,IPU的运作机理靠近大脑打算的事情事理,只是把打算和存储相结合。
其余,Graphcore也将从软件方面更有效支持稀疏化以达到类脑的打算量。
雷峰网






