无论如何,所有这些方法都受到用于蚀刻芯片的光刻设备的掩模版限定的限定。
目前的设备是针对 300 mm 硅片定制的,该樊篱为 858 mm2,仅此而已。没有任何芯片可以蚀刻得比这更大。在过去的三十年里,从 150 毫米晶圆到 200 毫米晶圆到 300 毫米晶圆并没有改变掩模版极限,从可见光光刻到水浸光刻再到极紫外光刻也没有改变掩模版极限。假设转向 450 毫米晶圆也不会改变掩模版限定。到 2023 年,拥有 450 毫米晶圆将许可更大容量的晶圆级打算引擎。但 450 毫米晶圆的工程寻衅对付 IBM、英特尔、三星、台积电、GlobalFoundries 和尼康来说太难办理,但这一努力于 2015 年被放弃。
光罩限定(光穿过芯片掩模以在硅晶圆上蚀刻晶体管的孔径大小)不仅定义了小芯片的设计办法,而且还限定了离散打算和内存块的大小单个晶圆。如果我们有 450 毫米的晶圆,并且晶圆级打算机的所有逻辑都可以用比晶圆更大的掩模版一次性蚀刻,那将是令人惊奇的,但这不是光刻设备的事情事理。总而言之,小芯片和晶圆级之间的差异实际上在于如何构建互连,以利用打算和内存的离散元件来构建打算引擎插槽。
只管存在这样的限定,业界始终须要构建更强大的打算引擎,并且在摩尔定律结束时,如果能够找到一种方法,让这些设备的制造本钱也更低,那就太好了。
中国科学院(CAS)打算技能研究所的研究职员刚刚在《根本研究》杂志上揭橥了一篇论文,谈论了光刻和小芯片的局限性,并提出了一种他们称之为“大芯片”的架构,该架构模拟了晶圆级Trilogy Systems 在 20 世纪 80 年代的努力以及Cerebras Systems 在 2020 年代成功的晶圆级架构。埃隆·马斯克 (Elon Musk) 的特斯拉正在打造自己的“Dojo”超级打算机芯片,但这不是晶圆级设计,而是将Dojo D1 核心繁芜地封装成某种东西,如果你眯着眼睛看,它看起来就像是由 360 个小芯片构建的晶圆级插槽。大概通过 Dojo2 芯片,特斯拉将转向真正的晶圆级设计。看起来并不须要做很多事情就能完成这样的壮举。
中国科学院整理的这篇论文谈论了很多关于为什么须要开拓晶圆级器件的问题,但没有供应太多关于他们开拓的大芯片架构实际上是什么样子的细节。它并没有表明大芯片是否会像特斯拉对 Dojo 那样采取小芯片方法,或者像 Cerebras 从一开始就一起向晶圆级发展。
研究职员表示,该设计能够在单个分立器件中扩展至 100 个小芯片,我们过去称之为插槽,但对我们来说听起来更像是系统板。目前尚不清楚这 100 个小芯片将如何配置,也不清楚这些小芯片将实现什么样的内存架构(阵列中将有 1,600 个内核)。
我们所知道的是,随着大芯片的迭代,有 16 个 RISC-V 处理器利用芯片上的网络在共享主内存上进行对称多处理,相互连接,并且小芯片之间有 SMP 链接,因此每个块可以在全体复合体中共享内存。
以下是RISC-V 小芯片的框图:
以下是如何利用中介层将 16 个小芯片捆绑在一起形成具有共享内存的 256 核打算复合体,从而实现芯片间 (D2D) 互连:
CAS 研究职员表示,绝对没有什么可以阻挡这种小芯片设计以晶圆级实现。然而,对付这次迭代,看起来它将是利用 2.5D 中介层互连的小芯片。
互连与打算元件一样主要,这在系统和子系统设计中始终如此。
“该接口是利用基于韶光复用机制的通道共享技能设计的,”研究职员在谈到 D2D 互连时写道。“这种方法减少了芯片间旗子暗记的数量,从而最大限度地减少了 I/O 凸块和内插器布线资源的面积开销,从而可以显著降落基板设计的繁芜性。小芯片终止于顶部金属层,微型 I/O 焊盘就建在该金属层上。”
虽然一个大芯片打算引擎作为多芯片或晶圆级复合体可能很有趣,但主要的是如何将这些设备互连以供应百亿亿级打算系统。以下是 CAS 研究职员对此的意见:
研究职员在谈到这种打算和内存的分层构造时写道:“对付当前和未来的亿亿级打算,我们预测分层小芯片架构将是一种强大而灵巧的办理方案。”如下图所示,这段来自 CAS 的长篇引用纸。“分层小芯片架构被设计为具有多个内核和许多具有分层互连的小芯片。在chiplet内部,内核利用超低延迟互连进行通信,而chiplet之间则以得益于前辈封装技能的低延迟互连,从而在这种高可扩展性系统中实现片上延迟和NUMA效应可以最小化。存储器层次构造包含核心存储器、片内存储器和片外存储器。这三个级别的内存在内存带宽、延迟、功耗和本钱方面有所不同。在分层chiplet架构的概述中,多个核心通过交叉交流机连接并共享缓存。这就形成了一个pod构造,并且pod通过chiplet内网络互连。多个pod形成一个chiplet,chiplet通过chiplet间网络互连,然后连接到片外存储器。须要仔细设计才能充分利用这种层次构造。合理利用内存带宽来平衡不同打算层次的事情负载可以显著提高chiplet系统效率。精确设计通信网络资源可以确保小芯片协同实行共享内存任务。”
很难回嘴这句话中所说的任何内容,但 CAS 研究职员并没有解释他们将如何实际处理这些问题。这是最困难的部分。
有趣的是,该图中的内核被称为“可编程”和“可重新配置”,但我们不愿定这意味着什么。它可能须要利用可变线程技能(例如 IBM 的 Power8、Power9 和 Power10 处理器)来完成更多事情,而不是在核心中稠浊利用 CPU 和 FPGA 元件。
CAS 研究职员表示,大芯片打算引擎将由超过 1 万亿个晶体管组成,霸占数千平方毫米的总面积,采取小芯片封装或打算和存储块的晶圆级集成。对付百亿亿级 HPC 和 AI 事情负载,我们认为 CAS 很可能正在考虑 HBM 堆叠 DRAM 或其他一些替代双泵浦主内存,例如英特尔和 SK Hynix 开拓的 MCR 内存。RISV-V 内核可能会有大量本地 SRAM 进行打算,这可能会肃清对 HBM 内存的需求,并许可利用 MCR 双泵浦技能加速 DDR5 内存。很大程度上取决于事情负载以及它们对内存容量和内存带宽的敏感程度。
声明:本文系原作者创作。文章内容系其个人不雅观点,我方转载仅为分享与谈论,不代表我方附和或认同,如有异议,请联系后台。