清华首款AI光芯片登上Science全球首创架构迈向AGI_太极_路径

文章目录 [+]

【新智元导读】巨耗算力大模型，离通往AGI目标又近了一步。
清华团队创始AI光芯片架构，研制全新「太极」实现了160 TOPS/W通用智能打算，能效竟是H100的1000倍。

演习下一代万亿级参数大模型的高效芯片出身了！

清华首款AI光芯片登上Science全球首创架构迈向AGI_太极_路径清华首款AI光芯片登上Science全球首创架构迈向AGI_太极_路径互联网

最近，来自清华团队的研究职员开拓了一种革命性的新型AI「光芯片」——「太极」（Taichi）。

（图片来自网络侵删）

不言而喻，「太极」最大的亮点是利用光，而不是电来处理数据。

与传统堆叠PIC芯片方法不同，清华团队创始了分布式广度智能光打算架构，使得「太极」成为环球首款大规模干涉衍射异构集成芯片。

「太极」具备了亿级神经元的芯片打算能力，可以显著提高处理速率和能效。

它可以实现160 TOPS/W通用智能打算。

最新研究已于4月11日揭橥在Science期刊上。

论文地址：https://www.science.org/doi/10.1126/science.adl1203

更令人震荡的是，「太极」能效是英伟达H100的1000倍数。

研究职员表示，「太极」为大规模的光子打算和高等任务铺平了道路，进一步发掘了光子学在当代AGI中的灵巧性和潜力。

ChatGPT耗电大有解了

当前，越来越多迹象表明，LLM不会是通往AGI的终极路径。

那是由于，基于Transformer架构的大模型，通过token预测完成推理，须要花费大量的算力。

此前ChatGPT日耗电50万度，曾被网友们吵上热搜。

若是能够发明一种，节省大量能耗的芯片，LLM的性能或在未来实现更大的飞升。

而「太极」可能会使通用人工智能（AGI）成为现实。
研究职员表示，

我们估量，「太极」将加速开拓更强大的光学办理方案，为根本模型和AGI新时期供应关键支持。

在将打算能力提升到AGI所需的水平方面，「太极」的模块化设计可能是一个关键上风。

清华团队设计了一个拥有1396万个人工神经元的分布式「太极」网络，超越了其他光芯片设计（147万个神经元）。

因此，「太极」实现了160.82 TOPS/W的能效。

与2022年一个团队实现的2.9 TOPS/W的能效比较，切实其实相形见绌。

能效的大幅提升，对付AI打算的可持续发展，至关主要。

对此，Science表示：

通用人工智能（AGI）的飞速发展带来了对下一代打算技能在性能和能效上的更高哀求，而光子打算被认为有望达到这些目标。

但目前的光子集成电路，尤其是光学神经网络（ONN），在规模和打算能力上都非常有限，难以知足当代AGI任务的需求。

来自清华的团队探索了一种新型的分布式衍射-干涉稠浊光子打算架构，成功ONN的规模扩展到了百万神经元级。
他们在芯片上成功实现了一个拥有1396万神经元的ONN，能够处理繁芜的千种别级分类和AI天生内容的任务。

可以说，这项研究是光子打算实际运用的一个主要进展，为各种AI运用供应了支持。

创新性分布式打算架构

根据论文先容，清华团队为采取分布式打算的「太极」，构建了一个深度较浅但宽度较广的网络构造。

这种可重配置的衍射干涉稠浊光芯片，是实现多种前辈机器智能任务的关键组件，涵盖了1000种别分类和内容天生等运用。

与传统的深度打算层层堆叠的方法不同，「太极」将打算资源分配到多个独立的集群中，为子任务单独组织集群，末了为繁芜的高等任务合成这些子任务。

详细地说，光学衍射层的完备连通特性，可以供应比传统DNN中的卷积层更大的变形能力。

这表明光网络具有用比电子系统更少的层来实现相同变换的潜力。

「太极」的分布式架构深度浅而宽，旨在以可持续和高效的办法扩展打算能力。

在CIFAR-10数据集中，具有四个分布式层的「太极」实现了与16层电子VGG-16网络相称的精度。

图 1. 「太极」：一个配备分布式打算架构的大规模光子芯片，专为百万神经元级芯片网络模型设计

图1（B）中展示了「太极」芯片，包括用于大规模输入和输出数据的双衍射单元，以及用于可重构特色嵌入和硬件多路复用的MZI阵列的可调矩阵乘法。

这些组件是「太极」（TEUs）的基本芯片上的实行单元，利用了光学衍射和干涉的强大变形能力。

图 1. 「太极」：一个配备分布式打算架构的大规模光芯片，专为百万神经元级芯片网络模型设计

接下来，再细看「太极」的设计构造。

下图A中展示了「太极」整体布局，分为三个部分：

1. 输入衍射编码器（DE）（蓝色标注）采取8×8光栅耦合器阵列进行二维信息吸收。
统共对64个通道的输入进行了编码，并将有效信息通过衍射调制权重压缩为8个通道。

2. 干涉特色嵌入（IE）（紫色标注）采取Mach-Zehnder调制器（MZM）阵列进行任意矩阵乘法。

3. 相对付衍射解码器，输出绕射解码器（DD）（蓝色标注）是反向的。

图2（B）便是由20个DES、4个IE，以及4个DES被支配为新的TEU，来处理32×32的patch。

每个DE处理一个8×8的分布式patch，原始1024个通道的输入数据被编码为32个通道。

接下来的4个IE打算特色嵌入，末了4个DD将嵌入解码为256个通道输出。

通过调度分布式DE、IE和DD模块的数量，形身分歧的特色嵌入通道数量和输出通道数量，可重构和可扩展的DE-IE-DD框架可以适应不同的patch大小和任务难度。

图2（C）展示了具有TEU群集的分布式架构。
图2D中，研究者绘制了不同不愿定性水平下的层数D和稳健性Lip（F）之间的关系。

图 2. 构建「太极」的示意图

（A）「太极」的实行单元（TEUs）。

（B）多个TEUs根据打算分配协议协同事情，组成TEU集群。
这些TEU集群采取滑动窗口机制处理较大的输入数据。

（C）繁芜任务被分解成多个大略任务，每个大略任务由一系列TEU集群（标记为「路径」）卖力处理。

（D）理论性能剖析表明，随着每层网络的缺点率增加，空想的层数（深度）在物理系统中会减少。
然而，采取多路径的打算分配可以有效扩展网络规模，提升打算能力。

图像分类，90%+准确率

为了测试性能，研究职员首先取CIFAR-10数据集，并将每条路径设置为6层。
这是实际噪声水平下的最佳规模，每层16-8-8-4-4-1 TEU。

七条路径的二值化准确率均匀达到94%。

结合四条基本路径的子结果，终极的准确率达到了76.68%，已经超过了现有的芯片架构。

对付所有七条路径，终极结果提高到93.65%，与目前盛行的电子神经网络的性能相称。

图3（E）是七条路径的全体测试集的稠浊矩阵，图3（B）列出了「太极」、传统芯片网络体系构造、自由空间光打算体系构造和电子对应体系构造之间的精度性能基准。

图3（D）则展示了额外的路径如何帮助纠正缺点的分类案例。

以田鸡图像为例，将七条路径的路径输出绘制为直方图（基本路径为紫线，额外路径为蓝线）。

在打算路径输出与每个类别的空想标签之间的相似度时，如果只采取基本路径（即缺点地将田鸡视为一艘船），则会做出错误的决定，但如果将所有七条路径放在一起考虑，缺点就会得到纠正。

图 3. 用于1000种别分类的大规模光芯片

（A）CIFAR-10的多路径二进制标签，个中数据集中的每个工具在每条路径上被标记为「0」或「1」。
单路径（传统方法）的分类准确率有限，但多路径（发起的方法）的分类准确率随参数数量增加而提高。

（B）比拟传统芯片上的光学、自由空间光学、基于电子的最前辈（SOTA）架构以及「太极」在不同路径数量下的CIFAR-10分类准确率。

（C）层数对10种别分类准确率的影响，展示了实验数据（条形图）和理论预测（曲线）。

（D）在CIFAR-10数据集中，一个样本通过「太极」的路径输出显示，最少的路径数量可能导致缺点判断，但增加路径数量可以纠正缺点。

（E）利用七条路径的CIFAR-10稠浊矩阵。

（F）在mini-ImageNet数据集上进行100种别分类任务的仿照（蓝色）与实验（紫色）结果。

（G）在Omniglot数据集上进行1623种别分类任务的仿照（蓝色）与实验（紫色）结果。

为了进一步挖掘「太极」的潜力，研究职员通过为更高等的任务支配更多路径来扩展规模。

在每条路径中，层数保持不变，但每层将包含更多TEU（每层16-16-8-8-4-4-1 TEU）。

在100个类别的mini-ImageNet数据集上，每条路径的均匀二值准确率在数值打算中为92.97%，在光学实验中为88.05%。

在七条基本路径和八条额外路径的情形下，100个类别的总精确率在数值仿照中为92.76%，在实际芯片测试中为87.34%。

个中，图3（F）是每个类别的精确样本计数显示为直方图。

音乐家艺术家，全能模拟

研究职员将每个音符的天生视为一个分类问题，从47个可能的腔调中进行选择，前后各有16个音符作为输入。

对付演习，团队利用了接管率为95%的MCMC方法，来优化天生的音乐片段的风格。

随着演习的进行，网络给出了一个在频率（音高）域中的音符分布，来表示音乐风格。

经由演习，网络中的参数被固定下来，以适应巴赫的音乐天生风格。

清华团队通过一个独立演习的网络对天生的结果进行评估，该网络给出了一个体现结果的巴赫风格概率的「巴赫指数」输出。

图4（D）演示了天生过程。
随机噪声作为初始输入，其巴赫指数为6.61%。
随着迭代的进行，腔调图中形成了模式，巴赫指数增加。

经由500次迭代，天生结果的巴赫指数达到95.17%，具有范例的巴赫风格。

在这种情形下，演习和天生被独立地处理为统共4个声音。

末了，「太极」创作了一个高度巴赫风格的合成四声合唱，如图4（B）所示。

图 4. 大规模光芯片用于多样化内容天生

（A）配备TEU集群的音乐天生网络。

（B）展示了巴赫风格原始音乐与天生的四声部音高模式的比拟。

（C）展示了天生的巴赫音乐的音符分布情形。

（D）利用巴赫指数进行迭代音乐天生，该指数用来评估天生音乐与巴赫风格的相似度。

再来看图像天生，不同艺术家和风格的图像，被用来演习下一代神经网络。

研究职员采取不同的比例来天生不同级别的纹理，如下图所示。

首先利用较大的Scale 1，天生粗纹理。
而较小的Scale 2，然后用于天生风雅纹理，从而得到具有多尺度纹理的风格化图像。

为了评估结果，研究职员对预演习的VGG-16网络进行了微调，以得出艺术家风格分类结果。

然后，作者在小图像（来自MNIST数据集的手写数字「4」）和大规模真实场景图像下测试「太极」。

输入的图像是风格化的，保留了场景中的工具形状，并添加了艺术纹理。

图 4. 大规模光芯片用于多样化内容天生

（E）配备TEU集群的图像天生网络。

（F）展示了三种不同艺术家风格的图像天生结果。
输入到「太极」的图像包括带有随机噪声的手写数字「4」和真实场景，目的是天生符合指定艺术家风格的风格化图像。
利用一个独立的分类网络（风格概率）来识别天生图像的风格。

此外，研究职员还进行了字体风格迁移的扩展实验，以进一步展示「太极」 chiplets的高等内容天生能力。

通过这些额外的实验，他们验证了「太极」不仅具有模拟艺术家风格的能力，而且能够从2D图像中提取更高层次的语义信息。

成果谈论

在这项事情中，团队设计了一种具有灵巧分布式打算架构的大规模衍射-干涉稠浊型光子AI芯片——「太极」。

在光芯片方面，「太极」深入探索了光子学的大规模并行连接，相较于其他TOPS/W级别框架，展现了更优的打算效率。

未来，借助直接激光写入（DLW）和相变材料（PCM），所有权重都能被重新配置，从而提升系统的灵巧性。
此外，芯片上的激光源、调制器和探测器也可以被整合到同一平台上，并通过晶圆键合技能实现高等集成。

在分布式打算架构方面，这种打算和任务分配方法不仅限于「太极」利用，还能帮助现有的光子集成电路（PIC）扩展其处理更高等任务的能力。

在当代通用人工智能（AGI）领域，处理更繁芜任务的趋势是不可逆的。
而「太极」展示了光子打算在处理多样化繁芜任务中的巨大潜力，使光学打算的实际运用成为可能。

团队认为，「太极」将加速更为强大的光学办理方案的开拓，为根本模型和新一代通用人工智能的发展供应关键支持。

标签：太极路径

清华首款AI光芯片登上Science全球首创架构迈向AGI_太极_路径

相关文章

vivo窍门难学_用户_产物

车规级芯片洗牌芯擎科技一马当先？_芯片_国内

干货|4种485隔离电路筹划图文+电路图讲解通俗易懂建议收藏_电路_暗记

2019年飞天茅台级别方法你还在用nfc芯片检测吗？_我们可以_茅台

智能音箱怎么存储？芯片该若何选择？_智能_音箱

比特大年夜陆最新款矿机S19公布能效比历史最强达到29.5J/TH_年夜陆_芯片

热门文章

最近发表

120W超快闪充15分钟充满 iQOO CJ现场体验_手机_游戏

vivo窍门难学_用户_产物

中国芯应该走“C”路线RISC-V架构+中国供献是关键？_希姆_欧洲

产品推荐：EXC120GT调频广播勉励器_蓝光_系列

2.0T+8AT可选7座奇瑞瑞虎8L新车解析_奇瑞_动力

主板左下角闪闪发光的灯带你知道有什么用吗？它保护着你的声卡_声卡_主板

「无线电史话」在英国接收广播电视旗子暗记要收费监测车沿街巡查_暗记_旗子

车规级芯片洗牌芯擎科技一马当先？_芯片_国内

干货|4种485隔离电路筹划图文+电路图讲解通俗易懂建议收藏_电路_暗记

俄罗斯PAC认证是什么？哪里可以解决？周期多久?_尺度_装配

标签列表