5款芯片已经面世可重构架构是AI芯片的新风潮？_重构_芯片

文章目录 [+]

AI的发展更加期待新架构的涌现，由于，经典的冯诺依曼架构处理器运用于深度学习打算时面临着内存墙寻衅（访问存储器的速率无法跟上运算器花费数据的速率）。
粗粒度可重构架构（CGRA，Coarse Grain Reconfigurable Architecture）是AI芯片受关注的一个方向，目前已经有5款采取该技能的芯片推出。

可重构是否是办理AI打算寻衅的一个好方向？已经推出的可重构AI芯片有何不同？

5款芯片已经面世可重构架构是AI芯片的新风潮？_重构_芯片 5款芯片已经面世可重构架构是AI芯片的新风潮？_重构_芯片互联网

什么是可重构？

（图片来自网络侵删）

可重构的观点最早在20世纪60年代被提出。
到了80、90年代，可重构芯片技能源头的高层次综合理论和方法出身。
进入新的世纪，2015年国际半导体技能发展路线图（ITRS）认为，粗颗粒度可重构架构（CGRA）是未来最有发展出息的新兴打算架构之一。

2018年，美国DARPA正式启动旨在支撑美国2025-2030年电子技能能力的“电子复兴操持”（ERI），提到研发具有软件和硬件双编程能力，并得到靠近专用电路性能的技能。
在这里领域，魏少军教授牵头的清华大学可重构芯片课题组在这个操持提出的十年前就开始了研究，课题组现在的成果比ERI设定关键性能的指标更高。

从60年前可重构观点的提出，到2019年有可重构AI芯片量产，可重构并不是一个新观点，却是一个寻衅浩瀚的技能。
这种寻衅很大程度来源于，动态可重构芯片既要有CPU和GPU级别的软件可编程性，也要有FPGA级别的硬件可编程性。

魏少军教授总结认为动态可重构芯片预期的特点和潜在能力差异于传统芯片有7点：

（1）软硬件可编程；

（2）硬件架构的动态可变性及高效的架构变换能力；

（3）兼具高打算效率和高能量效率；

（4）本征安全性；

（5）运用简便性，不须要芯片设计的知识和能力；

（6）软件定义芯片；

（7）实现智能的能力。

可重构芯片的技能的源头高层次综合（High-LevelSynthesis）理论和方法，是一种从行为描述到电路的优化设计方法。
也便是先找到数据依赖关系，然后通过运行韶光的分割，对运算进行调度来实现打算资源的复用。

高层次综合天生的专用集成电路架构

用高层次综合系统的实现过程进行更详细的阐明，系统输入用硬件描述措辞（HDL）写成的系统行为描述（如VHDL或Verilog），然后根据这些行为描述，通过高层次综合的编译器，天生包含数据和互连网络配置信息的微掌握码以及与系统功能干系的有限状态机。

不过，这里所说的“编译器”与传统的打算机的编译器并没有任何关系，只是借用编译器的观点，其核心是一整套高层次综合方法学的内容。

高层次综合系统使设计过程变得非常有序，也被认为是20世纪80、90年代集成电路设计方法学中最好的选择。

可重构芯片的基本架构

不过，半导系统编制程技能的演进也带来了高本钱的问题。
如果研发一款14nm制程的芯片，综合本钱高达1.5-2亿美元，常日要发卖3000万颗以上才能把研发本钱合理地摊销到每颗芯片上。
如果采取目前最前辈的7nm制程的芯片，综合本钱可能高达3亿乃至更多。
芯片的设计和制造本钱在增加，但AI对算力的需求也在按月增加。

这时候，复用芯片是个不错的选择。
设想一下，相同的芯片，功能可通过软件改变，不同的软件写入就变成了“专用”芯片。
这将是非常空想的情形，如果这个想法实现，可以认为软件定义芯片就成为了现实。

但寻衅在于，软件可以无限繁芜，实行韶光可以无穷长，硬件不管多大都有边界。
可重构芯片业面临浩瀚寻衅，个中有三个紧张的寻衅：

打算模式：如何提高阵列利用率？

阵列构造：如何提高打算能效？

算法映射：如何优化映射效率？

可重构技能的上风和寻衅都同样显著，采取这个技能，清微智能、耐能、云天励飞、燧原科技、WaveComputing相继推出了AI芯片，他们有何不同？

5款可重构AI芯片面世

清微智能

清微智的核心成员来自清华大学可重构打算研究团队，2019年量产的首颗芯片是TX210，这款语音SoC芯片可以运用于智好手机、可穿着智能设备、小家电、大家电、玩具、车载等场景。
清微的可重构芯片紧张分为三个维度，从MAC层面支持不同的位宽重构，到实行单元层面支持不同算子重构，再到阵列层面支持不同功能重构。

用一个更随意马虎理解的类最近阐明清微可重构芯片的可重构程度，清微的可重构芯片既可以是“乐高”层级的可重构，也可以是“面粉”层级的可重构。

清微智能CTO欧阳鹏此前接管雷锋网采访时透露，在可重构打算更低能耗和更强灵巧性的根本上，他们在详细的芯片设计上又做了两方面深化。

清微的AI芯片支持从1bit-16bit的稠浊精度打算，同时，不同的神经网络层可以采取不同的精度表示，可实现实时切换精度。
在详细实现过程中，可重构模式动态重组打算资源和带宽，根据精度表示，让打算资源和带宽靠近满负荷进行打算，从而将稠浊精度网络下的打算资源和带宽的利用率逼近极限，高效支持多种稠浊精度的神经网络。

其余，清微的AI芯片针对神经网络部分和非神经网络均进行了打算效率考虑。
针对非神经网络处理逻辑，从算法数据流图进行空间映射，以靠近ASIC效率打算。
同时，通过配置形身分歧的电路构造来动态处理不同非神经网络打算逻辑，在担保灵巧性条件下，打算效率有极大提升。

须要指出，可重构芯片代表的是采取的是数据驱动下的空域实行模式，差异于CPU、GPU、NPU诺依曼架构的时域打算模式，数据流驱动的芯片从架构上就可以避免了冯诺依曼架构的限定。

目前，清微智能除了可重构架构的语音芯片，还发布了面向智能家居、智能安防和新零售领域的低功耗图像识别芯片。

云天励飞

云天励飞没有详细阐明其芯片中的可重构架构，云天励飞副总裁芯片产品线卖力人李爱军在接管雷锋网采访时表示，云天的实现办法是从PE的维度进行可重构，可以理解为运算单元的可重构，通过工具链实现芯片的灵巧性。
因此，采取的办法和维度会有所不同（与清微比较），但终极的效果该当是异曲同工。

在其今年11月发布的专注边缘和端侧视觉新产品DeepEye1000先容中提到，采取存算领悟体系架构和可重构打算阵列，可以灵巧、高效的实行各种深度学习算法模型的推理打算，峰值算力达2.0Tops。

神经网络处理器采取可重构打算阵列，支持灵巧可编程打算流，打算效率超过99%，同时采取存算领悟体系架构，使得DDR存储访问带宽低落77%，功耗低落60%。

更多的技能细节，须要云天励飞进一步表露。

耐能

耐能今年5月在海内发布物联网专用AI SoC——KL520时表示这款新品利用了可重组架构，虽然不是可重构技能，但两者之间同样存在关联。
还是用上面的类最近阐明，耐能的架构是积木层级的可重组，清微智能的可重构则是面粉层级的可重组，更加底层。

耐能CEO刘峻诚阐明，可重组架构可以理解为这款芯片供应的是一堆乐高积木，须要支持语音AI的模型时就通过指令集进行组合，须要支持图像AI模型时，再重新组合，可以很好地支持多种神经网络模型，并且保持架构的精简性。

由此能够带来性能和功耗的上风，如果选用更加成熟的工艺制程，降落本钱，终极能实现高性能、低本钱、低功耗、高兼容性的上风。

至于如何办理AI芯片存储寻衅的问题，刘峻诚透露，他们的巧思是实现了动态存储DMA（Dynamic Memory Assessment），当处理器对存储没有很高的需求时，就预先准备好，当须要利用的时候就直接读取，实现效率的提升。

其余，可重组架构还能动态支持同一个神经网络的不同数据精度需求。
终极产品可以根据客户的需求，支持Int8、FP16或更高的精度。
压缩率也能够掌握在0.5%以内则是来源于耐能独特的开放平台，通过这个开放平台能够将压缩率提升40乃至50倍，压缩率丢失则小于0.5%，这是软件或者说软硬一体上风的表示。

据悉，耐能的可重组架构研究已经在国际有名的半导体期刊上发布，并且在美国、台湾都拿到了专利。

燧原科技

除了将可重构的理念和技能运用于边缘端，同样是海内初创公司的燧原科技在其云端演习AI芯片中也用到了可重构。

燧原科技的首款芯片邃思DTU基于可重构芯片的设计理念，其打算核心包含32个通用可扩展神经元处理器（SIP），每8个SIP组合成1个可扩展智能打算群（SIC）。
SIC之间通过HBM实现高速互联，通过片上调度算法，数据在迁居中完成打算，实现SIP利用率最大化。

如何理解DTU中的可重构芯片设计理念？燧原科技创始人兼 COO 张亚林见告雷锋网，“端上的可重构更多是低功耗以及可以轻易移植运用。
云真个可重构紧张的是把全体数学打算变成一种可编程的指令集和可控的流水线，让数学打算的模型可以重构，这样可以担保芯片的通用性，也能够适应快速迭代的AI算法。
”

更进一步的细节目前也暂不清楚。

Wave Computing

海内采取可重构技能的AI芯片不少，国外初创公司Wave Computing的AI芯片也采取该技能。
其基于数据流驱动DataFlow技能的DPU采取非冯诺依曼架构的软件可动态重构处理器CGRA技能，能在最合理分配和利用算力的同时，成倍节约了数据存储和传输带宽。
官方表示，这一方案基本上能将芯片算力资源的利用效率担保在75%-80%以上。

详细而言，DPU对一个完全的神经网络打算流程，每个打算节点，可以先分配好合理的资源，使得全体打算流程达到资源有效地利用。
处理完第一个任务节点，它会将数据直接传输到第二个任务节点的输入端，第二个任务处理完数据后，又会将任务送到第三个任务节点的输入端，就像流水线，最大程度减少数据存储和传输。

同时， DataFlow技能架构的整体办理方案会有一个独立的通用CPU模组来供应掌握、管理和数据预处理功能，但无需实时干预DPU。

目前，Wave Computing商用的DPU采取16nm制程工艺，每个DPU有16384个处理元件（PE），面积为300多平方毫米，并以6 GHz以上的速率运行。
其DPU与国内外多家云做事商和AI公司均有紧密互助，得当汽车电子、聪慧医疗等各种繁芜、算力哀求高的各种AI运用。

无论是国外还是海内，无论是云端还是终端，都有采取可重构技能的AI芯片已经推出，这表明可重构技能无疑是业界关注的一个新技能。
但各家对技能的理解和运用也有差别，从目前的信息看，清微智能对该技能做了更深入的解读，Wave Computing也发布文章阐明其DTU，云天励飞、耐能、燧原科技还没更进一步的技能解读。

空想的可重构不仅能够知足不断迭代的AI算法以及各种运用的需求，软件定义芯片的办法也能尽可能延长芯片的利用韶光，但实现空想的可重构芯片仍旧还有许多寻衅。