AI芯片架构：落伍AI算力倍数增长围剿霸主GPU仍为时过早_架构_寒武纪

文章目录 [+]

虽然目前有各种测试办法来比较不同架构的性能落差，但追根究底，不同架构原来的设计目的就有不同，有的必须要兼顾通用打算，因此在芯片布局中必须塞入更多逻辑管理单元，有的专注于纯粹的打算能量，完备不考虑其他事情，因此可能在芯片险些大部分都塞乘加法器（MAC）之类的打算单元，也有的打算架构考虑的是各种情境下的通用打算需求，这些不同的考虑就产生的不同的效能/能效结果。

而比来欲在人工智能领域寻衅 GPU 架构的各种打算新秀，都不谋而合的号称可供应相较于 GPU 打算倍数以上的算力输出。
GPU 性能变成这些新架构最直不雅观的比较基准。

AI芯片架构：落伍AI算力倍数增长围剿霸主GPU仍为时过早_架构_寒武纪 AI芯片架构：落伍AI算力倍数增长围剿霸主GPU仍为时过早_架构_寒武纪智能

比如说包含寒武纪、华为的达芬奇架构，乃至是美国的 Habana 公司，都在产品发布时号称可在同样的规模设定下达到最高 1~3 倍于 NVIDIA 方案的性能输出。

（图片来自网络侵删）

后起之秀超越 GPU 的算力已经变成知识，且其流传宣传的性能上风也越来越大，以是 GPU 这种传统 AI 打算架构注定已经是末路黄花？实在这也还言之过早。
当然，以行销而言，直接点出自己产品和竞品之间的技能落差是最直接有效的方法，但厂商每每只会指出对自己有利的部分，而对那些较不利的部分略之不谈，因此谈论这些新架构时，还是得从其设计目的、详细架构的真实际算效率来不雅观察，才不会被厂商流传宣传的数字所蒙蔽。

末了，若这新架构在打算能量方面远优于旧架构，为何市场不选择这些理论上效率更高的打算架构？反而偏好既有的、没那么有效率的架构？

寒武纪与 TPU 渊源深，达芬奇、Habana 则都借鉴 GPU，精简以求效率为共通点

实在近几年崛起的多数 AI 打算架构都可以说是脱胎自 GPU 打算架构，由于 GPU 必须肩负弘大的通用打算事情，以是打算单元内包含了更繁芜的逻辑、分支预测、缓存、绘图管线、暂存设计，而新近的 AI 打算架构常日把 GPU 繁芜的 ALU(算法逻辑打算单元) 中他们认为多馀的部分去除，只留下纯粹的乘加法器，并根据须要添加自己的算法框架支持，或者是为了泛用而增加的可编程逻辑处理能力，再通过 SDK 包装之后就变成 AI 方案。

DT 君就以比来几个比较热门的 AI 打算架构来不雅观察，可以发觉实在寒武纪与 Google TPU 的渊源较深，而华为的达芬奇与美国 Habana 则可以说有异曲同工之妙。

图｜寒武纪的根本架构（来源：寒武纪）

寒武纪和 TPU 都是基于弘大乘加法器建构而成的类神经元打算架构。
从生物不雅观点来看，神经元中有许多突触，卖力为别的神经元通报信息。
同样，个别神经元也会吸收来自许多其他神经元的信息。

以寒武纪 DianNao 干系论文中所戳穿的内部构造来不雅观察，可以创造其打算体系分为三层，分别是 NFU-1 部分的乘法单元。
统共有 16X16=256 个乘法器。
这些乘法器同时打算，也便是说，一个周期可以实行 256 个乘法。

NFU-2 则是是加法树。
统共有 16 个。
每个加法树是按照 8-4-2-1 这样组成的构造，每个加法数有 15 个加法器。
NFU-3 是激活单元，共 16 个，紧张事情是根据前面两个单元打算得到的刺激量，从而判断是否须要激活操作。

除了这三个 NFU 阶段的打算逻辑部分，还有三个 Buffer 分别卖力存储输入数据、存储权值（filter 值），以及存储打算结果。
从整体架构来看，实在非常纯挚，也不须要进行任何逻辑判断，以是效能/能效可以达到非常高的程度。

图｜寒武纪论文中戳穿的 Cambricon-X 架构（来源：寒武纪）

而最新的 Cambricon-X 架构实在便是在 DianNao 的根本之下针对比来盛行的稀疏系数矩阵打算架构，稀疏打算可以牵扯到前段韶光火了一阵子，号称中国 NVIDIA，但后来卖给 Xilinx 的深鉴科技，其联合创始人韩松经由研究创造，传统的深度学习网络模型的许多权重系数是可以去除的，乃至能去掉 90% 以上还不会不影响模型的打算精度。

传统作法中，要删除权值系数必须花费很长的韶光去剖析模型，这也是之前深鉴方案之以是曾提到压缩神经网络模型与建立模型所需的韶光相仿乃至还要更长的紧张缘故原由。

虽然删减了大量权值系数后，模型网络所须要的乘法打算次数可大幅减少，但由于系数的稀疏具有不可控的随机性，不同 filter 的有效权重可能是不同位置的，以是，这就造成了大量权重并行打算时，无法做到同步，导致目前现有的处理器设计都并不能充分利用系数稀疏带来的加速效果。

寒武纪的 Cambricon-X 便是在 DianNao 的根本之下，追求对稀疏系数优化的架构。
而 Google 的 TPU 架组成长也约请了曾经参与寒武纪核心技能研发的核心人物 Olivier Temam，乃至 Google 在 TPU 的论文也引用了寒武纪团队成员前期揭橥的 6 篇论文，因此寒武纪与 Google 的 TPU 在设计上有相称深的渊源。

二者较大的差异紧张是在稀疏权值处理方面：TPU 属于二维的脉动阵列，输入数据的复用效率明显较低。
而寒武纪的 Cambricon-X 在矩阵越稀疏的情形下效率越高，但反之，效率就可能会明显降落。

图｜华为达芬奇架构。
（来源：DT 君）

而华为的达芬奇架构紧张也是浩瀚乘加法器构成的架构，华为将这个乘加法器猬集称为 Cube，不过与其他类神经网络芯片不同的是，华为在数据流调度方面用了分外的手腕，让数据流量可以最大化，从而创造更高的能效表现。

而华为在达芬奇架构所强调的 3D Cube 打算架构，实在与 NVIDIA 的 CUDA 和 TensorCore 有着异曲同工之妙，同样都因此矩阵处理阵列的立体形式来处理 MAC 中的乘加打算，而华为正也因此将之称为 3D Cube。

但达芬奇架构有个更分外的作法是，其在达芬奇核心中整合了标量，矢量，张量等各种指令集，可以合营其软件堆栈定制、优化数据打包和处理流程，是可自定义的 SIMD(单一指令多重数据流) 架构。
依其号称的效能推论，该当是从个别运用情境进行针对性的深度优化才有办法达成，因此可能会非常倚赖编译器。

而另一个最近才冒出头的 AI 加速架构 Habana，根据该公司的自述资料，其创立于 2016 年，通过为处理性能、本钱和功能带来数量级改进解锁人工智能的真正潜力。
该公司动手从头开拓人工智能处理器，为深度演习神经网络的特定需求以及生产环境中的推理支配进行优化。

图｜Habana 公司的 Goya 芯片架构示意图。
（来源：Habana）

乍看之下和中国此起彼落的 AI 芯片架构诉求相称同等，乃至在效能诉求上，也和寒武纪、达芬奇架构一样，都号称因此倍数的上风超越 GPU，不过 Habana 相较其他打算架构，实在更类似 GPU。

Habana 的 Goya HL-1000 推理芯片的核心是配备可编程能力自有指令集的 8 个 VLIW(超长指令集)TPC 内核，该公司声称，该架构具备了在所有的神经网络推理任务创建的 400 个内核库类型，也支持 8 至 32 位浮点和整数格式打算事情。

其 VLIW 架构是比较分外的设计，过去 VLIW 常日只会在高端专业打算架构才会涌现，比如说英特尔的 IA64，这种技能是基于一种非常长的指令组合，它把许多条指令进行打包连接并批次处理，从而增加打算的速率。
VLIW（超长指令字）体系构造是美国 Multiflow 和 Cydrome 公司于 20 世纪 80 年代设计的体系构造。

乍看之下，若以目前 NVIDIA 的技能来比较，其 GPU 架构属于 SIMD 技能，但 Goya 架构却是基于 VLIW，彷佛间隔有点迢遥？

不过 TPC 的打算单元包裹办法实在和 GPU 基于 ALU 猬集的 SM 块也是类似的观点，而其余一个 GPU 主流体系，也便是 AMD 的 GPU，也曾经采取过 VLIW 的设计办法，过去 GPU 利用 VLIW 有其理论性能上的上风，尤其非常适宜进行大量的规则化数据的处理，但驱动非常难以设计优化，尤其娱乐 GPU 要面对繁芜的游戏引擎和图形打算环境，更让 AMD 过去的架构很难在一开始与 NVIDIA 直接粗暴的打算办法在性能上相提并论，但 AMD 的 VLIW 架构每每在经由永劫光的驱动更新之后能有着明显赢过同世代对手 GPU 的实力，也因此 AMD 的GPU产品也常常被戏称为战未来架构。

不过由于优化的难度高，后来 AMD 放弃 VLIW 转而走 RISC 架构。
以是要说 Goya 比较像早期的 AMD GPU，而达芬奇架构则类似于后期 AMD GPU 的观点，实在也说得通。

Goya 采取了 VLIW 办法，目的该当与华为的达芬奇的作法类似，便是作为管理数据流与指令打包办法的优化作法，目的都是为了要在个别运用情境下有更高的性能表现，而由于 AI 打算环境远比游戏运用纯挚，因此优化难度明显较低。

而根据 Habana 公司供应的测试数据，基于其 Goya HL-1000 处理器的 PCIe 打算卡可在 ResNet-50 推理基准实现每秒 15000 张图片的吞吐量，延迟韶光为 1.3 毫秒，功耗仅为 100 瓦，我们以熟习的麒麟 980 芯片的同样测试项目来比较，该架构的性能是每分钟 4500 张，约为每秒 75 张，而麒麟 980 内建 NPU 的峰值功耗推估约在 2W 旁边，换算之下，Goya 打算卡的每瓦性能是 150 张，而麒麟 980 的 NPU 每瓦打算性能约 37.5 张，可见其架构效率的上风。

当然，由于架构针对的运用情境和内建缓存、总线的规模都不同，这样的比较并禁绝确，但轻微可看出 Goya 架构的效率表现达到什么程度。
对了，麒麟 980 是 7nm，而 Goya 打算卡则是 16nm。

根据官方表示，与如今数据中央支配的一样平常办理方案比较，Habana Labs 人工智能处理器的性能要赶过一到三个数量级，若以 GPU 打算卡为比较基准，则可达到 3 倍的能效输出。
相称令人熟习的说法，是吧？

后起之秀强压老架构？

不要忘了，即便是 NVIDIA 最新的 Volta 和图灵架构中的 CUDA 核心，也便是 GPU 的根本打算单元，虽然架构效率有随着韶光进行修正、提升，但多数集中在内存子系统的强化，整体架构和老旧的 Pascal 并没有太大的不同，其在专业打算中所呈现出来的演习性能表现增长紧张还是由于工艺的改进，使得 CUDA 数量和时钟速率增长所带来的结果。
换言之，这些在 AI 打算的后起之秀用以作为比较基准的，是个已经有两三年历史的老架构。

若理论效率能够很好的转换为实际表现，那么现有的 AI 打算架构该当早就很快的被这些新的给取代，但实际上，NVIDIA 仍旧在市场上拥有靠近独占的地位，即便其打算效率并不是最高。

其余，以架构纯粹的纯人工智能加速打算架构和 GPU 相提并论是否适当，实在也是值得磋商的问题。

肩负多重任务，GPU不但是GPU

前面也提到，GPU 过去依赖其弘大的打算单元能够很好的处理机器学习事情，但由于 GPU 的紧张功能还是绘图打算，有相称大比重的晶体管并非利用在打算事情上，为填补整体打算架构的效率，NVIDIA 也为其增加了 TensorCore 核心，填补原来纯粹 GPGPU 架构针对推理事情的短板，该核心也能同时进行演习加速事情。

以同样晶体管规模的纯粹演习或推理性能而言，TensorCore 远超过标准 CUDA 单元，比如说 FP16 深度学习的性能，利用 TensorCore 的性能表现在空想情境下可达纯粹 CUDA 的 3 倍以上。

那大家可能会好奇，为何 NVIDIA 不推出纯粹利用 TensorCore 的芯片，以该架构全面取代效率较低的 CUDA 单元？那要在同样的芯片规模下取得和寒武纪等后起之秀类似或更好的性能实在不是难事。

但重点是有没故意义。
若不久之后系统对付纯粹 AI 性能的哀求更高了，而半导体设计和制造技能又遭遇瓶颈，或许 NVIDIA 可能会这么做，以纯粹的 TensorCore 芯片来对抗竞争对手。
但就目前而言，坚持 GPU 架构的延续对 NVIDIA 有更主要的计策意义，毕竟专业打算虽然利润高，但市场规模小，而娱乐绘图市场规模大，且可运用的空间广，只假如包含视觉处理的事情，基本上都和 GPU 脱不了关系，对 NVIDIA 而言，是极为主要的现金来源。

其余，以单一架构进行量产，可在芯片制造上取得较好的经济规模，对利润率的提升有更好的帮助，而 NVIDIA 近年来的财务数字表现也证明了这个不雅观点。

而根据 NVIDIA 方面的论点，TensorCore 不但能在 AI 打算环境中发挥浸染，未来也将肩负着游戏或虚拟环境中的 AI、物理仿照事情，对 NVIDIA 而言，任何硬件功能区块的加入都不会是只有针对单一事情，而是要针对更广，且适宜未来运用发展的的打算考虑。

当然，FPGA 和 DSP 平分歧类型的打算架构也和 GPU 有类似的状况，不过这二者不在本文的谈论范围中。

也因此，如果要把只能用于单一用场的架构拿来和多功能的架构比较，就好比拿同样 1000cc 汽缸的摩托车和汽车比较，摩托车肯定在加速方面可以有很亮眼的表现，可能更快到达目的地。
但是汽车能用来承载更多搭客，也能载更多货色，孰优孰劣，端看运用目的，实在没有办法很直不雅观的进行比较。

而目前 GPU 在特定效能数字上的弱势也不是没有办法办理，如果未来 NVIDIA 把针对不同运用的 GPU 进行更彻底的特化，比如说给专业打算的就配备更大的 TensorCore，给娱乐绘图的就更大的 GPU 区块，GPU 仍是共通的逻辑处理核心，但依照运用而给予的晶体管分配比重各有不同，那么现在动辄号称能效数倍于 GPU 的后起 AI 打算架构能否坚持上风就很难说了。

重点在于生态的养成

生态这两个字已经是旧调重弹，所有的新架构在推出时都每每会在其行销材料上挂上这两个字，但实际上能做到的却少之又少。

举例来说，NVIDIA 当初之以是能够成功，紧张还是在开拓环境与教诲演习的完备，当初为了推动 CUDA 开拓环境，NVIDIA 与许多行业、学校互助，并且把干系的开拓环境和学校课程进行结合，且同步举办多种竞赛活动，不仅是炒作市场气氛，也同时是在检视其教诲手段的成效如何。

但反不雅观目前国内外的新创 AI 架构推动者，多数都是针对特定的运用着眼，而非真正创造泛用架构，对付创造生态并没有太多兴趣，而故意愿打进教诲体系的更是少之又少，毕竟对这些架构开拓者而言，能顾好自己的目标市场就好，要顾及更大的领域，实在力有未逮。

但如果是拥有弘大成本的 AI 方案公司，却不进行这些长远操持，只求以性能表现来“弯道超车”，这样的生态或许能拿到少数互助伙伴的支持，但能在市场上坚持多久，实在也是令人存疑。

在这种家当背景下，华为所推动的“AI 开拓者启动操持”在中国 AI 打算市场就显得相称特立独行，该公司承诺将会投资 1.4 亿美元来教诲培训 AI 人才，实在算是故意要仿效 NVIDIA 之前经营生态的作法。
该操持将帮助华为与开拓者、互助伙伴、大学和研究机构互助打造更好的开拓生态系统，从而增援 AI 资源、平台、课程和联合办理方案。
其次，华为也会供应资金和技能支持，供应测试平台给开拓者、互助伙伴。

金额虽然并不算特殊大，且起步也有点晚，但其在建立生态上定下了相称远大的目标：利用 3 年韶光，发展 100 万 AI 开拓者及伙伴。

由华为正在推动的操持可看出，在公布达芬奇架构以及基于该架组成长出来的昇腾方案后，打的便是长远的生态战役。

建立生态依赖的是长期的经营与资源的投入，期间可能付出多回收少，但假如成功以技能和商业模式上风说服开拓者以及干系供应渠道，今后对干系市场经营的黏着性将有吹糠见米的效果。
虽然现在要判断达芬奇架构以及昇腾方案的前景如何仍为时尚早，但其市场策略基本上已经走到精确的道路上了。