你的AI芯片有自己的DNN吗？_神经收集_硬件

文章目录 [+]

为了让AI加速器在最短延迟内达到最佳精准性，特殊是在自动驾驶汽车（AV）中，TFLOP(万亿次浮点运算)已经成为许多所谓大脑芯片的关键指标。
这场竞赛的选手包括英伟达的Xavier、Mobileye的EyeQ5、特斯拉的全自动驾驶(FSD)电脑芯片，以及NXP-Kalray芯片。

然而，有专家认为这种野蛮处理办法并不可持续。
在EE Times的一次独家专访中，DeepScale的首席实行官Forrest Iandola给出了其不可持续的情由，是由于AI硬件设计师所持有的许多常见的假设已经由时。
Iandola清楚地认识到，随着AI运用日益增多，AI供应商从中积累更多的履历，这导致不同的AI任务开始需求不同的技能方法。
如果事实的确如此，AI用户购买AI技能的办法将会改变，供应商也必将做出回应。

你的AI芯片有自己的DNN吗？_神经收集_硬件你的AI芯片有自己的DNN吗？_神经收集_硬件互联网

图1

（图片来自网络侵删）

Iandola表示：就拿神经网络架构搜索(NAS)来说吧，其快速发展不仅加快优化深度神经网络(DNN)的搜索过程，并降落这一过程的本钱。
他相信有一种方法可以“在目标任务和目标打算平台上建立最低延迟、最高精度的DNN”，而不是依赖于更大的芯片来处理所有的AI任务。

Iandola设想未来AI芯片或传感器系统(如打算机视觉、雷达或激光雷达)供应商不仅供应硬件，而且还会供应自己的高速、高效的DNN——为运用而设计的DNN。
任何给定的供应商都会为不同的打算平台匹配各自所需的DNN。
如果事实真是如此，那AI竞赛中的所有赌注都将失落效。

须要明确的是，目前无论是芯片公司还是传感器供应商都没有提出上述前景。
乃至很少有人在特定硬件上运行有针对性的AI任务的可能性。

Iandola及其DeepScale团队最近设计了一系列DNN模型，称为“SqueezeNAS”

在最近的一篇论文中，他们声称，当在目标平台上搜索延迟时，squezeNAS“可以建立更快、更准确的模型”。
这篇论文推翻了AI社区先前对NAS、乘积累加 (MAC) 运算和将ImageNet精度运用于目标任务时所做的一些假设。

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立，是一家位于加利福尼亚州山景城的初创公司，致力于开拓“微型DNN”。
两位联合创始人曾在加州大学伯克利分校共事。
DeepScale因其快速高效的DNN研究而在科学界备受推崇。

手工设计

要想真正理解机器学习在打算机视觉方面的最新进展的意义，须要理解一下其发展历史。

还记得AlexNet 网络构造模型在2012年赢得 ImageNet 图像分类赛吗？这为研究职员打开了竞争的大门，让他们专注于ImageNet研究，并探求能够在打算机视觉任务上达到最高精度的DNN，以此开展竞争。

图2

常日，这些打算机视觉研究职员依赖专家工程师，他们会手工设计快速和高精度DNN架构。

从2012年到2016年，他们提高了打算机视觉的准确性，但都是通过大幅增加运行DNN所需资源来实现这一目标。
Iandola阐明说，例如，赢得2014年ImageNet比赛冠军的VGGNet，其利用的打算量是AlexNet的10倍，参数是AlexNet的2倍。

到2016年，学术研究届创造通过增加DNN的资源需求来提高准确性是“不可持续的”。
SqueezeNet便是研究职员探求的浩瀚替代方案之一，由Iandola及其同事在2016年揭橥，它展示出在眇小预算(低于5MB)参数下ImageNet的“合理的准确性”。

Squeezenet引发了两个重大变革。
相对付SqueezeNet和其他早期运算而言， MobileNetV1能够大幅度减少乘积累加运算 (MAC)的数量。
Shufflenetv1是为移动端CPU实现低延迟而优化的DNN。

利用机器学习（ML）改进机器学习

如前所述，所有这些前辈DNN都是通过人工设计和调度神经网络架构开拓而成。
由于人工流程须要专业的工程师大量的试错，这很快就成为一个本钱太高、耗时太久的发起。

因而基于机器学习，实现人工神经网络设计自动化的理念，即NAS应运而生。
NAS是一种搜索最佳神经网络架构的算法。

NAS改变了AI格局。
Iandola称，“到2018年，NAS已经开始构建能够以较低延迟运行的DNN，并且比以前手工设计的DNN产生更高的准确性。
”。
”

强化学习

随后，打算机视觉界开始利用基于机器学习(ML)的强化方法——强化学习(RL)。

换句话说，“机器学习得到反馈来改进机器学习，” Iandola阐明说。
在基于RN的NAS下，未经演习的RL得到建议，指定层数和参数来演习DNN架构。
一旦对DNN进行演习，演习运行的结果将作为反馈，从而推动RL运行更多DNN来开展演习。

经证明，基于RL的NAS是有效的。
谷歌MnasNet便是一个很好的例子，它在ImageNet延迟和准确性方面都优于ShuffleNet。
但它也有一个关键的弱点: 本钱太高。
基于RL的搜索常日须要数千个GPU天数(GPU day)，以演习数百乃至数千个不同的DNN，才能天生空想的设计。
“谷歌包袱得起，” Iandola表示，但大多数其它公司包袱不起。

现实地说，一个基于RL的NAS要演习一千个DNN，每个DNN常日须要一个GPU天数。
考虑到目前亚马逊云做事平台的价格，Iandola估计，一个利用基于RL的NAS搜索所花费的云打算韶光可能耗资高达7万美元。

超级网络

在这种情形下，去年年底涌现了一种新的NAS类型，称为基于“超级网络”的搜索。
它的范例代表包括FBNet (Facebook伯克利网络)和SqueezNet。

图3

Iandola阐明说:“超级网络采取一步到位的方法，而不是培训1000个独立的DNN。
”

例如，一个DNN有20个模块，每个模块有13个选项。
若为每个模块选择一个最喜好的选项，“你正在以10个DNN演习运行花费为代价，一次性演习一个搜集了千万亿种DNN设计的DNN，”Iandola阐明说。

结果表明，基于超级网络的NAS可以在10个GPU日的搜索韶光内建立DNN，其延迟和准确性优于MnasNet。
“这让搜索本钱从70,000多美元减少到大约700美元亚马逊云做事GPU韶光，”Iandola说道。

“10个GPU天数”的搜索韶光相称于在一台如衣柜般大小的8 GPU机器上花费一天的韶光，” Iandola阐明说。

图4

过期的假设

机器学习的简短历史向我们展示神经构造搜索的涌现如何为打算机视觉研究奠定了根本。
但是在这个过程中，它也回嘴了研究团体早期的一些假设，Iandola指出。

那么，哪些假设须要纠正呢？

Iandola称，大多数AI系统设计者认为，ImageNet分类中最精确的神经网络可以为目标任务供应最精确的骨干网络。
但打算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标跟踪、间隔估计和自由空间等。
“并非所有任务都是平等的，” Iandola强调。

ImageNet的准确性与目标任务的准确性没有太紧密的关联。
“这没法担保,”他说。

看看由Iandola团队创建的SqueezeNet。
Iandola阐明道，这是一个小型的神经网络，它的ImageNet分类精度明显低于VGG，但在“用于识别一组图像中相似斑块的任务”时，它比VGG更准确。

随着分类任务达到极限，Iandola坚信是时候为不同的任务设计不同的神经网络了。

另一个普遍的假设是“在目标打算平台上减少乘积累加运算(MAC)将产生更低的延迟。
”

然而，最近的研究表明，减少MAC与减少延迟并无太大关联。
“拥有较少MAC的神经网络并不总是能够实现较低的延迟，”Iandola指出。

在Iandola的SqueezeNAS论文中，他坚持认为，不仅仅是不同的AI任务须要不同的DNN。
为目标打算平台(如CPU、GPU或TPU的特定版本)选择得当的DNN也非常主要。

例如，他引用了为不同智好手机优化网络的FBNet作者的话。
他们创造DNN在iPhonex上运行得很快，但在三星Galaxy S8上运行得很慢。
在论文中，Iandola的团队总结道，“纵然MACs的数量保持不变，不同的卷积维数也会根据处理器和内核实现决定运行得更快或更慢。
”

对自动驾驶的影响

本日，DeepScale已经与多家汽车供应商建立了互助关系，包括Visteon、Hella Aglaia Mobile Vision GmbH和其它未透露名称的公司。
DeepScale一贯在开拓微型DNN。
该公司声称，他们在担保最前辈的性能的同时，它们须要的打算量更少。

在SqueezNas的论文中，Iandola和他的同事阐明道，其团队利用基于超级网络的NAS来设计一个用于语义分割的DNN，用于识别道路、车道、汽车和其它物体的精确形状等详细任务。
“我们对NAS系统进行配置，以优化 Cityscapes语义分割数据集的高精度，同时在小型汽车级打算平台上实现低延迟。
”

随着SqueezNAS的发展，DeepScale对自己的定位是：在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。

随着AI芯片即将席卷市场，Iandola认为系统设计师必须明智地选择加速器。
他们该当确切地考虑硬件该当实行哪种AI任务，以及硬件加速器该当在哪种神经网络上运行。

安全摄像头、自动驾驶汽车和智好手机都将利用AI芯片。
考虑到每个别系所需的速率、准确性、延迟和运用程序大不相同，确定得当的硬件和NAS就变得至关主要。

Iandola表示:，对付OEM车厂来说，要把一个测试版AV变成一个商业产品，必须把目前存储在AV车后箱中的刀片做事器抽取出来。
Iandola预测，汽车制造商可能会哀求硬件芯片公司供应适宜硬件平台的优化DNN。

对付英伟达这样的公司来说，这可能不成问题，由于它的GPU得到了一个大型软件生态系统的支持。
然而，大多数其他AI硬件供应商将会出一身冷汗。

此外，随着一系列新的传感器——摄像头、激光雷达和雷达—被设计成AVs，汽车原始设备制造商将面临一些残酷的现实。
例如，每个传感器可能利用不同类型的神经网络。
另一个例子是，不同品牌设计的激光雷达利用不同的AI硬件。
Iandola指出，“本日，无论是传感器供应商还是AI处理器公司都没有供应针对其硬件进行优化推举的神经网络。
”

Iandola表示，OEM车厂和一级零部件供应商将开始哀求优化DNN，以匹配特定硬件和AI任务，这将无法避免。
“我们相信，利用NAS优化目标打算平台上的低延迟变得越来越主要。
”

随着基于超级网络的NAS的涌现，NAS的本钱已经不才降。
因此，现在可能是时候让硬件供应商开始探求自己的优化DNN。
当被问及DeepScale是否操持通过互助、授权或为AI硬件公司开拓优化DNN来补充这一缺口时，Iandola说道，“我们还没有真正考虑过这个问题。
”