以AI为例,CPU、GPU、DSP等都可以运行,但是还是有专用的AI芯片,为什么呢?也跟算力有关。
CPU(central processing unit)是通用途理器,可以处理统统事物,就像一把瑞士军刀,哪方面都能做但都不是专业高效的。GPU(Graphics Processing Unit)是专门用来处理图形图像干系的处理器,与CPU比较GPU处理的数据类型单一,由于运算与AI相似以及随意马虎组成大的集群,以是进行AI运算时在性能、功耗等很多方面远远优于CPU,常常被拿来处理AI运算。DSP(digital signal processor),是专门用来处理数字旗子暗记的,DSP与GPU情形相似,也会被拿来做AI运算,比如高通的手机SoC。AI芯片是专门用来处理AI干系运算的芯片,这与CPU、GPU、DSP的“兼职”做AI运算不同,即便是最高效的GPU与AI芯片比较也是有差距的,AI芯片在时延、性能、功耗、能效比等方面全面的超过上面提到的各种处理器。以有名的谷歌的TPU为例,如下图所示,TPU的紧张打算资源为:

当时谷歌资深硬件工程师Norman Jouppi表示,谷歌的专用机器学习芯片TPU处理速率要比GPU和CPU快15-30倍(和TPU比拟的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍,这并不虞外,由于TPU运行的CNN运算紧张便是矩阵乘,专用芯片好处便是这样。实在对付对付AI来说,又分为演习和推理,演习就像AlphaGo一样须要学很多的棋谱(数据),常日采取数据精度为FP32。

不同精度打算花费的Bill Dally 在ACMMM 2017 上的《Efficient Methods and Hardware for Deep Learning》演讲中曾经列过一个不同精度打算的花费能量和硅片面积比拟,可以看出一个FP32精度的乘法运算花费是INT8精度的18.5倍。因此同样一块芯片运算INT8的数据与运算FP32的数据在同一韶光内运算次数相差很多,也便是说不同精度OPS不同,算力不同。
这样的精度如果运行在手机等终端上是弗成的,以是在在手机、汽车、安防等终端领域,都是实行模型的推理,现有的推理芯片有很多,比如特斯拉FSD、寒武纪NPU、地平线BPU、OPPO的马里亚纳、光彩利用的AI-ISP等。与演习阶段不同,在推理的时候,精度哀求并不高,以有名的工具监测算法YOLO(You Only Look Once)为例,FP32的精度与INT8的精度相差甚小,但是由于模型更小,神经网络模型的推理速率却大幅加快。这在终端上很主要,比如在汽车的自动驾驶上,如果推理打算的数据慢了会造成巨大的影响。
当然在安防等对精度哀求更低的地方,还有很多采取的是INT4精度的,比如爱芯科技的AX630A在INT4精度下的算力达到了28.8TOPS,可运用于智能盒子,运动相机,智能加速卡,工业摄像头等领域,如果是INT8精度便是7.2TOPS(这里要把稳的是并不是所有的AI芯片支持不同精度下的算力转换,这须要硬件实现上的支持)
在终端芯片上,厂商流传宣传的算力有时候乃至不是AI芯片的算力,由于CPU、GPU、DSP都可以进行AI的运算,以是在宣扬算力的时候采取的是CPU算力 + GPU算力 + DSP算力的算法,虽然这些处理单元都在一颗芯片上但是在实际利用上不可能同时进行AI运算。
由于一些手机芯片的AI处理能力不敷,以及处理流程在YUV域较为靠后,以是像OPPO等厂商开始推出马里亚纳这样的AI芯片,18TOPS并前置在手机SOC之前在RAW域进行 AI降噪的处理,可以大幅的提升夜景拍摄能力,保留更多细节。
光彩采取的AI-ISP也是一样的道理,实在这类芯片实质上是一个处理AI运算的NPU,从业务上来说更好的叫法是Pre-ISP,并不是真正的ISP芯片。





