本文编辑|梁家祥
7月17日,智东西公开课推出的AI芯片系列课进行完第四讲,由灵汐科技首席架构师冯杰主讲,主题为《类脑芯片的架构演进》。冯杰老师环绕CPU、GPU、FPGA、ASIC以及类脑等代表性芯片架构从算法支持度、规模扩展性、有效算力、有效算力本钱比、有效算力功耗比五个维度做了详细的比拟剖析,并对Tianjic类脑芯片架构的高算力、低功耗、高扩展性和高并行度及运用做了详细先容,本文为冯杰老师的主讲实录,共计13868字,估量读完须要13分钟。

主讲实录
冯杰:大家好,我是灵汐科技芯片架构师冯杰。感谢智东西供应互换平台,让大家能够在一起互换人工智能的发展。本日我分享主题为《类脑芯片的架构演进》。以下是本日要分享的提要:

1.人工智能的驱动力和现状
2.代表性芯片架构剖析
3.人脑的启迪
4.Tianjic芯片架构剖析
5.灵汐科技的类脑打算平台
这张图相信大家都很熟习,它揭示了这些年人工智能在某些领域发达发展的根本缘故原由,也便是说,在得当的机遇,有大量的数据、有效的算法以及比较高的算力进行有机结合,推动了人工智能的高速发展。
本日,很多领域都能看到人工智能的身影,从创作到游戏,从金融到安防等,很多行业为了提升效率和品质,都在采取AI技能,因此有人说我们正在进入智能时期,在我看来,这并没有夸年夜,至少我们已经站到智能时期的门槛附近了。
但是,本日我们也不得不看清一个严厉的现实,那便是数据量越来越大,数据类型越来越多,从以前紧张的文本信息,到后来的图像信息、音频信息、视频信息,再到现在和未来各种传感器信息,数据的种类是五花八门,多种多样,数不胜数的;在算法上,不同的运用领域有不同的算法呈现,比如有图像识别算法、语音识别算法以及目标跟踪算法等,各种算法日月牙异,种类繁多,高速发展。但是它们的基点,也便是算力的进步却越来越慢,已经大大掉队于数据和算法的需求。我们都知道供应算力的是芯片,我们也知道芯片工业的发展已经快到极限了,目前是7nm量产,大概明年后年便是5nm或者1nm会量产,也可能在未来会有更小的尺寸,但没有人知道能不能连续坚持下去,到目前为止,能够实用的新材料暂时还没有看到。
数据和算法还在连续高速发展,我们须要立足于现状,剖析问题的缘故原由,找出办理的办法,接下来我会对数据、算法以及算力逐一加以剖析。
从这张图可以看到,数据量在呈指数级增长,由于数据量是由数据的产生办法、存储办法以及传播办法决定的。因此,随着科技的进步和社会的发展,数据量一定是越来越大的。
本日我们每个人都是大量数据的制造者,比如平时拍照、录音、录视频、刷朋友圈等,再加上物联网时期正在走近,如果在未来真正实现了万物互联,数据量会更加弘大。数据包含有用的数据和垃圾数据,当然,有用数据和垃圾数据是相对的,取决于怎么利用这些数据,谁利用这些数据。
如何对海量数据进行分类,分辨出有用数据,还是垃圾数据,以及如何对这些数据进行处理,挖掘出有用数据的代价,让它们做事于人类呢?这是一个巨大的寻衅。
人力是有限的,数据是无限的,靠人工肯定是不可能的,只能靠人工智能代替人对数据进行分类和处理,并做事于人类。而人工智能之以是能够处理这么大的数据,靠的是算法,接下来我们来看看人工智能的算法。
首先是人工神经网络的算法,这是我们最熟习的人工智能算法。目前最盛行最强大的深度学习算法便是最有代表性的人工神经网络算法,这张图片描述了人工神经网络的发展进程。
1943年,生理学家MeCulloch和数理逻辑学家Pitts第一次提出人工神经网络的观点,同时也提出了第一个人工神经元的数学模型,也便是著名的MP模型(神经元的阈值模型),人工神经网络的时期就此开启。但是,纵不雅观全体人工神经网络的发展并不是一帆风顺,也是几经波折才发展到本日的繁华局势。
1958年,Rosenblant在原油的MP模型根本上提出了非常著名的感知器观点,也叫感知器模型。它是一种最大略的二元线性分类器,后来被广泛运用。感知器模型的提出和运用迎来了人工神经网络发展的第一次高潮。1969年,Minsky和Papert创造感知器不能处理线性不可分问题,也便是“异或”问题,看起来挺大略的“异或”问题,感知机无法办理;同时,由于当时的打算机也是刚刚发展不久,性能很低,很难快速运行大规模的神经网络的打算,因此人工神经网络的发展第一次陷入了低潮。但是人工神经网络的发展并没有就此结束,还是有一批人前赴后继,探求提高的道路。
直到1974年,Werbos提出偏差反向传播有监督学习算法,也便是我们本日都在用的BP算法,用偏差反向传播算法可以演习多层感知机即MLP,它有效地办理了“异或”问题,这是很主要的一步,算是彻底迈过了1969年Minsky和Papert给我们留下来的难题,翻开了人工神经网络发展的新篇章。
1982年Hopfield提出了著名的Hopfield网络。Hopfield是仿照人类影象的循环神经网络模型,对神经网络的信息存储和提取进行非线性的数学描述。到1986年,Rumelhart和McCelland提出了BP神经网络,采取Sigmoid非线性构造函数(也叫S函数),并且系统地建立了多层感知器的BP学习算法,后来在1989年,三层或三层以上的BP网络从数学上也被证明了可以逼近任何干闭区间内的连续函数,这便是著名的万能逼近定理。
万能逼近定理是指一个前馈神经网络如果具有线性输出层和至少一层具有某种“挤压”性子的激活函数的隐蔽层,例如Sigmoid激活函数,只要给予网络足足数目标隐蔽单元,那么它就可以以任意精度来近似任何从一个有限维空间到其余一个有限维空间的Borel可测函数。大略来说,便是三层的BP网络,如果中间隐蔽层足够宽,同时带上得当的激活函数,就可以让一个空间无限逼近其余一个空间的函数,当然,我们知道这只是理论上的。
1989年,LeCun在论文中提到的CNN BP演习方法,算是人工神经网络的第二次高潮。回顾人工神经网络的发展进程会创造,我们的前辈是非常聪明的,无论是BP算法还是CNN的提出,他们在几十年前就已经为我们打下了坚实的根本,而我们只是在做一些实现,实现他们当时不具备条件去验证以及大规模推广的理论,我们本日的进步都是站在他们的肩膀上取得的。
上个世纪末九十年代,人工神经网络又碰到了难题:基于Sigmoid激活函数深层人工神经网络在演习时会碰着梯度消逝的问题。也便是说BP演习过程中通报的偏差从后往前越来越小,偏差传到浅层时险些为零,很难进行更有效的学习演习,大略地说,便是网络深度无法再增加了,性能受限了。
同时,九十年代互联网的飞速发展吸引了绝大多数人的眼力,纵然当时人工智能领域比如专家系统也取得了不小的进步,但是很少有人关注,这个期间算是人工神经网络的第二次低潮。当然人工神经网络的研究并没有结束,而在这个期间,LSTM模型在1997年被提出,同时LeNet也在1998年被提出。
直到2006年,多伦多大学教授Geoffrey Hinton把单层受限玻尔兹曼机堆栈成了多层深度信念网络(Deep Belief Network,简称DBN),并且提出了无监督逐层贪婪预演习方法,再结合全局有监督BP算法进行微调,使得七层以上的神经网络演习得到收敛。Hinton让我们看到了深度学习的曙光,我们确实即将迎来了深度学习高速发展的时期。因此有人说2006年是深度学习元年,Hinton被人尊称为深度学习之父。
接下来几年深度学习一贯在发展,比较主要的是2011年,大家用不连续可导的ReLU激活函数代替原来一贯利用的连续可导激活函数,比如Sigmoid激活函数。ReLU的利用抑制了深层网络演习梯度消逝的问题,让我们能够进一步加深网络。因此在2012年,Hinton的学生提出了AlexNet,第一次利用深度达到八层的CNN网络,并在当年的ImageNet图像识别大赛中取得冠军。
从2012年开始,接下来四年的图像识别大赛中算法的识别率越来越高,直到2015年的ResNet,它的识别率达到了96.43%,已经高于人眼识别率(大概是95%)。ImageNet图像识别大赛对深度学习算法的发展起了很大的推动浸染,大赛期间伴随着人工神经网络的深度越来越深,网络构造越来越繁芜,性能也越来越好。
在人工神经网络算法发展的过程中,还伴随着几个标志性事宜的发生,也便是图上面的那些红点。比如1997年IBM深蓝打算机在国际象棋中打败了当时的天下冠军,取得了不小的轰动;而最引人瞩目的还是2016年,AlphaGo击败李世石,这场比赛的结果才算是真正点燃了大众对人工智能的关注,让大家把目光投向了人工智能领域,紧随着便是资金和人才大量向人工智能领域搜集,为人工智能进一步发展开启了一个黄金时期。今年(2018)六月份,在DOTA 5V5游戏中,人工智能又赛过业余玩家,我想赛过职业玩家该当指日可待,在这个游戏中,人工智能已经开始表露出了合营、领导乃至捐躯的策略,我相信这又将是人工智能发展的一个里程碑。
从以上的回顾中,我们能看到人工神经网络虽然几经沉浮,但是也取得了傲人的成绩,而且直到本日,在不同的运用领域中,深度学习算法还在连续提高,比如领悟不同的网络以及一些传统算法来办理更多更高难度的任务。
但是我们也该当看到,现有的深度学习算法也有它固有缺陷。比如我们曾经想尽办法在宽度上拓展网络,取得了性能的提高,后来又想尽办法在深度上挖掘,取得了显著的性能提升,可是到了本日,我们创造,连续增加网络的深度和宽度,性能都不会再得到提高了。曾经最引人瞩目的图像识别领域,这几年的性能险些没有提升,2015、2016以及2017年的误识率基本上都在3%旁边。大概现在正是我们把目光投向人工神经网络以外的其他算法领域的时候了,比如神经动力学。
神经动力学实在比人工神经网络涌现得更早。早在1907年就涌现了神经元的行为学模型“LIF”模型;1952年又涌现了神经元的仿生学模型“Hodgkin-Huxley”模型(简称HH模型);2003年涌现了介于行为学模型和仿生学模型之间的“lzhikevich”模型。
神经动力学和人工神经网络都属于人工智能连接主义研究的范畴,但是它们的侧重点是不一样的,人工神经网络,比如DNN是借鉴大脑对信息分层处理的特性,在空间上模拟大脑;而神经动力学是既借鉴大脑神经元连接的空间特性,又借鉴神经元处理信息的韶光动力学过程,具备了丰富的时空动力学特性。以是我们以为它更靠近真正的神经元模型,也更靠近于大脑的布局和信息处理机制,很有可能成为通用人工智能的打破口,但是这些都因此算力为代价的。
上面的坐标图表示不同的神经动力学模型对算力的哀求和仿生学程度。横坐标代表打算不同的神经动力学模型所要花费的算力代价,纵坐标是不同模型的仿生学程度,也便是生物可信度。从图上我们可以看到仿生学程度越高所哀求的算力也就越高。
比如“HH”模型在打算中有大量的微分方程,因此须要发挥很大的算力,而现在的打算机是很难进行处理的;又比如“lzhikevich”模型,对算力的哀求属于中等,但是也还是很高,以是它的运用范围也不广。
“LIF”模型的数学方程和前二者比起来就大略多了。通过LIF动力学以及其他的变体可以构建多种多样的神经网络模型,最有代表性神经网络模型有两个:非脉冲编码的连续LIF模型和基于脉冲编码的LIF模型,也便是脉冲神经网络SNN。由于SNN最大略,对算力哀求也最低,因此也最为我们所熟知,很多时候SNN切实其实成了神经动力学网络的代名词。
从上面我们可以看到,神经动力学的发展是与算力息息相关的。为了神经动力学的发展,建立起既能高效支持人工神经网络算法,又能高效支持神经动力学算法的打算平台显得尤为主要。接下来我会剖析一下现有的人工智能打算平台。
从图上可以看到,人工智能打算平台紧张分为通用打算平台和专用神经网络打算平台。通用打算平台紧张有CPU、GPU以及FPGA。
CPU包括Intel和ARM,Intel是CISC阵营,ARM是RISC阵营。Intel紧张用于PC做事器领域,供应高性能打算;ARM紧张是用于移动和嵌入式领域,最大的特点是低功耗。
GPU紧张是NVIDIA和AMD。但是在AI做事器领域,NVIDIA对市场的霸占率达到了70%,远远高于AMD30%的霸占率,他们两家险些占到了100%的市场。
FPGA紧张包括Xilinx和Altera,而现在Altera已经被Intel收购,因此未来估计FPGA领域将是Xilinx一统江湖。
专用神经网络打算平台ASIC,根据对算法支持度的不同,ASIC又分为支持人工神经网络的深度学习加速器芯片以及支持神经动力学的神经形态芯片。
支持深度学习的芯片有很多家,比如Google,GraphCore,寒武纪,Wavecompting等公司。每一家都有自己的特色,性能上面各有千秋。
神经形态芯片从实现办法来看,分为数字芯片、仿照芯片和新材料芯片。数字芯片紧张有TrueNorth、Loihi以及SpiNNaker;仿照芯片紧张有Neurogrid、BrainScales以及ROLLS;新材料芯片紧张有Memristor组成的阵列。神经形态芯片目前并没有商用化,还处于实验室验证阶段。
从上图能够看到,通用打算平台CPU、GPU或者FPGA基本都处于巨子垄断状态,每一个领域只有一个或两个霸主,地位完备无法撼动。而神经网络打算ASIC是群雄争霸,没有人能一统江湖,这或许是我们所有人的机会,就看大家有没有能力把握住。
接下来我会对刚才先容中很有代表性的芯片进行剖析,以理解这些芯片的特点。
首先是CPU。CPU平台是数字领域中的万能打算平台,除了能够实现神经网络的打算外,还能实现其他所有的通用打算和掌握。这张图片显示的是Intel最新做事器CPU的Skylake架构。
Skylake是多核架构,采取2D Mesh片上网络实现多核调度和互联,每一个核都采取传统的构造,包含打算单元、掌握单元等电路。芯片与外界的互联通过PCIE接口实现,同时具有Memory Controller外挂DDR。右边的雷达图是对CPU特点的概括,我会从五个方面来总结CPU以及后面其他打算平台的特性。
首先看一下算法支持度。这里的算法是指神经网络打算算法,也便是刚才说过的人工神经网络算法和神经动力学算法。CPU是万能打算平台,它能支持所有的神经网络算法,因此它的算法支持度得分是100分。
第二个是有效算力。有效算力是指能有效发挥在神经网络打算上的算力。常日我们会说一个芯片的峰值算力是多少tops,真正把神经网络放进去打算的时候,会创造大概只有10%-20%的算力能够发挥出来,其他的算力都是摧残浪费蹂躏的。当然,算力发挥不出来的缘故原由,不仅是芯片的成分,还有其他的一些成分,很多时候是由于软件没有做相应的优化。而在这里,我们先把软件的成分打消掉,默认软件已经是最优化了,因此只看芯片能发挥的有效算力。CPU的有效算力得分比较低,只有40分。由于CPU紧张是用于通用打算和繁芜掌握,而神经网络打算是由某些特定的,比如大量的并行卷积运算,CPU并没有针对它们进行优化,因此它的得分不高。
第三个是有效算力功耗比,指有效算力除以所花费的功耗。这个功耗不但是芯片自身打算的功耗,还包括打算过程中用到的存储器,比如DDR的功耗,由于有很多芯片包括大多数神经网络加速器,不带DDR是无法事情的。由于CPU的有效算力比较低,而功耗比较高,再加上DDR的功耗,因此它的有效算力功耗比得分很低,只有20分。
第四个是有效算力本钱比,指有效算力除以本钱。同样的,这个本钱不但是包括芯片本身的本钱,还包括打算过程中用到的存储器本钱,由于CPU有效算力比较低,而价格又比较贵,因此它的有效算力本钱比得分只有30分。
末了是规模扩展性,指多个芯片扩展互连形成大规模算力的能力。这在大型神经网络打算或者多网络协同打算时非常主要。CPU的扩展互联是通过PCIE接口实现。实在凡是用PCIE接口通过总线实现扩展互联的芯片都有比较明显的缺陷,第一个缺陷是扩展互联的芯片数量是有限的,一样平常只能是几个芯片的扩展互联,如果通过树形的办法扩展互联就形成了第二个缺陷,多个芯片扩展互联后算力发挥效率会急剧低落。
比如两个100T的芯片扩展互联后,大概只能发挥80%的效率,即160T的总算力,而且扩展互联芯片的数量越多,效率低落就越快。又比如,四个100T的芯片扩展互联,结果大概只能发挥60%的效率,也便是240T的总算力,因此CPU的规模扩展性只有50分。
接下来看看第二个打算平台——GPU。
GPU是最通用,也是我们最熟习的神经网络打算平台。大多数人从一开始学习神经网络便是用GPU进行神经网络的演习和推理,而且现在市场上能买到的真正实用的并且效率比较高的神经网络打算平台也只有GPU。
这里剖析的例子是NVIDIA最新GPU V100的架构。V100是众核架构,是由很多小核组成的芯片,芯片由Memory Control卖力DDR的读写,GPU有两种接口实现片外互联,一种是PCIE,一种是NVLink。NVLink是NVIDIA专门开拓的高速互连接口,目的便是为了得到更好的可扩展性。
GPU对人工神经网络算法的支持度比较高,但是对神经动力学的支持效率是比较低的,因此它的算法支持度是85分。
关于有效算力,V100的有效算力是非常高的,它的通用FP16算力有30tops。而Tensor FP16的算力达到了120tops,因此它的有效算力得分90分。
GPU的功耗很高,比如V100是300瓦,但是由于它的算力非常高,因此它的有效算力功耗比是70分。
由于GPU是很贵的,V100采取12nm工艺,面积达到了815平方毫米,成本相当高,因此它的有效算力本钱比得分为30分。
GPU是通过PCIE和NVLink实现互联的,由于NVLink的接口能够很好的实现它们之间的互联,因此规模扩展性得分为80分。
FPGA是由大量的可编程逻辑阵列组成,用户可以根据须要灵巧地对FPGA进行编程实现想要的功能。由Memory Controller卖力读写外部存储器DDR,FPGA外部电路的通信是通过多种高速串行总线接口实现的。
由于是可编程逻辑阵列,以是具有非常好的灵巧性,可以针对不同的算法做不同的设计,因此FPGA的算法支持度得分很高,险些和CPU差不多,是95分。
对FPGA进行编程是比较难的,与对CPU进行编程的难度比较,不是一个等级上的。FPGA本身的打算速率可以做到很快,但是由于须要与外部DDR交流数据,限定了其算力发挥,因此FPGA的有效算力得分是60分。
关于有效算力功耗比,FPGA比GPU的功耗要低很多,再加上它的有效算力也能够做得比较高,因此FPGA的有效算力功耗比得分是70分。
但是FPGA的本钱还是比较高,尤其在大规模运用的情形下,它的本钱非常高,以是算力本钱比只有50分。
FPGA的规模扩展能力比较强,可以通过多组高速接口互联,以是其规模扩展性能得分80分。
TPU是真正专门为了人工神经网络打算而打造的一款加速器芯片,它的架构是针对人工神经网络算法优化过的,芯片内部有大量并形的打算单元阵列,也有比较大的片内储存,还有Memory Controller卖力读写外部存储器DDR,由PCIE实现芯片扩展互联。
TPU能高效的支持人工神经网络算法,但是对神经动力学算法的支持度比较低,以是其算法支持度得分80分。
TPU的算力比较高,对Tensor FP16,算力能达到45tops,在优化软件程序后,TPU算力效率能够发挥到60%多,因此其有效算力得分是70分。
TPU的功耗大约是130W,因此它的算力功耗比得分是60分。大家可以创造现在很多人工神经网络加速器的算力功耗比都不是很空想,大部分都低于GPU功耗比。
TPU的算力本钱比得分是80分,由于它虽然只有45tops,但是它是在比较便宜的28纳米的工艺上实现的。
TPU扩展互联的接口还是PCIE,因此得分60分。
神经形态芯片,这里以IBM的TrueNorth为例。TrueNorth是众核架构,里面的每一个神经元阵列便是一个小核,所有的核都是存算一体,即事情时不须要外带DDR,每一个小核利用2D Mesh片上网络实现互联,片间互联是通过LVDS接口。
TrueNorth基本上只能支持神经动力学的SNN算法,对人工神经网络算法的支持度极低,以是算法支持度得分为30分。
而且TrueNorth算力也很低,只有58gops,与一样平常加速器常见的几十tops比较是非常低的,以是有效算力得分只有10分。
TrueNorth虽然算力很低,但是功耗也很低,100多毫瓦,因此它的有效算力功耗比有70分。
但是由于有效算力太低,而本钱并不低,采取28nm工艺,面积达到了430多平方毫米,因此它的有效算力本钱比只有10分。
TrueNorth采取的是2D Mesh片上网络,芯片与芯片之间可以通过LVDS串口直接互联,因此具有非常好的可扩展性,得分为90分,这也是TrueNorth最大的上风之一。
从这些数据可以看到,TrueNorth是一款有显著优缺陷的芯片,包括存算一体、算力极低、算力功耗比高和可扩展性强的特点,这也是很多目前形态芯片的普遍征象,它们基本上都只能支持神经动力学算法,对更加盛行更加成熟更加强大的人工神经网络算法比如CNN算法的支持度很低,因此这些神经形态芯片现在险些没有办法商业化,处于实验室验证阶段。
剖析了这么多的打算平台后,接下来看看人脑到底有哪些特点?
首先人脑是存算一体的,显而易见人脑的存储信息和处理信息是一起的。在刚才提到的各种打算平台中,无论是CPU、GPU、FPGA还是深度学习加速器,它们采取的都是存算分离的冯诺伊曼构造,因此在提高性能时有一个很大的瓶颈,便是存储带脱期制的问题。当然,神经形态芯片有的是存算分离,有的是存算一体,但是可惜的是,它们的算法支持度和算力都太低了。
人脑的第二个特点是具有极大的规模性,我们知道人脑是由上百亿个神经元细胞组成的,这些神经元细胞通过极其繁芜的互联形成了一个规模巨大的有机系统,因此很多人认为要仿照真正的人脑,一定要达到某种规模才能看到类似人脑的效应,这也是TrueNorth一贯追求大规模互联的缘故原由。
人脑的第三个特点是具有一些比较明显的功能分区,比如视觉区、听觉区、情绪区等,这些不同的功能分区有机的结合在一起,相互合营着完成大脑的活动。
第四个特点,人脑处理任务时具有极高的并行度,由于我们在任何时候都是在同时做多件事,比如一边走路一边唱着歌,眼睛还一边欣赏着美景等,人脑能够让它们互不滋扰,完备并行。
第五个特点,人脑具有极低的功耗。虽然我们人脑能处理这么多繁芜的任务,但是花费的能量却是极低的,才20W旁边。举个例子,刚才提到的GPU,实现一个单一的任务功耗就达到300W,或许同样单一的任务对付人类来说也只是轻松地瞟一眼。当然,人脑还有其他很多特点,比如打算的高容错性、不愿定性等。我们正是受到人脑这些特点的启示,开拓出类脑芯片Tianjic的。
Tianjic采取优化过的众核架构,由一系列核构成阵列完成神经网络的打算。为什么要利用优化过的众核架构呢?由于我们认为,在摩尔定律即将失落效的本日,在现有的工艺根本上,从优化架构入手可能是提高芯片性能最主要的手段。
当然,局部电路的优化,比如优化某些乘加器,提高它们的事情频率也可以提高性能,又或者随着Package技能的进步,把加速器芯片和HBM封装在一个package里面,也是提高性能的手段,但是这些手段带来芯片性能的提升跟优化架构带来的性能提升比较是微不足道的。架构就像物种的基因,一颗小草只管使劲地施肥,它也长不成一棵参天算夜树,无非是一颗比较高大肥壮的小草而已,由于这是基因决定的。
CPU和GPU每一次大的性能提升也都是从架构入手,用新的架构代替旧的架构。比如GPU是从Kepler架构到Pascal架构,再到现在V100的Volta架构,因此它的性能才提升到现在的高度。当然,这些都还是在传统的冯诺伊曼架构根本上的提升。
而Tianjic,由于每一个核都自带存储区,所有的打算数据都在本地操作,因此从芯片的层面看,Tianjic在总的架构上已经超越了传统的冯诺伊曼构造,以是Tianjic不像传统架构的芯片一样在打算的时候必须与DDR进行大量的数据交互而受存储带宽的限定,使全体芯片的性能受到影响。这是Tianjic芯片算力高的一个极其主要的缘故原由。由于不用从外部导入数据,因此它的功耗比较低,也节省了本钱和空间。
同时,我们每一个核里面都有一个通用途理器,也便是说核阵列包含由多个CPU组成的CPU阵列,因此具有极大的灵巧性,能高效的支持各种神经网络算法。
Tianjic芯片采取的是2D Mesh片上网络构造,用于核与核之间的通信互联。芯片与外部的通信是通过高速串口实现的。
接下来我会讲一下Tianjic芯片的互连。
当我们想要扩展算力的时候,可以通过高速串口实现片间互联,而且可以从东南西北四个方向同时扩展,由于我们的串口带宽很高,能够担保打算过程中足够快的传输片间信息,因此从总体上看,所有的芯片都是无缝连接的,并且扩展互联不会降落算力的效率,也便是说有多少个Tianjic芯片互联就能得到多少倍单Tianjic芯片的算力。
这是Tianjic芯片架构相对付传统芯片架构又一极大的上风。这样就可以用Tianjic芯片组成一个具有极高算力和极大规模的芯片阵列,乃至可以尽可能靠近人脑规模。
Tianjic的众核架构和2D Mesh片上网络相较于传统芯片架构还有一个极大的上风,便是多核重组特性。由于Tianjic芯片的核阵列中是众核平等的,核与核之间没有主从之分,当多Tianjic芯片组成芯片阵列时,阵列中芯片与芯片之间没有主从之分。因此,在用户眼里,全体芯片阵列便是一个巨大的核阵列,用户可以灵巧的用软件来配置自己的任务,把不同的任务同时配置在不同的核组中,真正的实现多任务的并行处理,不管任务之间是有关联性还是没有关联性。这就很像人脑的行为,前面我们剖析过,人脑不同的区域有不同的功能,并且能够高效并行的处理各种任务。
正是在大脑的启示下,我们设计的Tianjic芯片让我们看到了仿照人脑的希望,也看到了可能实现通用人工智能的希望。
我们给客户供应的是不仅仅是一块芯片,还包括一整套办理方案:最底层是Tianjic芯片,卖力供应算力;在芯片的根本上,我们会供应给客户完备的工具链;我们会帮助客户把算法高效的在芯片上运行,也会对客户的运用供应最好的做事。
接下来我将对工具链算法和运用加以解释。
工具链是非常主要的,也是我们事情的重中之重。大家都知道GPU在AI领域拥有绝对的上风地位,它之以是这么强大,除了具有强劲的性能以外,还有它强大的工具链,因此我们一定会不遗余力打造一款强大的全栈式工具链,给客户供应各种层次的开拓工具。
例如,如果客户嫌麻烦,那就可以利用我们通用的API,客户只须要把通用的框架,比如TensorFlow或者Caffe演习出来的网络原封不动地交给我们的运用接口,我们的工具就会自动地完成编译、优化等一系列事情,让芯片能够发挥最佳的性能,以最快的速率完成客户的任务;如果客户想定制任务,我们也供应灵巧的开拓工具,客户可以根据自己的需求,灵巧地开拓优化自己的运用。总之我们供应给客户的一定是一款功能强大而又灵巧易用的事情链。
灵汐科技有一支强有力的算法团队,既能跟踪国际最前沿的算法发展,又能优化客户最成熟的运用算法,并且对人工神经网络和神经动力学网络都有着非常深入的研究,可以担保类脑打算平台高效地支持各种网络。
运用方面,我们会和客户进行互助,帮助客户开拓各种板卡、做事器之类的产品,支持客户边缘打算或者终真个各种运用,也希望往后在各行各业的智能化打算平台中都能看到Tianjic的身影。
灵汐科技的目标便是为各行各业的智能化供应高效稳定的打算平台,同时致力于降落用户利用算力的本钱,助力客户的发展。
我们相信,我们的产品能够用在各个领域,比如数据中央、安防、智能医疗、自动驾驶等领域。
总之,我们希望Tianjic的高算力、低功耗、高扩展性和高并行度,能够为推动全体人工智能家当的发展贡献自己的力量。同时也希望有一天对人工智能的从业职员来说,不再像本日一样为了节省一点点算力,花很大的力气去做剪枝、优化之类,末了还得忍受网络性能的降落,这不应该成为AI领域工程师们的常态。
我们希望我们的产品能够给客户供应取之不尽用之不竭且便宜的算力,让工程师们能够很轻松就能实现最佳的性能。
Q&A环节
问题一
安绍岩-展讯通信-高等软件主管
1. 比较其它AI架构,类脑架构的上风、劣势比拟,能否举出详细验证数据做比拟。
2. 灵汐对付该类脑芯片后续技能演进的思考。
冯杰:1、紧张上风有:一、算力高;二、功耗低;三、存算一体,不须要外挂DDR,节省本钱功耗和空间;四、算法的支持度灵巧,既能高效支持人工神经网络算法,又能高效支持SNN算法;五、扩展性好,能得到极大算力的芯片阵列,而且算力效率不会低落;六,支持多核重组特性,可以实现多任务并行处理。这些性能都会有详细的数据支持,会在公司产品发布时统一公布。
2、类脑芯片的发展取决于很多方面的成分,首先是算法的打破,类脑芯片要既高效支持人工神经网络算法,又高效支持SNN算法,而不能像现在这样,ANN算法发展很好,而SNN并没那么好。Tianjic之以是高效支持SNN,便是想给大家供应一个好的平台,供大家积累这方面的履历,希望能为SNN的打破出一份力;其次是材料、新器件、新工艺的打破,它们都会对类脑芯片的进步供应相称大的助力;末了是架构打破,由于新材料的打破须要比较长的韶光,如何在现有的工艺根本上,挖掘出更好的性能是我们须要面对的现实问题,Tianjic芯片的架构已经做了打破,但我以为还有性能提高的空间,我们会一贯走在打破的路上。
问题二
翟云-北京君正-部门总监
1.Tianjic既然定位于类脑打算,为何还要支持CNN、LSTM等现有盛行算法?
2.脉冲神经网络如何演习,在什么FrameWork下演习?比较现在主流的CNN、LSTM的精度如何
冯杰:1、Tianjic作为一款类脑芯片,不应该对人工智能算法有差异对待,而该当同时能高效支持CNN和SNN等所有的神经网络算法。我们从大脑的机制中只管即便吸取了更多的上风,比如存算一体、高扩展性等。我们希望Tianjic芯片组成的阵列有一天能真正地靠近大脑的规模,并且仿照大脑的特性。
2、SNN是比较难演习的。现在一样平常采纳的是三种演习方法,分别是无监督学习规则、ANN间接学习算法以及BP有监督直接学习算法,对SNN来说,最常见的是用无监督学习算法的演习,这个算法描述起来挺大略的,如果前继神经元发放,当天神经元也随着发放,那么两个神经元之间的突触强度就会增加;如果当前神经元发放后前继神经元才发放,那么突触强度就会减弱。无监督学习算法是目前在生活中得到验证且比较有效的演习方法,但是由于无监督学习算法的演习,有时候并不是真正的work,以是现在很多SNN的演习还是借鉴ANN的演习方法实现。
问题三
姜爱鹏-南京华捷艾米-芯片设计总监
1.RISC-V 的热度最近逐渐升高,RISC-V生态链的完善,对AI芯片是否会有促进浸染,会表示在哪些方面?
2. 对应于边缘打算的运用处景,或者对付推理的运用处景,是否有比较好的AI芯片架构可参考?
3.对付降落AI芯片的运算功耗,或者说提高能效比,有哪些好的建议?或者说有设计规则须要遵守?
冯杰:1、RISC-V生态链的完善对AI芯片有极大的促进浸染,我认为很多AI芯片都有用到RISC-V的机会,之以是现在还有很多人有顾虑,便是由于RISC-V的生态链不足完善,导致很多人担心未来是否还会发展的问题。实在这也不但是AI领域的人会有这种顾虑,其他领域的人肯定也有类似的顾虑。因此,如果生态链完善了,不仅对AI芯片有极大的促进浸染,还会对其他很多行业有很大的促进浸染。
2、AI芯片有各种各样的架构,每个架构都有自己的特点,关键是取决于运用处景,比如Tianjic,最大的优点是高算力、低功耗、高扩展性以及高并行度,如果运用处景须要这些特点,那么Tianjic便是很好的AI芯片。
3、首先,在IC设计中有一系列降落功耗的手段;其次,功耗与芯片的架构有极大的关系,比如Tianjic的存算一体,所有的数据都在本地操作,这样带来的功消耗失落就变少了,又比如,有的芯片虽然算力还不错,但是真正把网络运行起来能发挥的效率并不高,这种情形下,它的功耗是很高的。末了,功耗还跟算法有关,如何把硬件的算力发挥出来,很多时候是须要让算法和硬件进行匹配的,比如Tianjic,会在工具链中自动编译优化,把客户的网络以最高的效率映射到芯片中进行,省去客户对自己算法的优化过程,同时还节省了功耗。
问题四
孙中-西工大-SoC设计与验证研究生
类脑芯片设计的难点在哪? 在没有杀手级运用情形下,如何做验证?
冯杰:个人认为,在现有的工艺条件下,芯片的架构设计是最主要的,由于架构全体芯片的基因,决定了芯片的性能。至于杀手级运用也是由芯片的性能决定的,如果芯片性能高,利用灵巧,能很好地支持现有的运用,那就可以验证芯片的性能了。至于是否能够胜任现有的或者将来的重量级运用,须要通过实际的案例来给出答案。
问题五
韩少锋-caveDSP-FAE
1. 经由灵汐的工具链映射编译之后,量化的位宽是8位还是16位的?范例网络的精度如何?比较浮点网络有多少丢失?
2.是否支持4bit网络?是否支持4bit以下的网络,比如二值网络?
冯杰:1、Tianjic芯片支持FP16的数据类型,网络的精度由算法和客户供应的参数决定,我们编译器不会对客户的网络参数进行任何的修正,我们希望供应给客户足够的算力,保持客户原始的参数,当然也会保持网络原始的精度,而不会做任何修正。
2、Tianjic芯片能够高效的支持是FP16、int8、三值和二值网络,同时我们不会对网络参数进行修正。
问题六
梁伟强-上海高清-芯片研发经理
类脑芯片的架构是模拟人的大脑设计出来的吗?和常规的神经网络有什么实质差异?
冯杰:类脑芯片架构是受大脑的启示设计出来的,它能高效支持人工神经网络和神经动力学网络等各种神经网络算法,以是从芯片运行的角度看,我们认为运用在不同的神经网络下是没有什么不同的。
问题七
李文昌-深度科技-行业总监
1.干系场景的运用开拓者或公司多么,须要哪些知识储备?
2.商业模式会有创新么?
冯杰:1、芯片的运用取决于运用处景,很多人工智能的运用我们都支持,Tianjic能高效支持ANN和SNN。现在已经有挺多的公司在跟我们洽谈中。除了必备的运用干系知识以外,并不须要其他专门的知识储备,我们的工具链会供应强大而易用的工具给客户。
2、关于创新,创新是灵汐科技的灵魂,不管是技能还是商业模式上我们都一贯在创新。当然,我紧张关注技能的创新,而商业的创新紧张是由我的同事梅迪来卖力,如果有这方面的问题,你可以讯问他,我们会有后期的商务活动,比如10月23号在北京的安博会上,我们会有干系产品的展览,希望大家到时候多多支持。
问题八
刘发强-清华大学-类脑打算研究中央博士生
类脑芯片的神经元是不是必须用仿照电路实现才可以更好地发挥出其功耗上风?
冯杰:神经元可以通过多种办法实现,包括仿照电路、数字电路以及新材料等都可以实现,至于哪种办法更省功耗,则须要跟实际运用相结合,从系统的角度来剖析每一个详细的任务须要花费的算力,才能确定花费的功耗,而不能一句话去敲定哪一种是最省功耗的办法。
问题九
何军-上海高性能集成电路设计中央-高等工程师
虽然都是AI芯片,但是类脑芯片与基于深度学习的芯片有较大不同,能否比较一下,包括适宜的运用、通用性、功耗和未来的发展方向等?
冯杰:Tianjic跟传统的AI芯片从架构上来讲确实有很大的不同,由于Tianjic既高效支持深度学习算法,又高效支持SNN算法,因此能运用在现有的各个AI领域,而且功耗比较低,算力功耗比高,对付这些特点详细的值,我们往后会统一公布。我们对类脑芯片的发展很看好,关于神经动力学算法的短腿也一定会补起来的。以前我们紧张是缺少高效运行的SNN硬件平台,并且已有的平台比如TrueNorth是不对中国人开放的,我们的平台推出了往后,相信会为SNN的发展做出贡献,为全体人工智能的发展做出贡献,也为海内想从事SNN研究的朋友供应更大的便利,感激。
问题十
贾晓云-中科院微电子所-助理研究员
海内子工智能芯片企业与国外巨子竞争力如何?
冯杰:可以看到近几年来,海内出身了很多人工智能芯片企业,并且发展的速率很快,势头也很好。但是目前来看,国际巨子的产品还是处在领先地位,我们还须要连续努力,不过我们有信心,这也是灵汐科技进入这个领域的缘故原由,我们会脚踏实地地往前走,希望能够超越国际巨子,感激。
问题十一
梁龙飞-上海新氦类脑智能科技-副总经理
类脑芯片家当发展目前最大的瓶颈在哪里?
冯杰:从海内的情形来看,全体人工智能的发展包括类脑芯片的家当发展是比较分散的,如果能够把所有的力量都集中起来,相信能够很快的发展,人工智能芯片国内外的起跑线差不多,相信一起共同努力是不会掉队于国外多少的,尤其是ASIC芯片。
问题十二
李海东-广智微芯-IC工程师
Tianjic基于SNN,在single chip和chip array上,有哪些商业化的运用?
冯杰:Tianjic不是基于SNN的,而是基于众核架构的类脑芯片,我们对ANN、SNN都有很好的支持,以是无论是Single Chip还是Chip Array都取决于客户的实际哀求,单芯片的算力比较大,组成Chip Array当然就更大,如果客户须要用到这么大的算力,自然是可以去扩展的,但是如果用不着的话,也就没必要去拓展,紧张取决于实际的商业需求。
课件下载
第一讲,联发科打算与人工智能本部总监张家源主讲,主题为《如何基于 NeuroPilot平台打造手机AI》
第二讲,寻思考人工智能CEO杨志明主讲,主题为《医疗影像专用AI处理器的机遇与寻衅》
第三讲,触景无限CEO肖洪波主讲,主题为《玩转模块化AI 让智能更大略》
第四讲,灵汐科技首席架构师冯杰主讲,主题为《类脑芯片的架构演进》
第五讲,华登国际合资人王林主讲,主题为《浅谈AI带来的集成电路领域创新与投资机会》
第六讲,澎峰科技联合创始人赵华龙主讲,主题为《如何从0到1搭建RISC-V处理器》
关注智东西公开课做事号,回答关键词“课件”获取AI芯片系列课课件
新课预报
继AI芯片系列课之后8月7日起,自动驾驶系列课第三季重磅上线了!
这次我们约请到了青飞智能、中创博远、易成自动驾驶、酷哇、西井科技、深兰科技、北科天绘、腾讯8位创始人和技能大牛,深度解析限定场景自动驾驶商用车落地案例。名额有限,速速报名!









