百度欧阳剑：今年“昆仑”芯片在内部大年夜规模运用！| GTIC2019_架构_芯片

文章目录 [+]

3月15日，由智东西主理，AWE和极果联合主理的AI芯片创新峰会，在上海成功举办！
本次峰会报名参会的不雅观众覆盖了近4500家企业，到会不雅观众极为专业，个中总监以上级别占比超过62%，现场实际到会人数超过1800位。

大会现场，20位人工智能及AI芯片业界俊彦共聚一堂，系统的磋商了AI芯片在架构创新、生态构建、场景落地等方面的技能前景和家当趋势。

百度欧阳剑：今年“昆仑”芯片在内部大年夜规模运用！| GTIC2019_架构_芯片通讯

▲百度主任架构师欧阳剑

作为AI芯片的积极布局者与运用者，百度在2018年7月发布AI云端芯片“昆仑”，备受行业关注。
作为百度主任架构师，欧阳剑带来主题为《百度昆仑让打算更智能》的演讲。

他从百度自身的业务需求和实践经历谈道，百度内部有非常多的运用处景，包括AIoT、自动驾驶、智能云等，不同场景对芯片的需求不同，这就意味着要走普适AI打算的道路。
而通用灵巧性、打算能力、能耗效率是普适AI打算的三大寻衅。

百度在过去7、8年韶光里已经做了很多AI架构的积累，最早在2010年就开始用FPGA做AI架构的研发，2011年开展小规模支配上线，2015年冲破几千片的支配规模，2017年支配超过了10000片FPGA，百度内部数据中央、自动驾驶系统等都在大规模利用。

而FPGA之后，专用芯片是连续提升打算性能的必由之路。
百度选择自研AI芯片，并于2018年发布了百度“昆仑”，它采取三星14m工艺的芯片，有很高的内存带宽，算力更是达到260Tops。

欧阳剑称，这个芯片是非常通用非常灵巧的，芯片既可以做演习也可以做推理，XPU的功能架构也在百度内部很多运用中得到验证，相对而言，它是一款全功能的AI芯片。
今年“昆仑”会在百度内部大规模利用。

附百度主任架构师欧阳剑演讲实录

欧阳剑：各位朋友，早上好！
我叫欧阳剑，是百度的主任架构师，感谢智东西的约请，本日有机会跟大家分享一下过去好多年我们关于AI处理器、芯片的事情。
题目是“让打算更智能”，这也是我们的义务，通过芯片来办理问题。

大家都知道人工智能的发展离不开三要素：精良算法、海量数据、超强打算。
我们都知道打算是人工智能很主要的动力，过去很多年百度在打算方面做了很多事情，包括最从前夜规模支配了GPU、FPGA以及大规模开展AI芯片的事情。

人工智能正在变成非常“普适”的打算，从数据中央拓展到边到端。
像在自动驾驶领域，不能把数据只放在云上，也不能把打算只放在云上，聪慧家居、聪慧交通、聪慧城市一样如此。

过去的打算模式是有一个集群，几万台机器，所有的机器、打算都放在那里，只管本日DataCenter的打算仍旧很主要，但现在已经从DataCenter拓展到端，拓展到边缘的地方，这是在新打算模式下对芯片架构、打算架构提出的不一样的寻衅。

既然本日是普适AI打算的时期，寻衅在于通用灵巧性、打算能力、能耗效率三方面达到非常好的平衡，任何一点不好，你的架构就只能用在某一场景，而非用在普适AI的打算上。
把这三点做好往后，架构可以用在智能云、智能驾驶、聪慧交通、智能家居以及百度内部搜索、Feed流等很多场景上。
百度有多样化的场景，驱动着我们做芯片架构的时候做出普适AI芯片的架构。

“昆仑”的义务是让“打算更加智能”，办理三个问题：1.高打算能力；2.高能耗效率；3.高灵巧通用。
高打算能力便是人工智能发展的驱动力；高能耗效率不论在数据中央、边、端都是永恒关注的问题；同时人工智能算法在快速迭代，一定要保持芯片架构系统有非常高的灵巧性和通用性，否则会“拖后腿”。

接下来我会给大家讲一下三点：第一百度人工智能大业务先容；第二百度人工智能芯片架构的积累和迭代；第三总结。

百度的业务包括云和端，像聪慧家居、智能驾驶、云等，有两个别系：1.百度大脑，为业务供应了强有力的算法、数据支持；2.百度智能云ABC Cloud为业务供应了强大的云做事、打算做事。

跟大家分享一下人工智能芯片的先容，去年百度在开拓者大会上分享了“昆仑”芯片，但实际上百度在过去7、8年韶光里已经做了很多AI架构的积累。
百度有很多场景，包括AIoT、自动驾驶、智能云，在这样的场景下对芯片的需求是不一样的。
AIoT场景哀求非常低功耗、场景分散零星、芯片须要性价比高；汽车场景哀求安全、高性能、繁芜SoC；云哀求非常高性能以及高灵巧度、高性价比。
这是做普适AI芯片架构须要面临非常大的寻衅。

根据过去几年总结出来的履历来看，大家都知道“摩尔定律”是一年半性能上一倍、本钱下一倍，现在处理器的发展速率大家都在说像“挤牙膏”，每一年只提高10%或者20%，但AI时期的摩尔定律非常高，基本每两年就有量子级的提高哀求，包括数据的提高、模型繁芜度的提高。

面临这么大的鸿沟，专用途理器是必经之路，过去很多年百度在探索一条适宜百度发展的AI处理器之路。
2011年旁边在做基于FPGA的架构处理器器，Google和百度在同一韶光投入AI架构器的研究，只不过大家的选择路径不一样，我们选择的是AI FPGA的方案，但在架构积累方面有很多共同的地方。
基本上在2013年FPGA实现了性能AI处理器，2017年达到10 tops性能的AI处理器。
2018年发布了百度的“昆仑”，性能一下达到了260，比之前事情效率提高30倍。

百度是业界最早、规模最大用FPGA来做AI架构的公司，最早在2010年就开始研发，2011年开展小规模支配上线，2015年冲破几千片的支配规模，2017年支配超过了10000片FPGA，百度内部数据中央、自动驾驶系统等都在大规模利用。

百度跟Google都在2010、2011年的时候做AI处理器的研究和探索，只管最开始选择的路径和Google不一样，但在架构探索、架构理解上是异曲同工。
百度作为互联网公司在Hot Chips大会上揭橥过3篇论文，是海内涵揭橥论文最多的单位。

百度跟Google的事情有些相似的地方，2014年提出了“SDA加速器”的观点（软件定义的加速器），这也是比较常用的观点。
加速器的架构跟Google TPU V1上所讲的架构是比较相象，固定流水线，每一级都把任务固定好。
在百度的架构里会有一些数据缓存来提高数据的复用，会有比较大的打算阵列，也是大家常用的方法。

GoogleTPU的架构和我们差不多，有很大的片内Buffer来缓存数据，提高数据的复用，有很大的打算阵列，这是非常固定的流水线架构，很经典的方法。
这个架构对演习、多样化真个场景远远不足，由于缺陷便是通用性、灵巧性不足。

2017年提出了XPU的架构，这个架构不一样地方是极大地提高了编程的灵巧性和通用性，分成两部分，一部分是Customized Logic，实在便是可编程的编列加上可编程的向量打算。
同时还增加了Many tiny cores，这是保持非常好编辑性的处理器，结合可以办理越来越繁芜的需求。
Google在2017年也分享了TPU2的架构，架构和XPU的架构也有很多异曲同工的地方，有M层很大的编列，这便是变量打算的小处理器。
基本上XPU以及TPU2的理解都是类似的。
XPU架构有很好的通用性、灵巧性、高性能，在百度内部会用在智能云、自动驾驶、AIoT等，证明在不同场景下都做的很好。

2017年底2018年初我们以为要走上另一条路，要做芯片，出发点大家都能想的到，由于做FPGA的AI打算也做的不错，但我们想再提高量级怎么做？便是做芯片。

“昆仑”芯片是三星14m工艺的芯片，有很高的内存带宽，达到了260tops性能，这个芯片是非常通用非常灵巧的，芯片既可以做演习也可以做推理。
这是全功能的AI芯片，由于XPU的功能架构真正在内部很多运用里都得到验证，在线上支配过，包括图像、语音、自然措辞处理、自动驾驶、推举等，我们有信心说这是比较全功能的架构。

百度在自动驾驶上有很多业务，大家都知道自动驾驶是移动超级打算节点，我们会把“昆仑”放到自动驾驶领域进行运用，在自动驾驶方面还须要功能安全，我们会利用XPU强大的打算能力加上和车干系的东西，包括RTDS、高精舆图、感知、传感器等。

给大家大略总结一下，百度有超过8年AI加速器和处理器研发和大规模支配的履历，上线支配了超过10000片基于FPGA的AI加速器，经由很多代的架构积累和探索，从最早的SDA到后来的XPU到昆仑我们有很多履历。
刚才我给大家分享了架构的积累、迭代和Google的架构有很多同等的地方，这解释互联网公司在这一块儿对架构的认知、芯片的认知都是有同等性的。

我们认为XPU是普适的AI打算架构，可以用在云端、自动驾驶、边缘打算，具有很高的打算能力、高通用性、灵巧性。
“昆仑”是基于XPU架构的AI处理器，去年发布了“昆仑”，今年“昆仑”会在百度内部大规模利用。
百度“昆仑”，让打算更智能。
感激大家！