首页 » 通讯 » 百度欧阳剑:今年“昆仑”芯片在内部大年夜规模运用!| GTIC2019_架构_芯片

百度欧阳剑:今年“昆仑”芯片在内部大年夜规模运用!| GTIC2019_架构_芯片

南宫静远 2024-12-03 18:07:15 0

扫一扫用手机浏览

文章目录 [+]

3月15日,由智东西主理,AWE和极果联合主理的AI芯片创新峰会,在上海成功举办!
本次峰会报名参会的不雅观众覆盖了近4500家企业,到会不雅观众极为专业,个中总监以上级别占比超过62%,现场实际到会人数超过1800位。

大会现场,20位人工智能及AI芯片业界俊彦共聚一堂,系统的磋商了AI芯片在架构创新、生态构建、场景落地等方面的技能前景和家当趋势。

百度欧阳剑:今年“昆仑”芯片在内部大年夜规模运用!| GTIC2019_架构_芯片 通讯

▲百度主任架构师欧阳剑

作为AI芯片的积极布局者与运用者,百度在2018年7月发布AI云端芯片“昆仑”,备受行业关注。
作为百度主任架构师,欧阳剑带来主题为《百度昆仑让打算更智能》的演讲。

他从百度自身的业务需求和实践经历谈道,百度内部有非常多的运用处景,包括AIoT、自动驾驶、智能云等,不同场景对芯片的需求不同,这就意味着要走普适AI打算的道路。
而通用灵巧性、打算能力、能耗效率是普适AI打算的三大寻衅。

百度在过去7、8年韶光里已经做了很多AI架构的积累,最早在2010年就开始用FPGA做AI架构的研发,2011年开展小规模支配上线,2015年冲破几千片的支配规模,2017年支配超过了10000片FPGA,百度内部数据中央、自动驾驶系统等都在大规模利用。

而FPGA之后,专用芯片是连续提升打算性能的必由之路。
百度选择自研AI芯片,并于2018年发布了百度“昆仑”,它采取三星14m工艺的芯片,有很高的内存带宽,算力更是达到260Tops。

欧阳剑称,这个芯片是非常通用非常灵巧的,芯片既可以做演习也可以做推理,XPU的功能架构也在百度内部很多运用中得到验证,相对而言,它是一款全功能的AI芯片。
今年“昆仑”会在百度内部大规模利用。

附百度主任架构师欧阳剑演讲实录

欧阳剑:各位朋友,早上好!
我叫欧阳剑,是百度的主任架构师,感谢智东西的约请,本日有机会跟大家分享一下过去好多年我们关于AI处理器、芯片的事情。
题目是“让打算更智能”,这也是我们的义务,通过芯片来办理问题。

大家都知道人工智能的发展离不开三要素:精良算法、海量数据、超强打算。
我们都知道打算是人工智能很主要的动力,过去很多年百度在打算方面做了很多事情,包括最从前夜规模支配了GPU、FPGA以及大规模开展AI芯片的事情。

人工智能正在变成非常“普适”的打算,从数据中央拓展到边到端。
像在自动驾驶领域,不能把数据只放在云上,也不能把打算只放在云上,聪慧家居、聪慧交通、聪慧城市一样如此。

过去的打算模式是有一个集群,几万台机器,所有的机器、打算都放在那里,只管本日DataCenter的打算仍旧很主要,但现在已经从DataCenter拓展到端,拓展到边缘的地方,这是在新打算模式下对芯片架构、打算架构提出的不一样的寻衅。

既然本日是普适AI打算的时期,寻衅在于通用灵巧性、打算能力、能耗效率三方面达到非常好的平衡,任何一点不好,你的架构就只能用在某一场景,而非用在普适AI的打算上。
把这三点做好往后,架构可以用在智能云、智能驾驶、聪慧交通、智能家居以及百度内部搜索、Feed流等很多场景上。
百度有多样化的场景,驱动着我们做芯片架构的时候做出普适AI芯片的架构。

“昆仑”的义务是让“打算更加智能”,办理三个问题:1.高打算能力;2.高能耗效率;3.高灵巧通用。
高打算能力便是人工智能发展的驱动力;高能耗效率不论在数据中央、边、端都是永恒关注的问题;同时人工智能算法在快速迭代,一定要保持芯片架构系统有非常高的灵巧性和通用性,否则会“拖后腿”。

接下来我会给大家讲一下三点:第一百度人工智能大业务先容;第二百度人工智能芯片架构的积累和迭代;第三总结。

百度的业务包括云和端,像聪慧家居、智能驾驶、云等,有两个别系:1.百度大脑,为业务供应了强有力的算法、数据支持;2.百度智能云ABC Cloud为业务供应了强大的云做事、打算做事。

跟大家分享一下人工智能芯片的先容,去年百度在开拓者大会上分享了“昆仑”芯片,但实际上百度在过去7、8年韶光里已经做了很多AI架构的积累。
百度有很多场景,包括AIoT、自动驾驶、智能云,在这样的场景下对芯片的需求是不一样的。
AIoT场景哀求非常低功耗、场景分散零星、芯片须要性价比高;汽车场景哀求安全、高性能、繁芜SoC;云哀求非常高性能以及高灵巧度、高性价比。
这是做普适AI芯片架构须要面临非常大的寻衅。

根据过去几年总结出来的履历来看,大家都知道“摩尔定律”是一年半性能上一倍、本钱下一倍,现在处理器的发展速率大家都在说像“挤牙膏”,每一年只提高10%或者20%,但AI时期的摩尔定律非常高,基本每两年就有量子级的提高哀求,包括数据的提高、模型繁芜度的提高。

面临这么大的鸿沟,专用途理器是必经之路,过去很多年百度在探索一条适宜百度发展的AI处理器之路。
2011年旁边在做基于FPGA的架构处理器器,Google和百度在同一韶光投入AI架构器的研究,只不过大家的选择路径不一样,我们选择的是AI FPGA的方案,但在架构积累方面有很多共同的地方。
基本上在2013年FPGA实现了性能AI处理器,2017年达到10 tops性能的AI处理器。
2018年发布了百度的“昆仑”,性能一下达到了260,比之前事情效率提高30倍。

百度是业界最早、规模最大用FPGA来做AI架构的公司,最早在2010年就开始研发,2011年开展小规模支配上线,2015年冲破几千片的支配规模,2017年支配超过了10000片FPGA,百度内部数据中央、自动驾驶系统等都在大规模利用。

百度跟Google都在2010、2011年的时候做AI处理器的研究和探索,只管最开始选择的路径和Google不一样,但在架构探索、架构理解上是异曲同工。
百度作为互联网公司在Hot Chips大会上揭橥过3篇论文,是海内涵揭橥论文最多的单位。

百度跟Google的事情有些相似的地方,2014年提出了“SDA加速器”的观点(软件定义的加速器),这也是比较常用的观点。
加速器的架构跟Google TPU V1上所讲的架构是比较相象,固定流水线,每一级都把任务固定好。
在百度的架构里会有一些数据缓存来提高数据的复用,会有比较大的打算阵列,也是大家常用的方法。

GoogleTPU的架构和我们差不多,有很大的片内Buffer来缓存数据,提高数据的复用,有很大的打算阵列,这是非常固定的流水线架构,很经典的方法。
这个架构对演习、多样化真个场景远远不足,由于缺陷便是通用性、灵巧性不足。

2017年提出了XPU的架构,这个架构不一样地方是极大地提高了编程的灵巧性和通用性,分成两部分,一部分是Customized Logic,实在便是可编程的编列加上可编程的向量打算。
同时还增加了Many tiny cores,这是保持非常好编辑性的处理器,结合可以办理越来越繁芜的需求。
Google在2017年也分享了TPU2的架构,架构和XPU的架构也有很多异曲同工的地方,有M层很大的编列,这便是变量打算的小处理器。
基本上XPU以及TPU2的理解都是类似的。
XPU架构有很好的通用性、灵巧性、高性能,在百度内部会用在智能云、自动驾驶、AIoT等,证明在不同场景下都做的很好。

2017年底2018年初我们以为要走上另一条路,要做芯片,出发点大家都能想的到,由于做FPGA的AI打算也做的不错,但我们想再提高量级怎么做?便是做芯片。

“昆仑”芯片是三星14m工艺的芯片,有很高的内存带宽,达到了260tops性能,这个芯片是非常通用非常灵巧的,芯片既可以做演习也可以做推理。
这是全功能的AI芯片,由于XPU的功能架构真正在内部很多运用里都得到验证,在线上支配过,包括图像、语音、自然措辞处理、自动驾驶、推举等,我们有信心说这是比较全功能的架构。

百度在自动驾驶上有很多业务,大家都知道自动驾驶是移动超级打算节点,我们会把“昆仑”放到自动驾驶领域进行运用,在自动驾驶方面还须要功能安全,我们会利用XPU强大的打算能力加上和车干系的东西,包括RTDS、高精舆图、感知、传感器等。

给大家大略总结一下,百度有超过8年AI加速器和处理器研发和大规模支配的履历,上线支配了超过10000片基于FPGA的AI加速器,经由很多代的架构积累和探索,从最早的SDA到后来的XPU到昆仑我们有很多履历。
刚才我给大家分享了架构的积累、迭代和Google的架构有很多同等的地方,这解释互联网公司在这一块儿对架构的认知、芯片的认知都是有同等性的。

我们认为XPU是普适的AI打算架构,可以用在云端、自动驾驶、边缘打算,具有很高的打算能力、高通用性、灵巧性。
“昆仑”是基于XPU架构的AI处理器,去年发布了“昆仑”,今年“昆仑”会在百度内部大规模利用。
百度“昆仑”,让打算更智能。
感激大家!

标签:

相关文章

共享IT资源,构建智能未来

在当今这个信息爆炸的时代,IT资源已成为推动社会发展的核心动力。共享IT资源,不仅能够提高资源利用效率,还能激发创新活力,为我国构...

通讯 2024-12-30 阅读0 评论0