首页 » 互联网 » 安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片

安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片

少女玫瑰心 2024-12-13 10:38:11 0

扫一扫用手机浏览

文章目录 [+]

芯东西(公众号:aichip001)编辑 | 高歌

智东西6月4日,近日GTIC 2021嵌入式AI创新峰会在北京圆满收官!
在这场全天座无虚席、全网直播不雅观看人数逾150万次的高规格AI芯片家当峰会上,来自家当链高下游的16位大佬共聚一堂,环绕嵌入式AI的软硬件生态创新、家居AIoT、移动机器人和工业制造家当4大版块舆图,带来了深入浅出的分享。

安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片 安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片 互联网

会上,安谋中国AI技能高等市场经理吴彤以《构建AI智能“芯”生态》为题,对当前AI芯片发展趋势以及安谋自研人工智能专用途理器IP“周易”AIPU进行解读。

安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片 安谋中国吴彤:ASIC定制化芯片或成未来芯片架构趋势_周易_芯片 互联网
(图片来自网络侵删)

如今行业已进入以数据为驱动的打算时期,也称为第五波打算浪潮,从网络架构到打算架构都产生了大量需求。
依托Arm天下领先的生态系统资源与技能上风,安谋中国面向海内市场独立研发了“周易”AIPU。

▲安谋中国AI技能高等市场经理吴彤

吴彤谈到当下AI芯片市场有四大发展趋势,一是端侧芯片市场增速非常高,二是未来5-10年端侧推理市场的增速最快,三是ASIC定制化芯片将成为未来的主流,四是细分市场规模将会保持高速增长。

另一方面,AI芯片行业专用架构(DSA)正在兴起,主流AI算法也呈现轻量化趋势。
在这些趋势下,安谋中国自研的“周易”AIPU拥有完备自主可控、完全生态等特点,目前已经推出两代产品,分别为“周易”Z1和“周易”Z2。

个中,“周易”Z1是边缘打算通用的AI IP,面向IoT&Edge,基于“周易”Z1研发的全志R329智能语音芯片即将大规模商用;“周易”Z2面向边缘打算中高性能场景,基于“周易”Z2开拓的芯片也即将运用落地,紧张覆盖中高端安防和自动驾驶/智能座舱领域。

此外,吴彤还先容了两款AI IP的运用案例,包括人体关键点检测、驾驶员疲倦监测(DMS) 和DTV超级分辨率运用等。

以下是吴彤的演讲实录整理:

一、第五波打算浪潮或助推Arm芯片出货超万亿

吴彤:首先感谢主理方智东西的约请,我是安谋中国AI技能市场吴彤。
本日给大家带来的分享主题《构建AI智能“芯”生态》。
我的主题分享分为三部分,第一部分是先容全体Arm架构的赋能情形,第二部分是一个对AI芯片以及AIoT市场大略的剖析,末了一部分是我们全体安谋中国自研的AI IP“周易”两代产品的市场、技能情形。

首先,有一个观点叫做第五波打算浪潮,大家都知道在以前最开始的时候,我们有PC、个人打算、互联网和移动互联网,可以称之为前四波打算浪潮。
什么叫第五波打算浪潮?一句话总结,一个以数据为驱动的打算时期。
第五波打算浪潮紧张特点除了芯片层面多样化的需求以外,从网络架构,包括从打算架构都有大量的需求产生。
作为Arm的一家生态型公司,我们一贯在思考怎么样在这个体系下通过和我们互助伙伴供应更多定制化的做事,包括架构以及芯片类的创新,能够赋能全体生态。

这是我们全体Arm的一个从1991年一贯到现在Arm打算架构走向万亿级生态的图。
大家可以看到,从1991年一贯到2017年用了26年的韶光,(Arm)达到了环球第一个一千亿芯片的出货量。
从2017年到2021年,实在我们只用了四年韶光就达到了第二个一千亿芯片的出货量,这个增长非常快。
(在)第五代打算浪潮的驱动下,我们希望未来能达到一万亿芯片的出货量。

安谋中国从成立之初到现在,几年内,安谋中国在海内做事的客户超过两百家以上,在海内的(芯片)出货量将近两百亿。

二、端侧AI芯片增速快,领域专用架构兴起

下面给大家分享一下AI芯片以及全体AIoT市场整体的情形。
这里有四张图从AI芯片的市场规模、按场景、按架构、按运用层面对AI芯片的整体先容。

1、AI芯片发展趋势:端侧增速最快

首先第一张图是全体AI人工智能芯片的市场规模,2017年到2025年靠近十年的区间,有一个趋势可以看到,从赤色数值可以看出,和云端比较,端侧AI芯片的市场增速非常高,尤其在未来的5—10年的区间之内。

第二张图是AI芯片按场景来划分的趋势,这个场景分成四块,两大部分。
第一个维度是全体的云端,包括云端推理和云端演习。
第二维度Edge端侧,包括推理和演习。
这张图得出一个结论,在未来5—10年内,我们可以看到,在全体端侧包括云端还有Edge端推理市场的增速是最快的。

第三个图是AI芯片按架构划分,能够看到人工智能芯片所有看到的主流架构,包括GPU、FPGA、包括ASIC等等。
从中也可以看到,ASIC定制类的芯片也会在未来的五到十年内成为市场上的一个主流。

末了一张图,是按照人工智能的细分垂直领域场景来看,这里面我们看到,手机端不用说了,也是Arm比较主流的一个行业,手机端依然保持相比拟较高速的增长。
同时像可穿着设备、包括智能音箱几个细分市场未来几年之内也会保持比较高的增长。

2、AI芯片领域专用架构(DSA)开始盛行

这个是从垂直市场的层面来讲,我们谈到,全体人工智能芯片有一个比较主要的观点叫DSA。
谈到之前,我们先看一个很故意思的试验,这个试验是一个算法,这个算法紧张以矩阵乘法为主。

我们可以看到,增速很快的这条曲线在不同的硬件环境包括软件环境下做的实验。
从最开始在Python环境,第二个是在纯C的环境下做,再今后我们加入了很多并行打算包括memory优化、包括目前主流的SIMD助理,在不同的体系架构下,同一套算法从最原始的Python到末了的SIMD形式(的实行效率)增长63000多倍。

这个试验解释什么问题?在我们现在AI芯片领域里面,实在DSA也便是专用架构可以处理特定领域的一些问题,目前乃至将来该当会成为一个主流。
这种DSA我给大家举一个例子,便是什么样的(架构)属于DSA呢?比较有名的像是NVIDIA GPU、包括很多网络处理器芯片、包括现在我们比较热门的NPU神经网络处理器都可以理解为一种处理某些特定领域问题的架构,我们都(可以)叫DSA。

这是我们看到的目前、包括未来有可能AI芯片架构整体技能演进的趋势。
从最上面的GPU,以英伟达和AMD为代表,GPU本身做图形处理,最开始不是给AI人工智能来用,英伟达为代表的这些公司在GPU里面做了大量改进,加入HWA(Hard·Wired·Accelerator),也便是我们叫TensorCore,把它(GPU)变成面向人工智能领域很好的处理器芯片。

还有一类也是传统做旗子暗记处理的DSP,现在也有很多公司把它变成人工智能芯片,在DSP根本上加入大量的MAC阵列。
比如英特尔收购的一家公司较Habana他们的架构也是基于这个架构设计的。

另有一类,以ARM为代表的异构打算,加了CPU,同时也有DSA的专用领域,加入专业面向矩阵加速的HWA加速器,构成了一种异构打算模式。
这种模式我们认为,在目前包括未来将会成为主流,它可以同时知足很好的PPA(Power Perform Area),包括各种能效比都会达到很高的数值。

3、6大维度评判AI芯片

这里是我们根据很多客户的需求,我们大概总结了一下,当很多公司都在谈一款好的AI芯片,不管你自己设计还是用各种成熟的IP也好,什么样的芯片才能称之为好的AI芯片?我大概分了六个维度。

一颗好的AI芯片经由各种国际主流的benchmark评测,包括像MLPerf;像人工智能同盟的benchmark,也是在海内很有名的benchmark;还有等等。
这个是衡量AI芯片算法模型很主流的评测标准。

还有一个,我们不只从硬件,我们还要从全体生态链、软件栈,也便是我们常常说的工具链(来看)。
从工具链层面,很多公司尤其像我们设计了很完全的工具链体系。
工具链的完满是衡量你AI芯片是否成熟的一个标准,同时也是看到你能够给客户供应什么样的这种支持。

还有一个很多媒体都在谈的,AI芯片一定要谈算力TOPS。
实在TOPS不是唯一衡量AI芯片算力的标准,还有很多其它成分,比如有TOPS/瓦能效比,跟微不雅观、功耗包括算力利用率都是有关的。
还有很主要的成分,便是存储带宽。
刚刚知存科技的王总也提到了,为什么我们现在存算一体芯片非常热门,便是它能够办理数据搬移的问题。

当然了,还有几个维度关于AI芯片这块。

首先AI芯片要有很好的灵巧性,由于我们的算力不是固定的东西,须要支持常见的神经网络,同时有很强的扩展能力,比如客户能力很强,会自定义自己的算子,作为IP或者芯片供应商来说,我们须要能够支持客户做自定义算子的扩展。

当然了,还有除了AI层面的其它成分,我把它列了叫非AI功能。
我们打仗了很多客户后创造,客户对我们的需求不仅仅只在AI一个层面。
比如对付安防场景来说,安防客户不仅仅须要你只供应一个AI芯片,希望你供应更多的Solution办理方案,比如须要ISP、VPU、视频处理等等。

实在很多非AI功能如果你能把它变成一个总体办理方案,在未来很多垂直领域是非常有竞争力的。
目前安谋中国也在打造这样比较完全的IP组合平台。

4、AI算法正趋于轻量化

这是一个对AIoT芯片市场的剖析。
大略说,全体AIoT芯片刚才几位高朋也讲过,AIoT全体市场实在比较碎片化,目前看它的增速非常快,端侧的芯片增速也非常快。

但是首先它有很多这种需求,比如对低功耗哀求非常高,在很多低功耗的场景,乃至达到毫瓦级的水平,比如可穿着设备等。
同时,对付很多场景来讲,可能算力哀求没有特殊高,尤其对付AIoT领域,在100 GOPS下就可以覆盖大部分场景。

这个是我们看到的全体AI算法市场的一个轻量化趋势。
左边这张图来说,2014年开始市情上主流的轻量化算法,对算力需求越来越低。
我们看到,很多主流的算法轻量化趋势非常明显,它的打算量包括权重跟之前比较已经减少了几十倍旁边。
举个例子,我们做多目标检测的时候,如果想做30FPS Throughput(吞吐量),只须要大概百GOPS算力就可以了,每帧打算量可以降落到5GOPS以内。

此外,算法轻量化的趋势商汤的闫总也提到了,我们有大量模型轻量化的手段,都是一些很主流的量化、剪枝、共享、知识蒸馏等等。
那么这种模型量化的手段这天益的在演进,也就把我们算法轻量化的趋势推的越来越明显。

三、“周易”AIPU:两代产品覆盖全场景、全栈平台

前面分享了Arm架构和AI芯片和AIoT芯片的趋势。
后面重点讲一下安谋中国“周易”AIPU的一个整体情形。
“周易”AIPU是安谋中国自研IP产品线中AI人工智能部分,我们还有CPU、ISP其他等等的产品线。

这是我们目前,“周易”也是AIPU产品线上看到的市场上几个比较热门的机会。
第一个是比较热的安防,我们目前有客户和互助伙伴已经在基于我们的AIPU定制自己安防前真个芯片,该当很快产品就会出来。
手机是ARM在手机端生态里面比较上风的一块,未来作为安谋中国自研“周易”AIPU将来关注的市场。

还有其余一个市场便是自动驾驶和智能座舱。
如果大家去看各种峰会、媒体(宣布),智能汽车已经成为目前最热的一个词,而不是之一。

从安谋中国来讲,我们对自动驾驶以及智能座舱领域非常关注。
首先,Arm能够供应的IP组合通过级联等,做到几百体T(TOPS)以上的算力,同时我们可以供应的不仅仅是AI,而是包括AI完全的一套面向智能汽车完全的办理方案,(这)也是未来我们希望着力去发展的领域之一。
而且目前我们有比较有名的互助伙伴,也会在今年或者明年推出基于我们AIPU的座舱类产品。

其他几种,像智能家居、机器人、新零售,目前智能家居已经有落地的芯片,今年年内有智能音箱的产品出来,也是一家TOP的公司。

1、“周易”AIPU四大特点:本土研发、生态完全、架构创新、知足高PPA指标

安谋中国的“周易”AIPU有四个特点,这是我们硬件一个比较大略的框架图:

1)首先“周易”AIPU由中国本土团队研发,所有的知识产权完备自主可控,目前“周易”AIPU在几个比较重点的领域安防、汽车、智能语音领域开始即将大规模商用;

2)同时,我们会给客户、互助伙伴供应完全的技能生态,它是一个硬件加上完全的工具链以及适配全体硬件算法的体系;

3)从架构层面,自研一套专门面向深度学习的指令集架构,也是安谋中国技能团队自主研发;

4)从PPA的三个指标来讲,通过我们的实际测试和客户的反馈,可以达到很好的匹配。

在算子层面,“周易”的第二代产品支持超过120个以上的主流算子,而且还在持续的增加过程中。

第二类我们把它叫做AI Fix Function,这一类有点类似硬件加速单元,它是针对卷积操作里面很常见的一些操作来做特定的硬件加速,能够供应很好的效率,比如像卷积、池化、激活等等。

末了一类属于算力需求比较低的我们叫标量,紧张做一些循环跳转类的处理,有点类似CPU模式。
“周易”从架构级层面来说,三种不同的处理稠浊在一起,能够知足客户从算力很低到算力很高不同的需求。
同时,Arm还有一个有名度比较高的Trustzone可安全扩展,本身在“周易”里面也集成了我们的安全保护,可以有效保护用户信息,比如算法的数据等。

从工具链层面,我们目前针对一颗芯片来说,所有的工具链全部都是支持的,包括Simulator、Debugger、Profiler、Compiler还有Build Tool,也是构建全体完全生态非常主要的一个环节。

本身AIPU关键的一点便是灵巧可编程。
在设计一款芯片的时候,其生命周期在5年旁边。
在这5年的区间里,算法本身的迭代是非常快的。
在设计芯片之初,就要考虑有很完全的算子支持,乃至IP的变革是完备可编程的,这才能知足算法的不同需求。
本身我们的IP也是朝这个方向去做。

“周易”AIPU可以供应一个比较完全的可扩展能力。
由于“周易”本身是比较通用的AIPU平台,可以供应从最小0.2T算力乃至上百T算力的组合。
这里面对很多比如常见神经网络层,包括算子可以完备实现可编程,通过TEC张量来做的。

针对特定的卷积类操作,比如池化、激活、权重、特色图压缩等,我们通过一个特定的AI指令集也便是AI Fix Function来做,同时支持客户的扩展。

从工具链层面,我们会给客户供应完全易用的SDK。
举个例子来说,我们有命令行乃至图形的办法让客户能够快速一键天生我们的模型,比如你有一个TensorFlow或者Caffe的模型,通过命令行输入,直接通过SDK一键转化,很快天生AIPU可实行的文件,全体操作非常方便。
同时,从模型框架方面,目前支持现在市情上比较主流的一些模型,包括TensorFlow、Python、TensorFlowLite等。

这是我们的总结,面向人工智能领域端、边、云三大类,“周易”基本可以覆盖全场景人工智能办理方案,从端侧、边缘侧、云端做一个总结。
端侧有门锁、可穿着设备,像TWS、智能音箱、包括手机警能终端等每年市场的规模,包括须要的算力需求以及它的功耗,我大概做了一个整体的剖析。

从这里面,我们可以得出一个结论,目前市场主流的办理方案基本还是以GPU包括DSP为主,但是未来的趋势,也便是最佳的办理方案,面向所有的场景来说,ASIC定制化的芯片将成为紧张的办理方案。
对付“周易”AI IP来讲,两代产品包括今年年末发的第三代产品基本上可以覆盖从端侧到边缘侧所有的人工智能场景。

人工智能芯片除了硬件层面,全体软件栈便是我们的生态是非常主要的,这是目前“周易”全栈式异构平台的软件栈。
最底层对Arm整体Cortex CPU、Mali GPU以及我们自研的AIPU硬件体系的支持;到上层很多打算库,包括互助伙伴完全的driver以及run time库,像Arm NN、Tengine的支持;到最上面像TensorFlow、Caffe、PyTorch等等支持,“周易”覆盖了全体软件站各个层面的支持。

从工具链层面,我们目前针对一颗芯片来说,所有的工具链全部都是支持的,包括Simulator、Debugger、Profiler、Compiler还有Build Tool,也是构建全体完全生态非常主要的一个环节。

这里面是我们刚刚讲的,“周易”是通用的AIPU平台,如果通用的话,我们一定要谈到对目前市场上主流的深度学习算子支持,内置的Model Zoo预演习模型的支持,涵盖了目前市情上可以看到的主流算法,比较热门的transformer等等。

在算子层面,“周易”的第二代产品支持超过120个以上的主流算子,而且还在持续的增加过程中。

在安防、自动驾驶很多场景里面,客户须要完全的办理方案,针对客户需求我们打造了面向CV视觉领域完全的IP办理方案。
这里面不仅仅包括AI,包括ISP、CPU,通过互联的办法组成完全的生态链。

Arm的M和A系列是完备支持的,ISP也有Arm中国自研的玲珑,(该产品)前段韶光刚刚发布,ISP和“周易”、Video Encoder等一起,可以为客户供应一个完成比较完全的视觉IP办理方案。

2、“周易”Z1:边缘打算通用的AI IP,面向IoT&Edge

这是我们“周易”的第一代产品,叫“周易”Z1。
这是我们跟全志科技(互助)已经正式量产,今年很快大规模商用。
全志R329用的是周易Z1的AIPU,供应的算力在0.2TOPS旁边。

这个算力也让我们看到了在智能音箱领域算力的一个趋势,我们可以看到,端到真个语音算法将会成为一个主流的趋势。

“周易”可以很快办理端到真个处理,把数据直接通过神经网络送进来,不须要单独像之前由DSP做前端处理,可以通过AIPU处理。
通过试验比拟,我们跟一些DSP做了一些测算。
能效比包括算力(“周易”AIPU)相称于它(DSP)的七倍以上。

这也是“周易”Z1,可以供应不同的算力组合。
这是我们做了一个人体关键点检测的运用案例,实际运用去跑,支持人脸关键检测的算法,像Open pose、Deep pose等,在1TOPS打算力环境下吞吐量基本可以做到80FPS。
而且在这个环境下,我们的bandwidth(带宽)非常低,全体成本相较来说也比较低。

3、“周易”Z2:针对边缘打算中高端场景优化

“周易”Z2(是)第二代产品,跟Z1有一点不同,“周易”Z2更多面向边缘打算和中高真个场景,比如自动驾驶、中高真个安防等等。

Z2和上一代产品比较,它的特点在于单核算力是上一代产品的两倍乃至更高,同时支持多核级联,其算力在128TOPS旁边,可以做到自动驾驶乃至中高端场景的需求,芯片面积Z2比上一代产品节省30%旁边

从算法层面来讲,“周易”Z2支持稠浊精度打算,同时在同等算力配置下,通过测算“周易”Z2比上一代产品针对某些网络模型的性能高很多,两代产品做了一个比拟,找了一个比较有名的网络模型MobileNet V2,在带宽节省30%同时,性能提升靠近3倍旁边

“周易”Z2在今年或者明年也有一些互助伙伴,基于“周易”Z2 AI IP做运用和场景的落地,紧张面向安防和智能汽车两个领域。

这是我们在“周易”Z2实际的运用环境做的智能汽车比较热的领域DMS驾驶员的疲倦监测。
我们和主流的DMS公司做了算法的互助,涵盖了Face Detection、Face landmark、Head pose、Gaze等所有算法我们做了一个领悟。
“周易”Z2在1TOPS算力环境下,throughput做到了70fps旁边。

这是其余一个运用,“周易”Z2做了超级分辨率DTV(的一个案例)。
我们也是跟主流的超级分辨率公司做了互助,用的“周易”Z2 1T算力硬件环境,经由我们的测算能够做到4K 60帧旁边,同时利用业内有名的图象或者质量评价工具WMAF,其评分达到93分。
基本上(该运用的)93分是非常高的分值,一样平常做到80分以上就非常高了。

末了跟大家整体的总结一下,目前安谋中国基于环球Arm的标准,我们在这个根本上做了很多本土创新的事情。
第一,我们的“周易”AIPU是面向安防、车载乃至移动很多IT场景的AI通用途理器。

还有其它的安谋中国自研产品,包括“山海”,是面向物联网领域的安全办理方案,目前很多客户在落地。
还有两个是我们的CPU和ISP办理方案,一个是“星辰”(STAR),(一个是“玲珑”)。
在TWS领域,OPPO用了我们“星辰”CPU IP(的产品),已经大规模量产和出货。
“铃珑”是我们近期刚刚安谋中国推出的自研ISP办理方案,后面还会推出面向安防和智能汽车不同运用处景的办理方案。

我本日的先容就到这里,感激大家。

以上是吴彤演讲内容的完全整理。

办理方案。

我本日的先容就到这里,感激大家。

以上是吴彤演讲内容的完全整理。

的先容就到这里,感激大家。

以上是吴彤演讲内容的完全整理。

标签:

相关文章

芯片是不是越小越好_芯片_也就

由于芯片越小,不只代表的工艺水平越前辈,更代表单位面积内所能蚀刻的晶体管也就越多,性能也就越强。微纳米芯片的上风紧张表示在如下几点...

互联网 2024-12-29 阅读0 评论0

微笑春风,感受岁月静好,品味人生真谛

在岁月的长河中,我们每个人都是一粒尘埃,承载着无数的故事与感悟。在这纷繁复杂的世界里,微笑春风仿佛是一缕温暖的阳光,照亮了我们前行...

互联网 2024-12-29 阅读0 评论0