在9月3日召开的Arm TECH DAY研讨会上,Arm中国和NXP一起,携各种基于神经网络的人工智能和物联网参考方案,向嵌入式系统开拓职员详细先容基于这些强大Arm内核MCU及其软硬件平台。以NXP eIQ和开源算法的运用实例,演示在基于Arm Cortex-M内核的平台上支配人工智能模型的全过程,以及如何环绕CMSIS-NN充分发挥Cortex-M平台上扩展的潜力。
参会工程师正在参不雅观NXP demo

听NXP大神讲,AI与MCU该如何联系?

NXP MCU系统工程师宋岩首先先容到,传统的机器学习紧张靠人工提取和提炼特色,传统机器学习与深度学习最根本的改变是将人工提取的过程改为模型自动找出特色的过程。嵌入式系统作为主体,而人工智能则是属性,以一个人工智能模块来呈现供应新功能,亦可改进现有功能。
NXP MCU系统工程师宋岩
目前可以在MCU级平台上支配一些“轻型智能”,如模型尺寸和算力哀求低的小规模智能运用,和一些可独立运行的AI模块,无需云端连接就可以实现,再便是一些对重点运用量身定制的运用,还有一些优化高、功耗低、相应稳的运用,这些都是适宜在MCU风格的平台上利用。
在MCU上运用AI的特点:降落功耗、降落本钱、快速上市、实时相应、行业广泛、体量弘大、前级处理。
虽然MCU上运用AI的上风颇多,但是难度也非常大,详细来说紧张有三点,第一个便是算力弱,纵然是目前性能最高的MCU,i.MX RT1050/60,int16算力也只有1.2GMAC/s,可以利用较少位数量化模型、合理精简模型规模、高度优化底层代码、充分利用异构多打算单元;第二个是短缺建模与演习工具,可通过借助PC/Sever来建模与演习;第三是短缺集成工具,对此MXP供应eIQ(边缘智能)工具。
如何在MCU上实现AI边缘打算,这是每个嵌入式工程师都必须关心的话题。在MCU上集成AI的整体流程分为PC端工具和设备端固件两大块。在PC端网络数据集,利用AI建模软件来演习模型,它们常日称为框架,著名的有TensorFlow、Keras、Caffe等。演习之外,还有工具集用来转换、量化、天生。而在MCU固件与数据部分,NXP的I.MX RT Kinetis,LPC MCUs和神经网络底层库(如用于Cortex-M的CMSIS-NN)是用来运行AI模型的根本环境。
在MCU上集成AI的整体流程
事情流程细节
NXP有全套的MCU、MPU产品线,从低真个MCU一贯到高真个四核、八核高端处理器,所有这些芯片都可以用在机器学习、边缘打算上。
NXP的MCU + AI工具操持:eIQ
NXP的eI机器学习软件开拓环境支持在NXP MCU、i.MX RT跨界处理器和i.MX系列SoC上利用机器学习算法。eIQ软件包括推理引擎、神经网络编译器和优化库。该软件不仅利用开源技能,还完备集成到NXP的MCUXpresso软件开拓套件和Yocto开拓环境中。
eIQ整体框架图
在硬件平台中运算的部分是各种内核和硬件加速器,eIQ框架中包含Cortex-M、A核以及DSP、GPU和ML加速器,个中ML加速器可以跨平台、跨处理器和MCU。芯片之上是硬件抽象层,如CMSIS-NN、Arm打算库、OpenCL和OpenVX。在eIQ中有几种不同类型的推理引擎:Arm NN, OpenCV, Arm CMSIS-NN, TensorFlow Lite,等。不同的模型推理软件各有优缺陷。
不同模型推理软件架构的优缺陷
物联网终端产品正具备更多的AI,为此,恩智浦推出了eIQ开拓环境,并在新产品中授予了更多机器学习和安全性。AI/ML在嵌入式系统上运用大领域紧张有生物识别、(非实时)现场监控、可穿着设备、自学习/自改进设备、非常检测&事件检测、AI教诲、智能掌握模块等等。在TECHDAY现场,NXP也展示了AI的诸多运用方案。
NXP的AI运用demo展示一角
NXP I.MX RT1050上demo模型耗时一览
展望未来,机器学习将用于智能车自动驾驶,第1阶段紧张是离线演习,在线利用;第2阶段是离线+在线强化学习。智能车自动驾驶的推举平台有i.MX RT与i.MX 8M。
CMSIS-NN不断解锁Cortex-M的潜力
常见的神经网络紧张有CNN、DNN、RNN和LSTM。卷积神经网络(CNN)是最常用的视觉图像剖析方法,深度神经网络(DNN)是一种在音频运用的输入层和输出层之间具有多层构造的神经网络,递归神经网络(RNN)是一类人工神经网络,节点间的连接按韶光序列形成有向图,是非时影象(LSTM)是一种人工递归神经网络构造。
Arm嵌入式市场高等经理Eric Yang
Arm嵌入式市场高等经理Eric Yang讲到,在这几种神经网络的模型中,DSCNN的精度最高,精度渐近达到95%。
Eric Yang也讲到,Arm可以从软硬件上都可以供应AI的支持。在硬件上,Arm-Cortex从M0-M7都可以做AI演习。
Arm Cortex M系列都可以做AI演习
软件上,Arm在去年1月份发布了开源的CMSIS-NN的。CMSIS-NN高效地实现了常用的神经网络算子,旨在最大限度地提高性能并最大限度地减少针对智能物联网边缘设备的Arm Cortex-M处理器内核上的神经网络的内存占用。CMSIS-NN采取整数运算,比纯C能有4.6倍性能提升和4.9倍能效提升,但是不能单独利用,需合营上层工具集利用,如NXP为之配套的”NNCU”工具集。CMSIS-NN能为Cortex-M DSP供应扩展优化的NN根本库,也可以供应标准C参考实现。
CMSIS-NN 性能和能效提升很大
正所谓“鱼与熊掌不可兼得”,比拟TensorFlow Lite,Cortex MCU运行CMSIS-NN时,仅是底层NN库,需另行生产上层代码或供应实行引擎,TensorFlow则自带实行引擎和底层NN;但TensorFlow的性能远不如CMSIS-NN,尤其是在int8上性能只有CMSIS-NN的20%!
CMSIS-NN对算子的支持稍有薄弱,对此NXP补全了一些算子。CMSIS-NN尚未支持不常用的并联结构(如Inception),但是有更加高效的量化机制。在推理引擎延迟和内存占用方面,CMSIS—NN的表现都较好。
CMSIS-NN与TensorFlow比较
高效的神经网络内核是实现基于Arm Cortex-M的CPU推理的关键。CMSIS-NN供应了优化的功能,以加速关键的神经网络层,如卷积,池化和激活。此外,CMSIS-NN还有助于减少内存占用,这是内存受限微掌握器的关键。
会上Eric Yang也表明,受摩尔定律的影响,未来轻量级M系列的MCU会越来越得到大家的关注。
除此之外,Arm的KEIL MDK也将助力Arm MCU系统更好的发展。Arm中国高等工具市场经理Hope Zhao讲到,集成电路的设计繁芜度和本钱并没有降落,在5nm制程下,软件本钱占总本钱的35%-40%。
Arm中国高等工具市场经理Hope Zhao
不过在全行业的努力下,Arm和互助伙伴创造了一个令人敬畏的生态系统,Arm专注于关键的构建块,靠近架构,互助伙伴通过特定于运用程序的贡献来增加代价。
Arm Keil MDK开拓系统
结语
总之,MCU现已踏上了适应AIoT场景的智能化改造之路,通过越来越多的智能互联运用处景的充分验证后,真正能顺应市场需求的智能MCU方案也必将脱颖而出。如今Arm与NXP强强联合,下一步,只须要推动市场的爆发,终极重新描述未来万物智能互联的美好景像。
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第2064期内容,欢迎关注。
半导体行业不雅观察
『半导体第一垂直媒体』
实时 专业 原创 深度






