近年来,自动驾驶的遍及以肉眼可见的速率加快,根据1月12日工信部数据,2021年新能源汽车发卖352.1万辆,个中搭载组合赞助驾驶系统的乘用车新车市场占比达到20%。而两年前,L2级赞助驾驶的渗透率仅为3.3%。
相伴而生的,是汽车「大脑」自动驾驶AI芯片的竞争加剧。
英伟达、英特尔等老牌芯片企业早就瞄准了这一赛道,特斯拉、蔚来、小鹏等车企,黑芝麻、地平线、芯驰科技、寒武纪、后摩智能等海内芯片厂商也都纷纭入局。

比如,蔚来汽车有自研芯片的操持;高通去年宣告和宝马互助,2025年利用高通骁龙Ride自动驾驶平台;初创公司有的直接聚焦在自动驾驶上,也有的业务范围更广,覆盖自动驾驶、智能座舱、中心网关、高可靠MCU等;收购、互助等关系网也在不断变动,这一沙场的发令枪已经拉响了。
然而,与常见的数据中央AI芯片不同,运用于汽车场景的AI芯片,在算力、功耗、性能方面都提出了更极度的哀求。
在摩尔定律逐渐失落效、“存储墙”问题日益凸显确当下,汽车AI芯片到底须要供应多大算力?何种路径才是打破摩尔定律的存储墙壁垒的最靠近落地方法?面对山头林立、秩序井然的芯片市场,初创公司的市场机遇和差异化上风又是什么?
「存算一体」大概是个值得研究的答案。
01. 一笔取舍账,自动驾驶须要多少算力
过去几年中,用于衡量一款自动驾驶芯片最直接的标准之一,便是算力高低。
自动驾驶级别越高时,产生的数据越多,对芯片的算力哀求也就越高。
2014年时,最早运用Mobileye的第一代EyeQ芯片,算力只有0.256TOPS;2015年,就已有专门面向自动驾驶的平台,每年要迭代1-2次;英伟达也预报将在2025年上市1000T算力的Atlan芯片。
算力的不断提升,是否意味着自动驾驶的需求已经得到了知足,自动驾驶玩家们可以跑出算力焦虑了?
远还没有。
一方面,大算力也意味着更高的本钱。实际上在现有的自动驾驶芯片中,单片算力很难知足高等别自动驾驶的需求,车企或自动驾驶企业多会采纳“堆料”的办法,用芯片数量的增加来实现大算力。本钱的增加不可避免,难以推动自动驾驶技能的规模化运用,车企也很难实现技能和商业的平衡。
另一方面,除了对算力需求高,智能驾驶场景也对芯片的功耗和散热有很高的哀求。做事于丰田的创业者Amnon Shashua曾在多个场合表示过,效率比算力更主要。详细阐明,算力、功耗、本钱就像是一个三角架构,一角的增减要用另一角来补充才行。
除此之外,「算力」并不真正代表着「性能」。
1000Tops的芯片参数,并不虞味着这块芯片在实际运用中能够发挥出1000Tops的真实性能。
在当前的冯·诺伊曼架构当中,内存系统的性能提升速率大幅掉队于处理器的性能提升速率,有限的内存带宽无法担保数据高速传输,形成了一道“存储墙”。
一方面,大量的打算单元受限于带宽的限定,无法发挥浸染,造成算力利用率很低;另一方面,数据来回传输又会产生巨大功耗,进一步加大汽车电动化大潮下的里程焦虑。
因此,仅仅大略用算力高低来评估,远远达不到自动驾驶的需求。
汽车AI芯片不仅须要大算力,更要有实际利用率的大算力,而且能够保障低功耗、低延迟以及可承受的本钱。
02. 存算一体,金字塔从头建起
为理解决“存储墙”问题,当前业内紧张有三种方案:
用GDDR 或HBM来办理存储墙问题的冯·诺依曼架构策略;算法和芯片高度绑定在一起的DSA方案;以及存算一体的方案。
HBM是目前业内超大算力芯片常用的方案之一,其上风在于能够暂时缓解“存储墙”的困扰,但其性能天花板明显,并且本钱较高。
DSA方案以捐躯灵巧性换取效率提升,算法和硬件高度耦合,适用于已经成熟的AI算法,但并不适用于正处于快速迭代的自动驾驶AI算法中。
末了是存算一体方案,这是一项出身于实验室的新兴技能,其创新性在于冲破了传统·冯诺伊曼架构局限性,实现了打算与存储模块一体化的整合创新,办理了传统芯片架构中计算与存储模块间巨大的数据传输延迟、能量损耗痛点,既增加了数据处理速率,又大大降落了数据传输的功耗,从而使芯片能效比(即每瓦能供应的算力)得到2-3个数量级(>100倍)的提升。
达摩院打算技能实验室科学家郑宏忠曾讲过:“存算一体是颠覆性的芯片技能,它天然拥有高性能、高带宽和高能效的上风,可以从底层架构上办理后摩尔定律时期芯片的性能和能耗问题。”
因此,存算一体架构可以把算力做的更大,其芯片算力天花板比传统冯·诺依曼架构更高;同时,大幅降落了数据传输的能量损耗,提升了能效比;其余,还能得到更低的延时,存储和打算单元之间数据搬运的减少,大幅缩短了系统相应韶光。
更主要的是,用存算一体架构做大算力AI芯片另一大上风在于本钱掌握。不依赖于GDDR 或HBM,存算一体芯片的本钱能够相应的降落50%~70%。
换句话说,真正创新架构的AI芯片是将上文中提到的算力、功耗、本钱三角形构造从原来的位置往上挪了三个档位。不仅可以提高算力,还可以达到降落功耗、掌握本钱的效果。
03. 摘取「高挂的果实」
最近几年,在缺芯的时期背景下,随着政策支持的不断加码,我们看到海内半导体家当迎来了发展的良机。芯片的“国产替代”已经在很多细分领域取得了进展,深受成本市场青睐。
但是成本市场也有越来越多的人意识到,热门芯片赛道的“国产替代”创业项目已经日趋饱和。一部分嗅觉敏锐的投资人开始关注后摩尔时期的“创新架构”,认为要想在纯市场化竞争中寻衅英伟达等国际芯片巨子,必须另辟路子。于是差异化的技能创新成为芯片投资中的主要策略。
HBM、DSA、存算一体都属于芯片行业当前的技能创新路径,三者比拟来看,存算一体可以算作是一条难度最大、颠覆性最强、风险最高,但差异化和创新性也最显著的路径。
近年来,国内外呈现出不少专注于存算一体芯片的新兴创企,巨子们纷纭加快了家当布局,成本也对其青睐有加。海内最近一笔干系融资来自今年4月,海内存算一体明星创企「后摩智能」宣告得到数亿公民币Pre-A+轮融资。
不过,一贯以来,传统的存算一体研究大多集中在低功耗、低算力的「小」芯片场景中,比如语音、AIoT、安防等边缘领域。
能够运用在车载AI的存算一体「大」算力芯片,即便在学术界也是一大难题,家当界敢于迎战者更是屈指可数。
想要将二者领悟,既须要存储单元阵列、AI core、工具链等各个方面都须要有深厚积累的团队,又须要进行整体的协同优化设计,才能终极实现一款高效的基于存算一体的大算力AI芯片。
所幸,这一创新性技能已经让市场看到了落地可能性。
5月23日,后摩智能首款基于SRAM的存算一体大算力AI芯片已成功点亮,并跑通智能驾驶算法模型。首次在存内打算架构上跑通了智能驾驶场景下多场景、多任务算法模型,为高等别智能驾驶供应了一条全新的技能路径。
存算一体很难,存算一体大芯片更难。但在家当巨子林立,市场秩序森严的芯片家当,新兴创企若是只乐意选择随意马虎走的路、采摘「低垂的果实」,是难以取获胜利的。
在担保存算一体带来的高能效比、高性价比的条件下,又能将其成功扩展到知足自动驾驶「大」算力需求的级别,属于家傍边「高挂的果实」。
从成立之初就聚焦于存算一体大算力芯片的后摩智能,正是瞄准了这一道路。
以团队组成来说,后摩智能的核心创始团队既有来自美国普林斯顿大学、UCSB, Penn State大学等海内外有名高校的学术人才,又有在AMD、Nvidia、华为海思、地平线等一线芯片企业中拥有丰富大芯片设计与实战履历的家当专家。
今年5月大算力存算一体芯片宣告点亮,对付后摩智能来说,离摘取「高挂的果实」已经越来越近了。
传统高算力芯片山头林立,后来者想要在现有赛道上实现超越,确实是充满寻衅的。
但随着HBM等昂贵方案的不断的提出,冯·诺伊曼架构的末了一丝红利已经被榨干,市场急迫地须要新架构、新出路。
在AI算法快速迭代,摩尔定律逐渐失落效确当下,我们期待看到越来越多像后摩智能这样乐意投身于根本创新的芯片创企,不断推进家当走向下一个时期。