作者 | 心缘
编辑 | 漠影

写在前面:12月21日-22日,GTIC 2021环球AI芯片峰会将在北京举行。届时,来自芯片巨子、独角兽公司及创业新秀的家昔时夜咖和技能专家将同台分享AI芯片的技能创新和落地履历。大会前夕,芯东西对参会高朋进行系列深度对话,提前一睹他们对家当的真知灼见。本期对话高朋为后摩智能创始人&CEO吴强。

2021年的AI芯片圈,“大算力芯片”无疑是热度最高的话题之一。这个由英伟达、英特尔等半导体巨子执掌的赛道,正有一批创业新秀捋臂将拳。
在家当界,吴强已经历练了大约20年。他经历过CPU和GPU的壮盛期间,见证过互联网巨子的崛起,也曾亲临人工智能新一股浪潮爆发的前哨。
从AMD的GPGPU/OpenCL创始团队核心成员、Facebook总部资深科学家,到海内有名AI芯片独角兽公司技能副总裁和CTO,他经历了一次次身份转变,在2020年底踏上新的创业旅程。
这次创业,吴强思忖已久。此时的云端及边缘打算领域略显拥挤:高举“国产替代”旗帜的GPGPU赛道,已经聚拢了一只手数不过来的创企。吴强不想做同质化的事。
在他看来,颠覆性的新兴技能,才能真正带来赶超巨子的机会。由他创办的后摩智能,在海内率先提出基于存算一体,做面向边缘端及云端推理的大算力AI芯片。
创立不满一年,后摩智能已完成两轮数亿元融资,并于今年8月完成首颗核心技能验证芯片的设计。在近日的深入互换中,吴强见告芯东西,其首颗样片已投片送测。
他希望后摩智能的选择,能让中国AI芯片成功的概率,变得更高一点。
一、未来15年,必有AI芯片超越英伟达GPU
20世纪90年代末到本世纪初,奔驰(Pentium)系列高性能处理器横空出世,翻开英特尔辉煌的篇章,由此连续10年主宰环球PC处理器市场。许多伟大的研究论文也开始层出不穷。
那时,正在美国普林斯顿大学打算机科学博士学位、研究打算架构和编译器的吴强,被英特尔搅动的PC风云所触动,对芯片行业心神往之,先是进入英特尔参与研发高性能打算处理器安腾,随后加入AMD转向GPGPU研究。
经历几波科技浪潮,吴强总结出一个规律:技能永久是被需求驱动的,而人工智能(AI)是新一轮芯片热潮爆发的根本缘故原由。
早期从DOS到Windows操作系统,对速率哀求很高,如果不换智能机,软件跑不起来。底层芯片的快速迭代推动了很多伟大的事情涌现。但后来随着PC市场开始饱和,很难再涌现颠覆业界的新软件。到2009年旁边,芯片行业已经陷入低潮。
PC家当被频年唱衰之际,互联网企业却在争议中走到了历史舞台的中央位置,通过网络不断吸纳海量数据,带动起环球的流量风暴。
吴强意识到,PC市场对算力的需求越来越弱,而大数据、并行打算、高性能打算的需求之门正被互联网企业开启。他转而进入Facebook,亲历了这家企业从数百人的创企发展为科技巨子,直至2017年,芯片行业由于AI的朝阳东升,再度涌动起创新的热潮。
“AI的涌现带动了所有算力的需求。”吴强说,由于智能化符合人性,没人喜好苦累繁复的事情,他坚信AI遍及会是大势所趋。AI对算力更大的需求,驱动了芯片家当的变革。“以是,我一定要做AI芯片,由于它有需求,有需求就有发展。”
伴随着AI兴起,一家美国芯片公司开始飞升,它便是AI演习加速市场的霸主——英伟达NVIDIA。
英伟达是第一家、也是迄今最成功的AI打算芯片公司。在2006年以前,英伟达更多是作为游戏显卡龙头享誉环球,办理了GPU统一编程难题的软件平台CUDA横空出世,并在数年后与GPGPU联手,成为AI技能革命的核心燃料。
乘上AI东风的英伟达,股价一起走高,如今最新市值已逾8000亿美元。
吴强从2006年就开始打仗和研究英伟达产品,对CUDA和GPGPU架构设计有深入理解。
现在主流的AI打算源自GPGPU,而GPGPU源于图形处理单元GPU。GPU本来用于做图形渲染,逐渐地,研究职员开始考试测验让它做非图形干系打算,由是涌现general purpose GPU,即业内常说的GPGPU。
但第一个成功的路线,便是最好的路线吗?
“不一定。”在吴强看来,英伟达的成功存在一定的历史有时性,“我们须要回答的问题是,我们能不能做出一个更符合AI打算特性的东西来。”
他坦言,这条路一定充满寻衅,但如果放大韶光维度,看向未来15年,一定会有人能做出来。
二、大算力芯片时期到来,政策加码、成本涌入
“寻衅英伟达”,凡是站定AI芯片赛道的初创公司,险些都会喊出这样的口号。
但在英伟达极厚的软件生态壁垒面前,即便有些外洋创企已经大牛如云,至今仍在寻衅英伟达的道路上步履维艰。
不过,中国正迎来新的时运。
从2018年开始,持续不断的中美贸易摩擦将芯片半导体这一信息家当“软肋”推至风口浪尖,国产替代的号角吹响,成本开始倾注各个“卡脖子”的关键赛道,许多行业老兵选择跳入创业的汪洋。
吴强亦是如此,他瞥见了中国AI芯片枝繁叶茂的远景,并关注到一个千载难逢的机会——中国人敢做大芯片了!
中国有上千家芯片设计企业,个中早期一批芯片企业大都在做小型运用芯片,包括WiFi芯片、电源芯片、蓝牙芯片等等。但做大算力芯片的玩家相对少见。这是个高投入、高门槛、高试错本钱的赛道,一个芯片流片动辄要耗去几千万美元。
现在,在政策鼓励、需求激增、成本力捧的大环境下,大算力芯片创业的池子正在变大、变得生动,很多像吴强一样在工业界做了20年的老兵开始入局。
这匆匆使吴强在创业之初便下定决心:“第一,我要做AI芯片;第二,我要在中国做。”
做什么?是下一个要解答的问题。
吴强不雅观察到一个征象,创业者总是一窝蜂地冲到同质化赛道,国产替代仿佛成了“金字招牌”,抢产能、抢人才等暴躁征象涌现,在他看来,这些并不利于海内芯片发展。
大算力AI芯片领域存在类似的情状,“英伟达怎么做,那我也国产替代复制一遍。”吴强以为这种用英伟达的办法打英伟达,很难实现真正的超越。
他也支持有人做传统路线的国产替代,只不过,总要有人去探些新路,选择另辟路子,也有助于增加中国AI芯片成功的概率。
因此,2020年下半年,面对已经聚拢着一批云端AI芯片创企的海内市场,吴强决定去走一条截然不同的路——用存算一体做大算力芯片,并立下实现单芯片算力高达1000TOPS的目标。
三、“不复制别人走过的道路”
为什么选择存算一体?这是综合考量的结果。
吴强在打算芯片及编译器等技能积累深厚,曾获第38届打算机体系架构顶会MICRO-38唯一的一个最佳论文奖,其科研成果被美国业内杂志IEEE Micro评比为年度最有影响的12个科技成果之一,并多次担当国际会议项目委员会委员和国际期刊的客座主编。
除了从前研究的GPU外,他也是谷歌第一代TPU论文的5个主审编之一,非常清楚TPU的技能底层逻辑。在研究过各种非常规的新兴技能后,吴强认为存算一体可能颠覆传统AI芯片的路径。
吴强与团队互换(来源:焦点访谈)
他将AI芯片公司分为三类:(1)把AI算法与硬件高度领悟,将算法一部分固化在硬件;(2)仿照英伟达的技能路径,把GPGPU做图像的东西去掉,只保留做AI打算的部分;(3)针对某一类运用处景或某一种事情负载来做相对定向优化的AI打算。
这三类都有不少公司在考试测验。一方面,这些办法很难在通用性和效率上做到两全。另一方面,用这种办法去寻衅英伟达,会面临巨大的工程上的寻衅,很难真正超越英伟达。
而存算一体并没有遵照传统的冯·诺依曼架构,而是更多是从底层技能去重新设计,用存储介质承担打算任务,以节省数据在存储与打算单元之间搬运所导致的延时和能耗。这是一个全新的维度,是可以在不丢失通用性的条件下,实现效率的提升。
做存算一体AI芯片在业内已经有公司在考试测验,但用存算一体做大算力AI芯片,彼时在海内并不多见。
起先存算一体技能生动于学术界,国内外也涌现了一批团队考试测验先做小算力芯片。他们对推动“存算一体”芯片的发展做出了积极的贡献,也增加了外界的关注度。
吴强不想“复制别人的存算道路”,他不雅观察到技能发展至新阶段,用存算一体做大芯片已成可能。
存算一体芯片的实现依赖存储介质。早期存算一体技能在做大算力方面有一定局限性。近几年(特殊是2018年之后), 新型存算技能和新型存储介质技能都发展到了一个新阶段,用存算一体做大算力芯片已成可能,商业落地的苗头渐显。
吴强想,结合自身积累的工业履历和学术资源,大概能捉住这个时期机遇,达到更高的天花板。
四、先攻边缘端和云端推理,首颗样片年底回片
做大算力存算一体AI芯片,既离不开拥有工程实践履历、做过大算力芯片的人才,也须要存算一体技能积累深厚的人才。
吴强本身兼具长期的工业背景和很强的学术资源,因而能将这两拨人聚在一起,他也将此视作团队核心竞争力所在:兼备学术创新能力和工程能力,具有架构、算法、软件等层面的综合积累,并熟习全体家当链玩法,深入理解要以下贱客户需求为出发点反过来定义芯片,而不是先有技能这把“锤子”,去到处探求“钉子”。
“我比较幸运,团队里有这样的人才。”吴强说,其团队成员在存算一体研究的技能积累超过15年,在学术顶刊揭橥过多篇干系论文,并有业内最丰富的学术流片履历。。
一方面,只有具备学术创新能力才能真正做到“知其然,并知其以是然”;另一方面,除了能按论文理论做出芯片,团队还需能将芯片理论产品化,只有拥有工程化履历、做过芯片并深入理解客户需求的团队,才有能力快速地往前走。
聚拢了多位能力强、有技能崇奉和长期主义的人才,这是创业以来,尤其令吴强最感到骄傲的事。有的团队成员是从异地加入,有的放弃了高薪或数量可不雅观的成熟上市公司期权,他感慨道:“这解释对方是真正认可你在做的事情。”
后摩智能办公室(来源:焦点访谈)
在吴强看来,大芯片创业要闯三道关:做出来、落地、规模化商用。
多数芯片公司都能做到第一步,即做出芯片;接下来真正难的是落地商用,这将会经历一段很困难的日子;实现落地难关的公司将到末了的冲刺阶段——起量,这时市场会排出前几名。
因此,在办理做什么、怎么做的问题后,接下来的关键计策选择,便是芯片首先落在什么场景。
在云端演习领域,设计出性能、能效超过英伟达GPU的芯片并非不可能的事,英伟达真正坚不可摧的是由CUDA+GPGPU砌成的生态壁垒。吴强认为,要替代英伟达,最少要比英伟达的产品性能好5~10倍,1~2倍的改良客户可以就等下一代产品,没必要忍受一个新的、没那么顺手好用的软件。
他选择先从竞争对手相对薄弱的环节——边缘端和云端推理攻入。当前AI推理芯片普遍采取特定领域架构(DSA),其效率与通用性存在天然抵牾,而存算一体正好能发挥出兼顾高效能与通用性的上风。
经由近一年的发展,如今后摩智能的团队规模扩大至近百人,研发团队硕博士占比超80%,申请了10余项新专利。
吴强透露道,后摩智能的首颗“存算一体”大算力样片已经投片送测,估量年底回片、明年点亮。
结语:大芯片创业窗口收窄,创新值得被鼓励
据吴强不雅观察,中国大芯片元年从2018年开始,到今年是三年的开放窗口期,待到今年年底后,创业窗口将收窄,再想入局可能为时已晚。此时早期一批玩家已经各占一席,如果还在做基于类似技能的产品,很难做出差异化。
除了存算一体外,吴强也希望国家可以多鼓励企业去探索其它的底层创新技能路线,尤其是新材料、新存储介质等根本技能,这些技能的发展,乃至有望推翻全体打算机设计的基本假设,首创出AI芯片新思路。
“如果中国真想超越美国,须要有人去做这样的事情。”他呼吁无论是投资还是创业,都少做同质化探索,多往不同的创新技能路线去布局和分配资源,才更有可能捉住历史机遇。
随着更多投资者开始关注新兴技能赛道,海内市场将有一个大浪淘沙的过程,然后趋于理性,留下真正产生代价的AI芯片公司。









