作者 | 程茜编辑 | 漠影
大模型端侧支配正加速!
AI PC等新物种热度暴增,企业对付AI加速卡的关注度也水涨船高。

但是AI PC等端侧设备中的AI加速卡如何做到可用、好用是一大难题,其须要兼顾体积小、性能强、功耗低才能使得端侧设备承载大模型能力成为现实。

近日,清华系AI芯片创企芯动力科技面向大模型推出了一款新产品——AzureBlade L系列M.2加速卡。M.2加速卡是目前海内最强的高性能体积小的加速卡,其强大的性能使其能够顺利运行大模型系统。
M.2加速卡的大小仅为80mm(长)x22mm(宽),并已经实现与Llama 2、Stable Diffusion模型的适配。
具备体积小、性能强,且有通用接口的M.2加速卡成为助推大模型在PC等端侧设备上支配的加速器。
从这一加速卡出发,芯东西与芯动力创始人、CEO李原进行了深入互换,磋商了大模型家当发展至今产生的显著变革,以及大模型在端侧支配过程中,芯动力科技在个中扮演的角色以及手持的杀手锏是什么。
一、体积小、性能强、功耗低,端侧跑大模型三大关键AI PC已经成为大模型落地端侧设备的一个主要载体。
从去年年底至今,AI PC的热潮正在涌起。前有英特尔启动AI PC加速操持、高通推出专为AI研发的PC芯片骁龙X Rlite、上周英伟达发布全新一代RTX 500和1000显卡,支持条记本电脑等端侧设备上运行天生式AI运用……
根据市研机构IDC发布的最新报告,预估AI PC出货量2024年逼近5000万台,到2027年将增长到1.67亿台,占环球PC总出货量的60%旁边。
AI PC这一新物种正在加速大模型的规模化落地。与此同时,拥有弘大参数规模的大模型也对端侧设备可承载的算力提出了更高的需求。
在端侧每每只有一个独立设备。以PC为例,作为人们日常生活、事情的常用设备,其体积并不大且足够轻便,因此须要AI加速卡足够小且不会因体积捐躯性能上的上风。以M.2加速卡的形式进入AI PC的市场便是很有上风的产品形态。
可以看到,当下大模型的发展路线不再唯参数论,越来越多参数规模小性能强大的模型涌现,如开源的Llama 2模型系列参数在70亿到700亿不等,为大模型在端侧的落地供应了机会。
即便如此,大模型想要成功支配在端侧对付芯片玩家而言仍旧具有寻衅,须要其打破端侧设备有限的打算和存储能力,因此芯片玩家亟需找到芯片体积小与性能强大的平衡点。
李原谈道,端侧设备还有一大特点是,GPU是其最紧张的元件。这背后的风险在于,企业全部环绕GPU来做设备,就会造成一旦产品的开拓周期变长,其未来的开拓路线会受到一定限定。由于边缘设备上接口的可选择性不多,很多设备须要针对不同的芯片进行接口定制,企业就须要承担接口受限的风险。
这些新的变革及需求为这家GPGPU创企带来了新的机遇。
二、已适配Llama 2,创新封装技能兼顾体积与性能上风芯动力科技的AzureBlade L系列M.2加速卡,便是面对这一市场变革的最佳办理方案之一。
M.2加速卡搭载了4个DDR内存,总容量达到16GB,除了支持传统的视觉网络,如YOLO等,现在更已经实现了与Llama 2、Stable Diffusion等模型的适配。李原阐明道,M.2加速卡目前可以支持70亿、130亿参数规模的Llama 2模型,以及最多可以支持300亿。目前,70亿参数规模的Llama 2在M.2加速卡上的打算速率可达到十几tokens每秒。
正与当下端侧的玩家承接大模型能力的核心痛点相对应,M.2加速卡的上风正是体积小、性能强,功耗低。
李原谈道,一样平常的GPU,NPU如果要处理大模型,由于算力哀求高、功耗大,芯片面积也会比较大,很难集成端设备的狭小空间内。M.2加速卡的体积仅为80mmx22mm,刚好能做到这一点。
达到这一上风的关键在于,芯动力科技为M.2加速卡集成了一颗芯片——AE7100,这颗芯片以17mmx17mm的面积实现了32 TOPs的算力与60GB/s的内存带宽。
为了打造这颗足够薄且小的芯片,芯动力科技研发了一种创新的封装方案。他们一开始就在这个方向布局,去掉了芯片中的ABF材料,在无基板的情形下制造完成了芯片,还能知足其散热需求。“这也是我们第一次考试测验这一封装工艺,并打造出了这颗业界最小、最薄的GPU”。
M.2加速卡兼顾了体积与性能上风。
由于端设备的接口有限,芯动力科技为M.2加速卡选择了更为遍及的闪存硬盘接口,这种接口已经普遍存在于PC等设备中,因此更随意马虎被企业所接管,无需针对芯片进行接口定制就能快速实现相应的功能。
目前已经有诸多客户把稳到了M.2加速卡,芯动力科技M.2加速卡的通用接口可以帮助企业规避定制风险,同时为其适配市情上的不同产品扩大可选择性。
与此同时,这一加速卡采取完备可编程设计,兼容CUDA+ONNX,可以广泛运用于AI PC、机器视觉、泛安防、内容过滤等领域。
三、“六边形战士”处理器为支撑,M.2加速卡已出货在当下大模型逐渐迈向端侧设备、AI PC等新物种的热潮初现,支撑芯动力科技能够迅速推出创新的M.2加速卡,其关键基石在于——可重构并行处理器架构(RPP)。这正是M.2加速卡的核心AE7100背后的杀手锏。
RPP架构是针对并行打算设计的芯片架构,芯动力将其称作“六边形战士”。这一架构既结合了NPU的高效率与GPU的高通用性上风,更具备DSP的低延时,可知足高效并行打算及AI打算运用,如图像打算、视觉打算、旗子暗记处理打算等,大大提高了系统的实时性和相应速率。
芯动力同样制程下的GPGPU芯片,与英伟达比较,在一些场景下性能提高达50%,且Core的面积为类似芯片的1/7,功耗仅为其1/2-1/3。
对这一架构的探索正是他们成立公司的最根本缘故原由。芯片行业的发展周期很长,因此芯动力科技须要在担保芯片性能的同时,能适应5、6年之后市场的变革,这样才能在AI PC这样的机会涌现时,迅速捉住机遇,打造出具有显著上风的产品。
对RPP架构的探索可以追溯到英伟达提出GPGPU新观点前后。彼时,芯动力创始团队就开始探索如何在发挥GPU并行打算能力和通用性上风的同时,通过引入其他类架构的长处,研发出能更好平衡性能、功耗、本钱、延迟、支配速率的硬件。
因此,在2011年到2016年间,他们探索出独创的将NPU的高效率与GPU的高通用性相结合的创新架构,RPP架构应运而生。
芯动力科技将产品的开拓周期定义为两个阶段,芯动力科技做的便是芯片的研制、根本软件研发,这样一来,针对企业的需求在这块基本成型的芯片上进行研发,只须要两三个月,就能达到产品性能,大大缩短芯片运用的韶光周期。
这背后的考量便是芯片的市场推广。他补充说,目前AI发展处于早期,其落地的产品量比较于其他传统行业的设备而言并不算多,因此其产品定义仍旧在快速变革中。以RPP架构为核心的产品涌现,能前瞻性地瞄准通用性需求,知足芯片在更广泛场景下的运用,这就相称于他们面对末了的产品已经“走了70%的路。
面向当下的市场变革,M.2加速卡已经快速向客户实现出货。目前M.2加速卡面向的客户紧张为AI PC、工业视觉以及AI做事器厂商。目前,M.2加速卡已经向基因检测、AI做事器客户出货,AI PC厂商仍在进行产品的调校。
可以确定的是,芯动力科技的这一创新产品正让大模型在端侧迸发出无限的想象力。
结语:大模型走向端侧,GPGPU创企狂飙大模型热潮为海内GPGPU公司带来诸多机遇,大模型在运用真个打算需求对付海内创企而言是一个巨大的机会。
对付芯动力科技而言,其创办之初就开始前瞻性地打造更加通用的产品,以RPP架构为核心打造产品适配企业客户更通用的需求,能更灵巧应对繁芜多变的市场趋势。
随着M.2加速卡规模出货、AI PC这一新物种的大规模量产,大模型在端侧将会的发展将会加速。芯动力科技也在大模型带来的家当变革下,热切探求市场机遇。
可以看出,当下想要捉住家当机遇,核心的技能积累与前瞻性的技能布局更为关键。










