大年夜模型端侧支配激战!芯动力亮出AI加速卡,小体积跑70亿参数大年夜模型_加快卡_模子

文章目录 [+]

作者 | 程茜编辑 | 漠影

大模型端侧支配正加速！
AI PC等新物种热度暴增，企业对付AI加速卡的关注度也水涨船高。

大年夜模型端侧支配激战!芯动力亮出AI加速卡,小体积跑70亿参数大年夜模型_加快卡_模子大年夜模型端侧支配激战!芯动力亮出AI加速卡,小体积跑70亿参数大年夜模型_加快卡_模子科学

但是AI PC等端侧设备中的AI加速卡如何做到可用、好用是一大难题，其须要兼顾体积小、性能强、功耗低才能使得端侧设备承载大模型能力成为现实。

（图片来自网络侵删）

近日，清华系AI芯片创企芯动力科技面向大模型推出了一款新产品——AzureBlade L系列M.2加速卡。
M.2加速卡是目前海内最强的高性能体积小的加速卡，其强大的性能使其能够顺利运行大模型系统。

M.2加速卡的大小仅为80mm（长）x22mm（宽），并已经实现与Llama 2、Stable Diffusion模型的适配。

具备体积小、性能强，且有通用接口的M.2加速卡成为助推大模型在PC等端侧设备上支配的加速器。

从这一加速卡出发，芯东西与芯动力创始人、CEO李原进行了深入互换，磋商了大模型家当发展至今产生的显著变革，以及大模型在端侧支配过程中，芯动力科技在个中扮演的角色以及手持的杀手锏是什么。

一、体积小、性能强、功耗低，端侧跑大模型三大关键

AI PC已经成为大模型落地端侧设备的一个主要载体。

从去年年底至今，AI PC的热潮正在涌起。
前有英特尔启动AI PC加速操持、高通推出专为AI研发的PC芯片骁龙X Rlite、上周英伟达发布全新一代RTX 500和1000显卡，支持条记本电脑等端侧设备上运行天生式AI运用……

根据市研机构IDC发布的最新报告，预估AI PC出货量2024年逼近5000万台，到2027年将增长到1.67亿台，占环球PC总出货量的60%旁边。

AI PC这一新物种正在加速大模型的规模化落地。
与此同时，拥有弘大参数规模的大模型也对端侧设备可承载的算力提出了更高的需求。

在端侧每每只有一个独立设备。
以PC为例，作为人们日常生活、事情的常用设备，其体积并不大且足够轻便，因此须要AI加速卡足够小且不会因体积捐躯性能上的上风。
以M.2加速卡的形式进入AI PC的市场便是很有上风的产品形态。

可以看到，当下大模型的发展路线不再唯参数论，越来越多参数规模小性能强大的模型涌现，如开源的Llama 2模型系列参数在70亿到700亿不等，为大模型在端侧的落地供应了机会。

即便如此，大模型想要成功支配在端侧对付芯片玩家而言仍旧具有寻衅，须要其打破端侧设备有限的打算和存储能力，因此芯片玩家亟需找到芯片体积小与性能强大的平衡点。

李原谈道，端侧设备还有一大特点是，GPU是其最紧张的元件。
这背后的风险在于，企业全部环绕GPU来做设备，就会造成一旦产品的开拓周期变长，其未来的开拓路线会受到一定限定。
由于边缘设备上接口的可选择性不多，很多设备须要针对不同的芯片进行接口定制，企业就须要承担接口受限的风险。

这些新的变革及需求为这家GPGPU创企带来了新的机遇。

二、已适配Llama 2，创新封装技能兼顾体积与性能上风

芯动力科技的AzureBlade L系列M.2加速卡，便是面对这一市场变革的最佳办理方案之一。

M.2加速卡搭载了4个DDR内存，总容量达到16GB，除了支持传统的视觉网络，如YOLO等，现在更已经实现了与Llama 2、Stable Diffusion等模型的适配。
李原阐明道，M.2加速卡目前可以支持70亿、130亿参数规模的Llama 2模型，以及最多可以支持300亿。
目前，70亿参数规模的Llama 2在M.2加速卡上的打算速率可达到十几tokens每秒。

正与当下端侧的玩家承接大模型能力的核心痛点相对应，M.2加速卡的上风正是体积小、性能强，功耗低。

李原谈道，一样平常的GPU,NPU如果要处理大模型，由于算力哀求高、功耗大，芯片面积也会比较大，很难集成端设备的狭小空间内。
M.2加速卡的体积仅为80mmx22mm，刚好能做到这一点。

达到这一上风的关键在于，芯动力科技为M.2加速卡集成了一颗芯片——AE7100，这颗芯片以17mmx17mm的面积实现了32 TOPs的算力与60GB/s的内存带宽。

为了打造这颗足够薄且小的芯片，芯动力科技研发了一种创新的封装方案。
他们一开始就在这个方向布局，去掉了芯片中的ABF材料，在无基板的情形下制造完成了芯片，还能知足其散热需求。
“这也是我们第一次考试测验这一封装工艺，并打造出了这颗业界最小、最薄的GPU”。

M.2加速卡兼顾了体积与性能上风。

由于端设备的接口有限，芯动力科技为M.2加速卡选择了更为遍及的闪存硬盘接口，这种接口已经普遍存在于PC等设备中，因此更随意马虎被企业所接管，无需针对芯片进行接口定制就能快速实现相应的功能。

目前已经有诸多客户把稳到了M.2加速卡，芯动力科技M.2加速卡的通用接口可以帮助企业规避定制风险，同时为其适配市情上的不同产品扩大可选择性。

与此同时，这一加速卡采取完备可编程设计，兼容CUDA+ONNX，可以广泛运用于AI PC、机器视觉、泛安防、内容过滤等领域。

三、“六边形战士”处理器为支撑，M.2加速卡已出货

在当下大模型逐渐迈向端侧设备、AI PC等新物种的热潮初现，支撑芯动力科技能够迅速推出创新的M.2加速卡，其关键基石在于——可重构并行处理器架构（RPP）。
这正是M.2加速卡的核心AE7100背后的杀手锏。

RPP架构是针对并行打算设计的芯片架构，芯动力将其称作“六边形战士”。
这一架构既结合了NPU的高效率与GPU的高通用性上风，更具备DSP的低延时，可知足高效并行打算及AI打算运用，如图像打算、视觉打算、旗子暗记处理打算等，大大提高了系统的实时性和相应速率。

芯动力同样制程下的GPGPU芯片，与英伟达比较，在一些场景下性能提高达50%，且Core的面积为类似芯片的1/7，功耗仅为其1/2-1/3。