AI推理芯片大年夜模型「下半场」的入场券_模子_芯片

文章目录 [+]

先是ChatGPT的横空出世给予众人致命震荡，随后海内诸多AI、互联网公司迅速加大资源投入“练模”。

3月，百度发布文心一言，打响了“练模大战”的第一枪。

AI推理芯片大年夜模型「下半场」的入场券_模子_芯片 AI推理芯片大年夜模型「下半场」的入场券_模子_芯片通讯

在这场“模型大战”中，算力作为不可或缺的重武器，一度成为众公司争抢的关键要素。

（图片来自网络侵删）

作为人工智能的三驾马车之一，算力是演习AI模型、推理任务的关键。
倘若把演习模型当作是做一道精细的菜肴，算力就好比一套称手的烹饪工具。

众人皆知巧妇难为无米之炊，但再好的厨子，没有一口好锅、一把好刀，面对鲜美的食材也只能望而兴叹。

“大模型动辄百亿级的参数，仓库里没有几百张A100、H100，都谈不上入围。
”

所谓兵马未动、粮草先行。
为了练模，模型厂商们对算力芯片的购买达到了前所未有的水平。
大模型这波风潮下，最先受益的，既不是躬身入局的企业，也非下贱场景用户，而因此Nvidia为代表的算力芯片厂商。

5月，Nvidia市值一起飙升，成为首家市值达到1万亿美元的芯片企业。

如果把这场肇端于“练模”的造富奇迹归结于大模型的「上半场」，那么大模型的「下半场」财富机遇，则是如何把大模型装入运用处景之中。
这正如云天励飞CEO陈宁所言——

“生产大模型不是目的，千行百业的落地和运用才是终极目的。
”

大模型虽然改变了传统AI算法模型的生产模式，效率更高、效果更好、泛化能力更强。
但从商业化层面，仍旧跳脱不了AI落地的困境。

过去几年韶光，无数AI公司前赴后继，趟出了一条血淋淋的路子，即AI+场景。
而对付诸多碎片化、多样化场景，AI公司们创造，边缘打算能够较好地办理AI落地运用的商业难题。

如今，大模型已然成为AI新范式，诸多厂商在考试测验商业化时，也提出了“行业大模型”“一行一模”的不雅观点，即用大模型来办理碎片化场景的业务痛点。

从这个角度看，在这条通往AI盈利的道路上，以灵巧调度著称的边缘打算，将成为未来大模型广泛落地到场景的主要一环。
而为边缘打算供应算力的AI推理芯片，也会迎来一次市场扩容。

掣肘AI落地的两个难点：场景与本钱

场景与本钱是AI旧调重弹的话题，就像一道横亘在空想与现实之间的长河，无法避开又很难绕行。
即便是最有名的AI公司、技能天才，以及商业巨头，在这条河面前都束手无策、有心无力。
久而久之，AI公司套上了“盈利魔咒”。

以ChatGPT为代表的大模型之以是备受推崇，缘故原由无他：活着人身处迷途之时，大模型让逐梦者们看到了一丝黎明前的曙光。
AI创业者林夕感叹道：“大模型，AI之光。
”

如果没有大模型，很多AI公司可能熬不过2023的冬天。
林夕表示，ChatGPT强大的逻辑推理能力，让人们第一次近间隔感想熏染到了人工智能的厉害之处。
“信心比黄金主要”，当全体社会认可大模型之后，成本才乐意连续加注。

绝不夸年夜地说，大模型给那些资金流转困难的AI公司们，强行续命了几年。
毕竟AI之梦，也难逃现实的鸡零狗碎。

当然，这只是表象，AI如永夜、成本永不眠。
成本从不为情怀买单，而是看到了大模型以极强的泛化能力，能够有效办理场景和本钱这一实质难题，从而带来巨大的商业代价空间。
这也正是逐梦者们看到的曙光——困扰AI商业化的难题有望得到破解。

过去，AI从实验室走向运用处景，许多创业公司开始吭哧吭哧搞业务，在一个个碎片化场景里掘土挖地。
但高昂的研发投入与实际业务产生的经济代价相去甚远，人效比极低，即所谓的“造血能力严重不敷”。

以安防为例，虽然AI给这个行业带来了革命性的变革，终极受益者却并不是AI公司，而是为数不多的几个安防巨子。
缘故原由在于，安防碎片化场景特殊多，须要AI，但并不须要昂贵且强大的AI。

这些安防大厂能够从AI竞赛中脱颖而出的秘密，除了原来to B稳定的渠道关系，更为主要的是，他们的人效比很高。
这种上风表示在产品上便是：同样一个摄像头，AI公司的产品天然贵上几十块。
客户自然而然用脚投票。

如今，那些名噪一时的CV公司，安防业务已经消声匿迹。
究其缘故原由，AI公司在办理碎片化场景需求时，一个任务一个模型的模式，造成研发本钱居高不下，加之重复培植，导致整体的运营本钱处于高位，而安防本身属于脏活儿累活儿，事儿多钱少，AI公司自然而然会“水土不服”。

这种“牛刀杀鸡”的征象并不局限于安防行业，但凡是AI所及之处，基本上都会面临碎片化场景这一核心命题。
在大模型未出世之前，AI对付碎片化场景非常头疼，也考试测验过各种解题办法，比如小样本学习、自动机器学习等，但效果并不明显。

大模型无疑是当下办理碎片化场景的最优解，其极强的泛化能力，能够实现“一模多用”，即一个模型办理N个任务。
大模型从根本上改变了算法生产的模式，能够办理碎片化、非标化问题，直接降落AI的各种本钱，成为当下AI公司冲破魔咒的主要路径。

大模型「下半场」：边缘打算成为重点

如果说大模型「上半场」是技能的较劲，那么「下半场」则是商业化的比拼。

无可置疑，大模型将办理掣肘AI落地的碎片化难题，并极大地减少研发本钱，给AI带来质的飞跃，使其具备更大的想象空间。
但这只能算是阶段性胜利，只有客户乖乖取出钱包里的金币，并持续复购，产生代价，AI才算取获胜利。

这个AI商业闭环中，还涉及到一个支配本钱的问题。

AI不是消费电子，即买即用，只管其常常被嵌入至各种电子设备中。
但AI的消费大户，仍因此降本增效为目的的B/G客户。
这类客户对付AI的末了一公里交付尤为重视，他们并不愿意为AI方案的支配花费任何多余的金币。

传统AI支配常见于云端一体，紧张通过云端进行打算，感知端仅有微弱算力，数据在端侧采，算法在云上跑。
这种模式存在几个问题：

云打算固然有大算力的好处，但对付一些须要快速相应、打算的场景，其存在的时滞征象非常致命；

云做事器用度高昂，许多企业并不须要大算力，盲目上云反而会造成算力摧残浪费蹂躏，性价比不高；

数据上云，存在一定安全风险；

为此，AI公司们在云端一体之间，增加了边缘打算，来办理云端算力摧残浪费蹂躏及端侧算力不敷的问题。

边缘打算的灵感得益于章鱼的八只触手。
作为云端打算的协同和补充，边缘打算能够在数据源头附近的网关实行数据处理、剖析，这种独特的上风可以实现各单元之间实行不同的任务并实现多任务协同，既知足碎片化场景的算力调度需求，又具备低延时、安全等特点。

并且，边缘打算设备的支配成本相对较低，客户不须要支配昂贵的云做事器就能用上AI，这一核心上风使得边缘打算备受青睐，已然成为AI落地的主要路子之一。

但要真正让算法模型在边缘打算设备上跑起来，仍有两个比较主要的难点。

第一，边缘设备的算力比云端做事器弱，而大部分的算法模型，是在做事器上演习的，算法模型要实现迁移，须要做大量的优化事情。

第二，算法模型要在边缘设备上支配、实行推理任务，须要一颗强大的AI算力芯片，并针对芯片做适配，才能担保算法模型的运行效率。
也便是说，AI算力芯片的生态极其主要，但现阶段比较尴尬的是，AI算力芯片厂商较为分散。

可以预见的是，在大模型时期，第一个问题较为随意马虎办理，由于大模型自带极强的泛化能力。
至于第二个点，则要比想象中难得多，其涉及到底层芯片技能的研发和攻关，以及对应的生态协同。
如何让边缘设备运行大模型，对付AI芯片厂商而言，这既是机遇，也是寻衅。

大模型时期下，AI芯片的国产替代潮

AI芯片功能上分两类，分别是演习芯片和推理芯片。

演习芯片紧张用于大模型的演习、学习和优化，侧重于打算性能，而推理芯片则紧张为模型的推理运算供应算力。
二者之间的差异在于，演习芯片重打算，推理芯片重效率（时延、功耗）。
并且，从云边端协同的角度看，演习芯片多用于做事器，推理芯片则紧张支配在边端设备之上。

当前，海内大模型正处于“练模”阶段，须要极强的算力支撑，因此AI公司们将目光更多放在了演习芯片上，即购买大量的GPU算力来演习算法模型。
这也直接造诣了Nvidia的万亿市值神话，其H100、H800等芯片一骑绝尘，海内则有华为、寒武纪等厂商在努力追赶。

一旦大模型成熟，与之而来的便是落地运用，这时一定要用到边端设备，从而滋长出对推理芯片的弘大需求。

然而，由于不可抗力成分，现阶段的演习芯片和推理芯片皆受到贸易牵制，在此背景下，AI芯片的国产替代提上了日程。

作为深圳AI第一股，云天励飞在边缘侧AI芯片的布局已经成果初显。
2020年，云天励飞第一代AI推理芯片DeepEye1000实现商用，并落地到AI相机、安全PC、商业机器人等边缘打算场景。

云天励飞副总裁、芯片产品线总经理李爱军见告雷峰网，大模型作为AI的进阶态，实质上还是要落地到详细业务场景才能产生代价，而边缘打算则是不可逆的趋势，因此做好边缘打算的推理芯片，对付未来大模型的运用至关主要。

在过去三年多的韶光中，DeepEye1000广泛落地到各行各业，但同时也带来了诸多反馈：算力碎片化、算法长尾化、产品非标化、规模碎片化等痛点依旧存在，传统以追求单一场景PPA的传统芯片模式难以适应AI边缘打算场景下人工智能落地的需求。

基于此，云天励飞打造了新一代的边缘打算芯片平台DeepEdge10。

DeepEdge10属于主控级SoC，可以知足绝大部分场景的掌握须要，同时基于云天励飞自研的新一代的处理器NNP400T，可以高效支持Transformer。
在架构方面，DeepEdge10采取了D2D Chiplet封装构造，可以实现算力灵巧扩展，并通过C2CMesh互联扩展，可以支持千亿级大模型支配。

相较于第一代DeepEye1000，DeepEdge10集成了2+8核通用算力CPU，整体算力提升了4倍以上，采取D2D Chiplet封装，实现从12T到48T的算力覆盖，总体性能比上一代芯片超过20倍。

在DeepEdge10的根本上，云天励飞还打造了Edge Server算力加速卡，最高支持1024Tops的NPU算力、1920GB/S的内存带宽，以及512GB统一内存。
目前，DeepEdge10已经支持主流开源模型超过100种，模型支持的数量还在更新，同时支持客户模型定制化的支配。

详细性能上，在Edge Device 端，DeepEdge10Max运行端侧70亿参数的大模型可以得到每秒27Token/s，最高可兼容130亿参数的大模型。
而在Edge Server上，采取C2C Mesh互联，多卡协同，运行700亿参数大模型可得到42Token/s的天生速率，最高兼容千亿级别参数的大模型。

据理解，DeepEdge10芯片平台核心竞争力在于边缘打算，可以针对不同的场景供应差异化算力，从而知足碎片化、多样化需求。
目前，DeepEdge10已经进入了大规模的运用中，有近30家算法芯片化互助伙伴，所有利用云天芯片的产品互助伙伴，均可在线下载更新云天超过100多种算法。

李爱军表示，大模型未来落地到机器人、无人驾驶汽车等场景，都须要用到推理芯片，而推理芯片正处于百家争鸣的过程。
而在海内，如何基于国产工艺实现推理芯片的研发、流片和商用至关主要。

现阶段，海内芯片的成熟工艺处于14nm的节点。
对付千亿级、万亿级别的大模型，其推理芯片不但须要极强的打算能力，还要保持超低的功耗和超低的本钱，对芯片制程的工艺达到了5nm、2nm。
显然，国产芯片离最高真个芯片还有一段间隔。

不过，结合当前海内的生产工艺，云天励飞与互助伙伴于2020年开始技能攻关，在ChipletD2D的技能上定制了一系列IP，实现了可以在14nm芯片上运行千亿大模型的功能。
虽然本钱、功耗会高一些，但这已经是国产芯片的最优水平。
至于更高工艺的芯片，海内芯片厂商既须要资源，也须要韶光。

“我们志在打造国产工艺自主可控的AI芯片。
”李爱军见告雷峰网，这条路道阻且长，但云天励飞会武断地走下去。
雷峰网雷峰网