编辑 | 漠影
国产大模型芯片,又有了好。

作为“中国科技第一展”,深圳高交会正在风起云涌的举办,4295家企业展出了琳琅满目的高精尖科技成果,历来在高交会发布重磅产品的AI企业云天励飞,一如既往上了盘“硬菜”——

国产Chiplet大模型推理芯片DeepEdge10。
云天励飞董事长兼CEO陈宁博士发布Edge10芯片
这是云天励飞迄今算力最强的旗舰AI芯片SoC,内置自研新一代神经网络处理器NNP400T,通过D2D高速互联Chiplet技能、C2CMesh互联架构实现算力扩展,能够支持千亿级参数大模型,落地于边缘设备和边缘做事器。
而“国产”,当属这颗芯片最吸睛的标签。
制程工艺是国产,基板是国产,D2D Chiplet前辈封装架构是国产,RISC-V CPU IP、GPU IP是国产,云天励飞自研的NNP更是国产。
波谲云诡的国际环境中,中国企业采取外洋前辈芯片技能的可能性不断受限。本日,在国产供应链的襄助下,云天励飞证明了通过多重创新技能的组合拳,自主可控的AI芯片能够知足高算力、大内存的大模型推理需求。
三款不同规格的Edge10系列芯片(智东西拍摄)
云天励飞是怎么做到的?为何在自研芯片路上坚持至今?未来又有若何的计策方案?在深圳高交会期间,智东西与云天励飞副总裁、芯片产品线总经理李爱军进行了深入互换。
一、大模型创新爆发时期,须要什么样的边缘推理芯片?
大模型正在颠覆生产力,海量数据和参数的运算需求、日趋丰富的运用处景带来了全新的打算泛式和打算哀求,给AI芯片提出新的寻衅。
一方面,多模态大模型成为大势所趋,带动推理算力需求激增;另一方面,OpenAI、微软等接连开放自定义GPT能力,掀起新一股天生式AI运用模型创新热潮,更加分散泛化的多元场景,须要大量边缘推理算力的支撑。
据云天励飞副总裁、芯片产品线总经理李爱军回顾,在推进芯片落地的过程中,云天励飞深刻体会到边缘打算场景存在算力碎片化、算法长尾化、产品非标化、规模碎片化的痛点。
追求单一场景极致PPA(性能、功耗、面积)的传统芯片办法,已经难以适应边缘打算场景下AI落地的需求。大模型的涌现,为行业供应了算法层面的办理之道,因而日渐成为大势所趋。
那么让大模型在边缘打算场景实际落地,须要若何的AI推理芯片?
一些方向已经是业界共识:既要有更高算力,又要增加更多的内存容量、更大的内存带宽,这样才能存得下、搬得快足够多的数据。同时,边缘打算对低功耗、低本钱的哀求更为苛刻。
除了支持大模型等AI打算任务,AI边缘推理芯片还承担了“落地运用末了一公里”的职责,须要具备较强的通用算力。
针对这些需求,云天励飞自主研发并推出了面向边缘打算全场景、基于国产工艺的大模型推理芯片平台——DeepEdge10。
二、全面兼容大模型新型打算范式,主控级SoC支持通用算法
李爱军见告智东西,DeepEdge10芯片的研发始于2020年。得益于其算法部门在前沿AI算法方面的敏锐认知,云天励飞芯片团队预见到未来视觉算法会基于Transformer和把稳力机制,因此对大模型打算办法进行了深度解构,着重考虑到如何通过灵巧的架构设计来实现高效支持。
Edge10有4大技能加持:1)主控级SoC;2)新一代神经网络处理器,高效支持Transformer;3)D2D Chiplet架构,实现算力灵巧扩展;4)C2CMesh互联扩展,支持千亿级参数大模型。
其主控级SoC集成了CPU、GPU、NPU、多媒体、显示、外设、安全等功能,支持传统的CNN、DNN、SLAM等算法,可知足绝大部分场景的掌握须要。CPU、GPU均为国产IP。RISC-V CPU采取2+8核,主频最高达1.8Ghz;多媒体能力最大支持8K30视频编解码、2亿像素JPEG编解码;具备国际主流的硬件级安全性。
与支持大模型运行最为干系的,当属其自研的新一代神经网络处理器NNP400T。
NNP400T采取三维并行的矩阵打算架构,矩阵打算与矢量打算联合优化,大幅提升Softmax、Layernorm等算子的实行性能。
结合国产工艺的特点,NNP400T通过稀疏化、参数/数据压缩、低比特量化等方法,有效实现大模型带宽的极致优化。它还支持稠浊数据精度打算,包括INT8、INT16、FP16。
通过这些设计,芯片在支撑大模型推理时的能效比,可以被掌握在合理的水平。
而在D2D、C2C Mesh高速互联架构的加持下,NPU算力能够无极扩展,同时统一内存最高可达512GB、统一内存带宽最高可达1920GB/s,能够知足大到千亿级参数大模型在边缘端支配的需求。
三、国产14nm Chiplet大模型推理芯片:海内创始,四大创新亮点
总体来看,面向边缘场景的大模型支配需求,DeepEdge10芯片平台具有4大创新亮点:
1、支持大模型新型打算范式
新一代神经网络处理器兼容Transformer,支持低精度稠浊打算、分布式并行打算。云天励飞现已向海内头部的AIoT芯片设计厂商、聪慧汽车芯片设计厂商、做事机器人厂商、国家重点实验室等供应神经网络处理器的IP授权。
2、D2D Chiplet+C2C Mesh互联架构
据李爱军分享,在启动Edge10研发时,云天励飞芯片团队就在思考,如何在国产制程工艺与国际前辈水平存在代差的情形下,通过其他技能手段追齐性能?像搭积木一样将不同制程、不同IP模块组合到一起的Chiplet前辈封装思路,成为一条有希望的路径。
在无法采取国际前辈制程的客不雅观限定下,云天励飞与互助伙伴一起从三年前展开联合技能攻关,在D2D Chiplet技能上定制了一系列的IP,虽然本钱、功耗会高一些,但实现了基于国产14nm工艺在单台设备跑大模型的能力。
云天励飞副总裁、芯片产品线总经理李爱军讲解D2D Chiplet架构
D2D Chiplet通过在多Die间架起“高速公路”,在不捐躯时延的情形下能做到算力灵巧扩展,可实现一次设计流片、多次封装,生产不同打算规格的芯片。C2C Mesh互联技能可实现各个打算节点之间的最短传输延迟,担保大模型推理达到最短时延,支持不同规格的大模型灵巧支配。
“在片内高速互联速率上,我们已经做到了14nm上的最好水平了。”李爱军说,“我们将立足国产工艺打造自主可控的AI芯片,这条路很困难,我们会坚持不懈的走下去。”
3、支持大模型支配的异构多核软件栈
为了适应D2D/C2C架构,云天励飞构建了一套支持大模型支配的异构多核软件栈,包括设计了一套高效异构多核Syslink通信库,实现高效的D2D/C2C数据搬运管理、Mesh互联下的统一内存调度管理和模型分布式并行管理,因此能实现集群的大模型支配。
4、符合大模型演进趋势的统一工具链
云天励飞打造了一套符合大模型演进趋势的一站式统一工具链,通过分布式并行策略、基于硬件的流水线排布、前辈的量化策略、多机并行的编译机制,来支持千亿级大模型快速支配。
DeepEdge10已支持超过100个主流开源模型,数量还在持续更新,同时支持云天励飞客户模型的定制支配。
四、单芯片算力最高48TOPS,加速卡能跑70亿参数大模型
通过上述架构创新,云天励飞Edge10系列芯片有三种规格:Edge10C(8核CPU)、Edge10标准版(10核CPU)、Edge10Max(40核CPU),峰值算力分别为8TOPS、12TOPS、48TOPS,总体性能比上一代芯片赶过20倍;统一内存最高32GB,内存带宽最高120GB/s。
个中,Edge10C和Edge10标准版适用于边缘打算领域;Edge10Max适用于边缘CV大模型,单芯片能跑SAM视觉大模型。
相应的出货形态包括芯片、板卡、盒子、加速卡、推理做事器等,可广泛运用于AIoT边缘视频、移动机器人等场景。
Edge10适用于边缘设备和边缘做事器,在Edge Device上运行70亿参数大措辞模型,天生速率可达27Tokens/s;能够兼容运行130亿参数大措辞模型。
第一代Edge Server基于DeepEye1000小算力芯片。基于Edge10系列芯片的IPU X2000、IPU X5000、IPU X6000加速卡,算力从24TOPS到256TOPS。
经C2C Mesh扩展,AI算力能达到1024TOPS,在Edge Server上运行700亿参数大措辞模型,可实现42Token/s的天生速率;能够兼容运行千亿级参数大措辞模型、百亿级参数视觉大模型,未来将兼容多模态大模型。
五、落地边缘打算三大运用处景,助攻AI电脑跑AIGC运用
DeepEdge10芯片布局边缘打算的三大芯片平台办理方案:感知打算、视频高密、大模型推理。
感知打算场景下,基于Edge10和Edge10Max芯片,云天励飞打造了能支持多传感器接入的主板方案,可以知足机器人自主导航和运动、无人机自主避障与导航、汽车智能安全驾驶掌握、家居系统智能掌握等运用处景的感知哀求。
视频高密场景下,芯片、加速卡结合云天励飞过去几年在公共安全领域及行业领域积累的专业算法和长尾算法,共同形成了面向嵌入式边缘打算端设备的单芯片主控方案和加速卡方案,这些方案可以知足智能化园区管理、消防应急管理、聪慧物业、聪慧城市管理等场景的视频高密须要。
像IPU X6000单卡可支持320路视频处理,算力有256TOPS。一台做事器可以插8张卡,相称于实现超过2500路的视频高密方案。
大模型推理方面,在Edge Device上,Edge10可作为当前信创PC的算力协处理器方案,把大模型的能力运用到传统信创PC上,让信创PC能跑AIGC办公运用,包括文案天生、代码天生、智能决策、增强设计等。
在Edge Server上,基于IPU X6000的算力加速卡方案,可实现1~8卡灵巧扩展的做事器支配,知足行业大模型和场景大模型集中化的推进。
据李爱军透露,云天励飞会优先选择在一些边缘打算场景的头部行业玩家进行深度互助,供应Edge10系列芯片和产品,再逐步对外开放。
六、表露八年自研芯片路线图,以三年为周期进行迭代
云天励飞自2014年景立至今,一贯坚持自主研发芯片,沉淀“算法芯片化”的核心能力,其核心芯片团队设计履历均匀超过14年。
“算法芯片化”并不是大略的“算法+芯片”,而是云天励飞基于对场景的理解,以及对算法关键打算任务在运用处景中的量化剖析,将芯片设计者的理念、思想与算法相领悟的AI芯片设计流程,能够让AI芯片在实际运用中发挥更优的效果。
在“算法芯片化”核心能力的支持下,云天励飞已完成3代指令集架构、4代神经网络处理器架构的研发,且已陆续商用。
据云天励飞董事长兼CEO陈宁博士分享,从第一代芯片起,云天励飞的自研芯片就一贯定位在边缘打算,与其系统产品相辅相成,落地到聪慧城市、智能交通、智能制造、聪慧教诲、智能配送、边缘打算模型等场景中。
其第一代芯片DeepEye1000在2020年初实现商用,过去四年多运用在人脸门禁和AI相机、工业AI相机和安全PC、商业机器人等边缘打算设备中。最新推出的DeepEdge10边缘推理芯片,采取云天励飞的第二代异构多核架构、第一代Chiplet架构,相较上一代性能整体提升。
“我们基本上因此三年为一个周期,相信2025年我们将会推出DeepEdge20,推动我们的性能以20倍以上的速率进行提升。”陈宁说。
按其“剧透”,下一代DeepEdge20芯片将采取第三代异构多核架构、第二代Chiplet架构,内置多核RISC-V、第四代自研NPU。
七、拥有近30家算法芯片化互助伙伴,已开放超过100种算法
一起走来,云天励飞神经网络处理器的核心技能和芯片的能力逐步得到行业内互助伙伴的认可。
其自研芯片曾先后得到工信部、发改委、科技部三大部委人工智能专项,并得到吴文俊人工智能专项奖芯片项目一等奖,已被海内顶尖芯片设计公司采取,芯片进入了大规模运用中。
李爱军认为,国际AI芯片巨子最坚不可摧的壁垒是生态,走兼容路线只是短期内的权宜之计,从长远来看,海内芯片企业必须实打实地持续投入软件研发和生态构筑。
云天励飞现有近30家算法芯片化互助伙伴,并将互助伙伴需求植入下一代芯片中;还打造了开放的算法运用生态,所有利用云天芯片产品的互助伙伴,均可在线下载更新其超过100种算法。
在2020年的高交会上,云天励飞首次公布自进化城市智能体计策。
而驱动自进化城市智能体发展的核心逻辑,是打造“运用生产数据、数据演习算法、算法定义芯片、芯片规模化赋能运用”的数据飞轮。
对付云天励飞自身来说,芯片是决定AI运用广度与深度的关键载体,也是自进化城市智能体培植的主要算力支撑。本日发布的大模型推理芯片,是其自进化城市智能体底层核心算力平台补齐大模型能力的主要成果展示。
陈宁谈道,未来,云天励飞将连续加大自主研发力度,立足自主可控,以自研“芯”,为自进化城市智能体发展供应强大引擎。
结语:大模型正向边缘端渗透,AI推理芯片研发需结合本土落地需求
天生式AI和大模型的运用落地正逐步从云端向边缘和终端进行渗透,最新一代的智好手机、个人电脑(PC)等边缘端侧设备已经具备在本地支配运行百亿级参数大模型的能力。
在陈宁看来,演习、生产大模型不是目的,千行百业的落地和运用才是终极目的,所谓边缘,不管是机器人、无人驾驶汽车、新型智能传感,还是未来的聪慧硬件和脑机接口芯片,须要的都是大模型推理芯片。
本日,大模型推理芯片还是百家争鸣的景象,尤其在中国,我们要考虑如何基于国产工艺进行技能攻关和生态培植,打造出契合本土落地需求的AI芯片。
展望未来,陈宁预言,未来三年,可能会有80%以上的企业将运行在大模型之上;未来五年,机器人和数字人的数量将超过人类的数量;未来七年,也便是到2030年,大模型的聪慧程度将超过人脑,GPT10.0的版本将会具备1万亿的参数体量,相称于是人脑末梢神经连接的数量。
“我们正在踏入第四次工业革命的开端,未来已来。”他也透露了云天励飞将会在今年年底发布大模型,说敬请期待。







