首页 » 通讯 » 460亿个晶体管!寒武纪首颗7nm AI芯片亮相周全支持演习和推理_寒武纪_互联

460亿个晶体管!寒武纪首颗7nm AI芯片亮相周全支持演习和推理_寒武纪_互联

萌界大人物 2024-12-14 18:49:26 0

扫一扫用手机浏览

文章目录 [+]

编辑 | 心缘

芯东西1月21日,本日,寒武纪正式亮出其首颗AI演习芯片思元290及玄思1000智能加速器。

460亿个晶体管!寒武纪首颗7nm AI芯片亮相周全支持演习和推理_寒武纪_互联 通讯

该芯片采取台积电7nm制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI演习、推理或稠浊型人工智能打算加速任务。

目前寒武纪思元290芯片及加速卡已与部分硬件互助伙伴完成适配,并已实现规模化出货。

寒武纪智能加速卡MLU290-M5

一、芯片采取MLUv02扩展架构,峰值算力较上一代提升4倍

寒武纪演习产品线采取自适应精度演习方案,面向互联网、金融、交通、能源、电力和制造等领域的繁芜AI运用处景。
MLUv02架构为寒武纪MLU200全产品线共享,知足云、边、端三个场景的算力需求。

云端演习对AI算力的哀求更为苛刻,因此寒武纪对思元290的MLUv02架构进行了多项扩展,包括业内领先的MLU-Link多芯互联技能、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。

比较寒武纪思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍,结合7nm制程可供应更优性能功耗比,以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展

寒武纪首款演习智能加速卡MLU290-M5,搭载思元290智能芯片,采取开放加速模块OAM设计,具备64个MLU核、1.23TB/s内存带宽及全新MLU-Link多芯互联技能,最大散热功耗350W,AI峰值算力达1024 TOPS(INT4)。

寒武纪MLU290-M5智能加速卡搭载了思元290智能芯片,采取开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link多芯互联技能,在350W的最大散热功耗下供应AI算力高达1024 TOPS(INT4)。

寒武纪智能加速卡MLU290-M5产品规格

二、一台玄思1000打算单元可替代一个小型超算中央

寒武纪玄思1000智能加速器可在2U机箱内集成4颗思元290智能芯片,首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4)。

寒武纪称,一台玄思1000打算单元就足以替代一个小型传统超级打算中央。

玄思1000采取了高速本地闪存、Mellanox InfiniBand网络,对外供应高速MLU-Link接口,冲破智能芯片、做事器、POD与集群的传统数据中央横向扩展架构,实现AI算力在打算中央级纵向扩展。

玄思1000支持打算中央级纵向扩展

玄思1000内置高带宽低延时的MLU-Link多芯互联技能,实现内部4颗思元290进行高速互联,同时冲破做事器、紧耦合微集群(POD)与集群的传统数据中央横向扩展架构,将AIDC构建为节点、POD乃至超大规模稠浊扩展架构(Hybrid Scale-out),实现AI算力打算中央级纵向扩展,知足高性能、高扩展性、灵巧性、高鲁棒性的哀求。

三、并行通讯总带宽提升19倍,重新思考未来AIDC根本架构

算力已成为驱动AI家当化和家当AI化发展的关键要素。
近年来,AI算法模型的繁芜程度高速增长,对算力和演习速率提出了更高的哀求。
为了构建更强大的打算平台,多芯片间的互联技能已成为市场刚需。

下一代人工智能打算中央(AIDC)哀求更多智能芯片无缝协同、并走运行的同时,还能保持高打算效率,从而供应超级巨大的算力,以应对超大规模演习的须要。

对此,寒武纪重新思考了未来AIDC的根本架构,在玄思1000智能加速器内部和外部采取统一的MLU-Link多芯互联技能进行通讯,使得思元290智能芯片的互联范围可以从单机扩展到POD乃至全体打算中央。

思元290采取MLU-Link多芯互联技能进行互联,带宽、灵巧性全面优于PCIe 3.0

寒武纪推出的MLU-Link多芯互联技能,首次搭载于寒武纪思元290芯片,每颗思元290的多芯互联总带宽高达600GB/s。
该技能支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到全体AIDC,可端到端加速大型AI模型演习。

MLU-Link具备丰富的互联特性,打破PCIe带宽和互联的瓶颈,比较思元270芯片通过PCIe并行的通讯办法,带宽提高19倍。

思元290相较思元270并行通讯总带宽提升19倍

玄思1000配置8个对外互联的MLU-Link接口,支持跨系统互联构建MLU POD。
标准配置支持MLU POD 16、24、32。

玄思1000支持8个400G MLU-Link和2个200G网络接口,总带宽高达3600 Gbps,是传统异构做事器的2倍

在POD内部,所有思元290芯片均可通过MLU-Link多芯互联技能进行通讯,在带宽和延时方面实现了打破。

在POD外部,通过玄思1000内置的网卡与其他系统进行通讯,实现了AI演习集群性能、扩展性和鲁棒性的协同提升。

POD内所有思元芯片通过MLU-Link全互联

除了标准配置的POD之外,在打算中央条件许可的条件下,通过MLU-Link多芯互联技能,可实现1024颗或更多思元290互联,不须要额外的网卡即可实现无缝加速。

四、支持实现4个相互隔离的实例

不同场景下的AI演习对打算和存储的哀求千差万别,如何供应更灵巧也更稳定的做事,但同时让算力得到充分地利用,是AIDC面临的持续寻衅。

寒武纪虚拟化技能vMLU,支持在思元290上实现4个相互隔离的AI打算实例,每个实例独占打算、内存和编解码资源。

实例之间的硬件资源互不滋扰,纵然在虚拟化环境下,仍可保持90%以上的高效率,帮助客户充分利用硬件资源。

思元290上实现4个相互隔离的AI打算实例

vMLU还能帮助思元290芯片供应更好的灵巧性。
通过热迁移技能,云管理员可将正在运行的AI负载及其运用程序移动到其余一台主机上,从而平衡全体AIDC的负载,并实现更好的容灾功能。

vMLU 热迁移

五、搭配寒武纪Neuware演习软件栈,支持多种运用演习推理

寒武纪Neuware软件栈为思元290芯片供应完善的软件及运用生态,支持业界主流的TensorFlow和PyTorch等深度学习框架,用户不须要改变利用习气,即可在思元290芯片上实现图形图像、语音、NLP、搜索推举等多种运用的演习和推理。

个中,基于Horovod分布式演习框架与MLU-Link多芯互联技能相互合营,使思元290在单机多卡、多机多卡的场景下达到业界领先的演习加速比。

寒武纪Neuware供应完善的开拓工具包和社区支持,帮助用户在思元290芯片进行方便、灵巧的定制开拓及支配事情。
合营BANG智能编程措辞及配套调试工具,用户可以为自定义的算法供应最佳性能调优。

寒武纪Neuware软件栈

结语:寒武纪已建立云边端一体生态

随着寒武纪首颗演习芯片思元290智能芯片及加速卡、玄思1000智能加速器演习产品线亮相,寒武纪已建立“云边端一体、软硬件协同、演习推理领悟”的新生态。

在完全产品体系搭建后,下一步,寒武纪不仅将面临研发方面的持续创新优化,也将迎来多样化的人工智能运用处景与需求的产品化磨练。

来源:寒武纪

相关文章