460亿个晶体管！寒武纪首颗7nm AI芯片亮相周全支持演习和推理_寒武纪_互联

文章目录 [+]

编辑 | 心缘

芯东西1月21日，本日，寒武纪正式亮出其首颗AI演习芯片思元290及玄思1000智能加速器。

460亿个晶体管！寒武纪首颗7nm AI芯片亮相周全支持演习和推理_寒武纪_互联通讯

该芯片采取台积电7nm制程工艺，集成460亿个晶体管，支持MLUv02扩展架构，全面支持AI演习、推理或稠浊型人工智能打算加速任务。

目前寒武纪思元290芯片及加速卡已与部分硬件互助伙伴完成适配，并已实现规模化出货。

寒武纪智能加速卡MLU290-M5

一、芯片采取MLUv02扩展架构，峰值算力较上一代提升4倍

寒武纪演习产品线采取自适应精度演习方案，面向互联网、金融、交通、能源、电力和制造等领域的繁芜AI运用处景。
MLUv02架构为寒武纪MLU200全产品线共享，知足云、边、端三个场景的算力需求。

云端演习对AI算力的哀求更为苛刻，因此寒武纪对思元290的MLUv02架构进行了多项扩展，包括业内领先的MLU-Link多芯互联技能、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。

比较寒武纪思元270芯片，思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍，结合7nm制程可供应更优性能功耗比，以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展

寒武纪首款演习智能加速卡MLU290-M5，搭载思元290智能芯片，采取开放加速模块OAM设计，具备64个MLU核、1.23TB/s内存带宽及全新MLU-Link多芯互联技能，最大散热功耗350W，AI峰值算力达1024 TOPS（INT4）。

寒武纪MLU290-M5智能加速卡搭载了思元290智能芯片，采取开放加速模块OAM设计，具备64个MLU Core，1.23TB/s内存带宽以及全新MLU-Link多芯互联技能，在350W的最大散热功耗下供应AI算力高达1024 TOPS（INT4）。

寒武纪智能加速卡MLU290-M5产品规格

二、一台玄思1000打算单元可替代一个小型超算中央

寒武纪玄思1000智能加速器可在2U机箱内集成4颗思元290智能芯片，首款智能加速器玄思1000包含4片思元290智能加速卡，最大AI算力超过4100万亿次每秒（4.1 PetaOPS INT4）。

寒武纪称，一台玄思1000打算单元就足以替代一个小型传统超级打算中央。

玄思1000采取了高速本地闪存、Mellanox InfiniBand网络，对外供应高速MLU-Link接口，冲破智能芯片、做事器、POD与集群的传统数据中央横向扩展架构，实现AI算力在打算中央级纵向扩展。

玄思1000支持打算中央级纵向扩展

玄思1000内置高带宽低延时的MLU-Link多芯互联技能，实现内部4颗思元290进行高速互联，同时冲破做事器、紧耦合微集群（POD）与集群的传统数据中央横向扩展架构，将AIDC构建为节点、POD乃至超大规模稠浊扩展架构（Hybrid Scale-out），实现AI算力打算中央级纵向扩展，知足高性能、高扩展性、灵巧性、高鲁棒性的哀求。

三、并行通讯总带宽提升19倍，重新思考未来AIDC根本架构

算力已成为驱动AI家当化和家当AI化发展的关键要素。
近年来，AI算法模型的繁芜程度高速增长，对算力和演习速率提出了更高的哀求。
为了构建更强大的打算平台，多芯片间的互联技能已成为市场刚需。

下一代人工智能打算中央（AIDC）哀求更多智能芯片无缝协同、并走运行的同时，还能保持高打算效率，从而供应超级巨大的算力，以应对超大规模演习的须要。

对此，寒武纪重新思考了未来AIDC的根本架构，在玄思1000智能加速器内部和外部采取统一的MLU-Link多芯互联技能进行通讯，使得思元290智能芯片的互联范围可以从单机扩展到POD乃至全体打算中央。

思元290采取MLU-Link多芯互联技能进行互联，带宽、灵巧性全面优于PCIe 3.0

寒武纪推出的MLU-Link多芯互联技能，首次搭载于寒武纪思元290芯片，每颗思元290的多芯互联总带宽高达600GB/s。
该技能支持多颗思元芯片无缝互联，支持跨系统互联，将纵向扩展能力整合到全体AIDC，可端到端加速大型AI模型演习。

MLU-Link具备丰富的互联特性，打破PCIe带宽和互联的瓶颈，比较思元270芯片通过PCIe并行的通讯办法，带宽提高19倍。

思元290相较思元270并行通讯总带宽提升19倍

玄思1000配置8个对外互联的MLU-Link接口，支持跨系统互联构建MLU POD。
标准配置支持MLU POD 16、24、32。

玄思1000支持8个400G MLU-Link和2个200G网络接口，总带宽高达3600 Gbps，是传统异构做事器的2倍

在POD内部，所有思元290芯片均可通过MLU-Link多芯互联技能进行通讯，在带宽和延时方面实现了打破。

在POD外部，通过玄思1000内置的网卡与其他系统进行通讯，实现了AI演习集群性能、扩展性和鲁棒性的协同提升。