AI“大年夜跃进”芯片还够吗？_芯片_英伟

文章目录 [+]

只管ChatGPT及一众主流大模型背后的芯片主力仍是GPU，但严厉的寻衅已经摆到面前：天生式AI所需打算量不断增加，而算力增长空间却即将触顶。

4月5日，OpenAI停息ChatGPT Plus的注册，随后又重新规复，个华夏因是算力需求量超载。
此前，ChatGPT还因访问量过大而大规模封号，并禁止利用亚洲节点登录，紧张还是算力不敷造成的。

AI“大年夜跃进”芯片还够吗？_芯片_英伟智能

只管OpenAI踩下“刹车”，但大洋彼岸的A股算力观点股依旧掀起巨浪，一韶光炙手可热。
业内称，如今AI的“iPhone时候”已经来临，作为人工智能时期的底层基座，谁节制了算力资源，谁就拥有了引领数字经济发展的“终极武器”。
在这个历史性的变革时候，中国不能缺席。

01 AI模型开启算力武备竞赛

作为人工智能三大核心要素（数据、算法、算力）之一，算力被誉为人工智能“发动机”。
在AI风暴的催化下，浪潮中的AI大算力芯片公司面临着摩尔定律濒临极限之外的技能寻衅：以更低的系统本钱、更少的能源花费，支撑起弘大且持续增加的参数量所带动的高算力需求。

根据OpenAI测算，自2012年以来环球头部AI模型演习算力需求每3-4个月翻一番，每年头部演习模型所需算力增幅高达10倍。
AI深度学习正在逼近现有芯片的算力极限，也对芯片设计厂商提出了更高哀求。

在技能架构层面，AI芯片可分为GPU（图形处理器）、ASIC（专业集成电路）、FPGA（现场可编程门阵列）和类脑芯片。
随着征象级AI产品ChatGPT的走红，以大型措辞模型为代表的前沿AI技能走向聚光灯之下，这类模型所需的数据量、打算量弘大，本钱高昂。

例如，目前采购一片英伟达顶级GPU本钱为8万元，GPU做事器本钱超过40万元。
对付ChatGPT而言，支撑其算力根本举动步伐至少须要上万颗英伟达GPU A100，一次模型演习本钱超过1200万美元。

根据浙商证券研报，ChatGPT背后的算力支撑紧张来自GPU或CPU+FPGA。
由于具备并行打算能力，可兼容演习和推理，GPU目前被广泛运用。

除了GPU以外，CPU+FPGA的方案也能够知足AI弘大的算力需求。
FPGA全称为现场可编程门阵列，是一种可以重构电路的芯片。
作为可编程芯片，FPGA芯片可以针对特定功能进行扩展。
通过与CPU结合，FPGA能够实现深度学习功能，两者共同运用于深度学习模型。

近期，英特尔透露，操持将在今年推出15款新FPGA，这将刷新英特尔该品类的年度推新记录。
其实在3月初，英特尔就发布了Agilex7 FPGA F-Tile，并配备FPGA收发器，其每个通道的带宽都较上一代提升了一倍，在给产品供应更高的数据流量的同时也降落了功耗。

目前，FPGA领域的本土化程度较低。
中国市场紧张由赛灵思Xilinx（现已被AMD收购）和英特尔两大厂商主导，霸占了超过70％的市场份额。
海内厂商安路科技、紫光国微、复旦微电等总份额约为15％。

寒武纪作为科创板AI芯片第一股，是环球少数全面节制AI芯片技能的企业之一。
其产品矩阵涉及云端产品、边缘产品和IP授权及软件，前两者对标英伟达、AMD，IP授权则对应英国的ARM。
云端芯片便是目前大措辞模型最为须要的动能来源，在该领域，英伟达A100、H100系列霸占金字塔顶尖位置。

作为追赶者，寒武纪推出了思元系列，思元290、思元370等已经进入浪潮、遐想、阿里云等多家头部客户。
去年3月，寒武纪正式发布新款演习加速卡“MLU370-X8”，其搭载了思元370，紧张面向AI演习任务。

02 差距悬殊弯道难以超车

作为当前唯一可以实际处理ChatGPT的GPU供应商，英伟达是当之无愧的“AI算力王者”。

6年前，黄仁勋亲自向OpenAI交付了第一台搭载A100芯片的超级打算机，帮助后者创造ChatGPT，并成为AI时期的引领者。

在2023年3月22日召开的GTC大会上，黄仁勋又展示了速率比现有技能快10倍的英伟达HGX A100，可将大措辞模型的处理本钱降落一个数量级。

目前，英伟达市值飙升到6678亿美元（约合4.6万亿公民币），险些是传统芯片巨子英特尔市值的五倍，成为环球最大市值的芯片企业。
英伟达在PC的GPU市场上霸占了近70％的份额，在独显市场的份额更是高达70％-80％。

据TrendForce剖析，运行1800亿参数的GPT-3.5大型模型须要2万颗GPU芯片，大模型商业化的GPT则须要超过3万颗。

然而，根据干系宣布，海内目前拥有超1万颗GPU的企业不超过5家，拥有1万颗英伟达A100芯片的可能最多只有一家，绝大部分中国公司都只能采购英伟达的中低端性能产品。

纵然海内头部公司，从算力上跟美国的英伟达等公司比较，差距也非常明显。

就GPU细分赛道而言，海内自研GPU的领军企业紧张包括景嘉微、壁仞科技、芯动科技等。
个中，个中，景嘉微是成立最早的一家，自2006年开始研发拥有自主知识产权的GPU产品，现在已经推出了一系列产品线，且均采取海内成熟制程工艺和自主架构。

景嘉微的主打产品是JH920独立显卡。
根据行业专家的评测，从性能参数上来看，JH920的性能与英伟达2016年发布的GTX 1050相称，虽然两者仅相差6年，但由于GTX 1050是英伟达10系列显卡中的入门级产品，无法代表当时的整体水平。

要想找到与GTX 1050性能相称的英伟达产品，须要回溯到2010年推出的GTX 580，这意味着景嘉微JH920基本上达到了英伟达12年前的水平。

以是整体而言国产GPU的现状并不算乐不雅观，虽然在分外领域能够自给自足，但在中高端领域依旧捉襟见肘。

与此同时，中美地缘关系的博弈气息日渐浓厚，这给高度依赖前辈制程的AI芯片创业公司提出了技能之外的新难题。

去年，在美国总统拜登正式签署芯片法案（《CHIPS and Science Act》）一个月之后，美国政府对华履行了高端GPU芯片的出口禁令。
同时，海内GPU设计商壁仞科技的GPU芯片BR100在台积电的试产也被迫叫停并主动修正设计，以知足出口禁令的哀求。

A100和H100被禁止后，中国企业只能奢望其替代品A800和H800。
2022年11月7日，英伟达向中国的供应商供应其重新封装的A800芯片。
据称，海内几家头部互联网企业都向英伟达下了1.5万旁边的A800和H800订单。
但纵然是最佳替代品A800，也只是A100的“阉割版”，其传输速率和运算性能较A100低落了50％。

被美国等国联合封堵的我们，或许在较永劫光内都无法制造出比肩英伟达等国际顶级公司的高水准AI芯片。
面对一个新的时期，我们又该如何破局？

03 换道行驶，续命摩尔定律

一贯以来，头部厂商通过不断提升制程工艺和扩大芯片面积推出算力更高的芯片产品。
虽然GPU、CPU＋FPGA等芯片已经对现有模型构成底层算力支撑，在应对天生式AI及大模型对算力根本举动步伐提出的新哀求，都多少显得有些捉襟见肘。

伴随着摩尔定律逼近物理极限，制程升级和芯片面积扩大带来的收益边际递减，架构创新或成为提升芯片算力另辟路子的选择。

Chiplet及前辈封装方案能够填补前辈制程掉队的劣势，通过将来自不同生产厂商、不同制程工艺的芯片组件“混搭”，降落实现目标性能所需的本钱。
研究数据显示，当5nm芯片的面积达到200㎜²以上，采取5Chiplet方案本钱将低于单颗SoC，并将大幅降落因面积增加带来的良率丢失。

除了本钱和良率真个上风，Chiplet技能带来高速的Die to Die互连，使多颗打算芯粒得以集成在一颗芯片中，实现算力的大幅提升。

台积电是Chiplet工艺的领军者，目前其技能平台下有CoWoS、InFO、SoIC三种封装工艺。
个中，早在2016年英伟达Tesla P100 AI数据中央GPU就已经运用CoWoS工艺，AMD的最新GPU、CPU也广泛采取了该工艺。
此外，三星、Intel等龙头厂商亦推出了各自用于Chiplet的封装技能，如三星I-Cube（2.5D封装），X-Cube（3D封装），英特尔EMIB（2.5D封装），英特尔Foveros（3D封装）。

不止在国际，近几年Chiplet在中国大陆也非常火爆，特殊是美国开始打压中国半导体业以来。
Chiplet既能减少前辈制程用量，同时又能带来前辈制程的好处，这为海内芯片企业供应“换道行驶”的机会。

目前海内封测巨子干系技能积累已初显成效。
例如长电科技的XDFOI Chiplet高密度多维异构集成系列工艺已进入稳定量产阶段；通富微电与AMD密切互助，已大规模生产7nm Chiplet产品；华天科技的Chiplet系列工艺也实现量产。

Chiplet设计紧张用于大型CPU和GPU等处理器。
虽然当下国产CPU特殊是大芯片与国际大厂存在明显差距，但华为海思、寒武纪科技等少数企业正重点研发并采取7nm及更前辈制程的做事器芯片和AI芯片。

在GPU方面，英伟达等国际GPU龙头企业已经构建了稳定的专利墙。
无论是老牌企业如景嘉微和海光，还是新兴创业公司，如芯动科技、壁仞科技、摩尔线程、沐曦集成电路、天数智芯等，大多还处于发展初期，且所设计的芯片规模有限，采取Chiplet设计的还不多。

不过，一些GPU企业，特殊是创业公司，虽然短期内难以在大芯片领域形成规模，但长期发展前景仍值得期待。
例如，近几年天数智芯在云端GPGPU方面异军突起，其推出的7nm制程云端演习和推理GPGPU，能够为云端AI演习和HPC通用打算供应高算力和高能效比。
类似这样的芯片成为中国本土Chiplet技能发展的希望。

近期，中国成立了自己的Chiplet同盟，由多家芯片设计、IP、以及封装、测试和组装做事公司组成，并推出相应的互连接口标准ACC 1.0。
这一同盟的成立，颇有与由AMD、Arm、英特尔、台积电等主导的UCIe同盟分庭抗礼的意味，也反响出中国干系企奇迹单位要从底层做起，发展本土Chiplet的欲望。

通过标准的设立，可以将自己生产的芯片变成Chiplet企业利用的“标准产品”，被不断地集成到各种终端运用中，从而为芯片行业开辟出一片新天地。

结尾

算力的每一次提升，都掀起技能与家当变革的浪潮：CPU带领人类进入PC时期，移动芯片掀起移动互联网浪潮，而AI芯片冲破了AI家当此前长达数十年的算力瓶颈。
如今，“人工智能的iPhone时候”已经来临，走向下一个时期的路，或许早已摆在我们面前。

正如阿里巴巴集团董事会主席张勇所言，面向AI时期，所有产品都值得用大模型重新升级。
过去一年消费电子的低迷使得一些GPU公司的产品找不到运用处景。
但随着ChatGPT涌现，干系芯片的运用处景开始增加，并发展成AI根本研究和家当化落地的一大趋势。

AI往前发展，超高算力需求毋庸置疑AI大算力芯片技能供应了一种可行的办理方案。
未来几年，中美两国将成为大模型的紧张出身地，并不计成本地带动对算力芯片的需求。
不管是弯道超车还是换道行驶，在这场AI的征途中，中国算力企业万象竞逐的画卷才刚刚展开。

本文源自亿欧网