首页 » 科学 » 全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片

全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片

乖囧猫 2025-01-16 11:47:33 0

扫一扫用手机浏览

文章目录 [+]

作为目前天下上最大的芯片,WSE的面积达到46,225平方毫米,采取16nm工艺,晶圆大小的处理器阵列内,晶体管数量达到了 1.2 万亿,装了400,000个内核。
光是直立高度就约 26 英寸,在一个机架中只能安装三台,整体功率达到了 20kW,且个中有 4kW 是用于冷却。

WSE首次亮相时,很多人质疑它的实用性,随后在9月,Cerebras宣告与美国能源部(DOE)达成互助,将利用WSE进行根本和运用科学、医学研究,充分发挥其超大规模AI的上风。
WSE会进驻美国能源部下属Argonne(阿贡)国家实验室、利弗莫尔国家实验室,与传统超级打算机互助,加速AI事情。

全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片 全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片 科学

现在,它又在加速深度学习的新系统上找到了自己存在的意义。

全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片 全球最大年夜芯片WSE赶上全球最快AI计算机CS-1_人工智能_芯片 科学
(图片来自网络侵删)

图自:Cerebras主页

强大到能让打算体验快得离谱

在日前举办的超级打算 2019 峰会(Supercomputing 2019 Event)上,Cerebras正式发布了与美国能源部互助的成果——基于WSE芯片的环球最快的深度学习打算系统 CS-1。
新款 CS-1 能够为晶圆级芯片供应 15kW 的功率(由于电源效率低下而丢失了 1kW)。

其支持的 Cerebras Wafer Scale 引擎,是有史以来最大的 GPU 的 56 倍、核心的 78 倍、片上内存的 3,000 倍,内存带宽是 10,000 倍,以及 33,000 倍的带宽(PB/s)。

换言之,CS-1 能够带来快得离谱的打算体验。
除此之外,它还能够与开源机器学习框架合营利用(如 PyTorch 和 TensorFlow),以提高运用的灵巧性。

晶圆级芯片的大小,与一台 iPad 平板电脑相称(图自:EETimes)

这样一套惊人的设备,其售价显然也是相称高昂,该公司一位发言人称,其本钱在数百万美元。
美国能源部的阿贡(Argonne) 国家实验室已经买了一台,用于处理大规模的人工智能打算问题,主攻可用于癌症研究和治疗的药物等根本科学实验。

所有数据就直接存在芯片上

Cerebras是硅谷初创公司,虽然刚刚成立三年,但凭借几次主要发布,目前已经融资超过 2 亿美元。
如此受瞩目是由于其在人工智能芯片制造上采纳了一种“不走平凡路”的方法——将所有数据保存在一块巨大的芯片上,以便系统更快运行。

AI 系统一样平常会搭载许多芯片协同事情。
但这存在一个显著问题,在芯片之间进行数据传输很慢,并且会限定芯片的剖析速率。

成立之初,Cerebras 就希望建立一种专门为深度学习优化的新型打算机,为特定的事情负载选择精确的打算机体系构造。

Cerebras 表示,与其他系统比较,CS-1 的每一个组件都专门针对人工智能事情优化,可以以更小的尺寸和更少的能源花费下供应更高的打算性能。

CS-1 高度达到 26 英寸(约 66 厘米),大概相称于一个小的行李箱。
据干系宣布,一个机架中包含了1,000 个 GPU 的集群,50 千瓦的功率。

CS-1 的侧视图,图自: Cerebras官网

这个性能有多强大呢?比拟一下谷歌的 TPU v3,CS-1 功耗是它的五分之一,体积只有它的三十分之一,但速率却是全体 TPU v3 的三倍。

分钟完成传统芯片几个月的任务

Cerebras 为 CS-1 设计了专门的系统和软件平台,以从史上最大芯片 WSE 上的 40 万个打算内核和 18G 高性能片上存储器中提取极限处理能力。

在人工智能打算中,芯片越大越好。
更大的芯片处理信息更快,能在更短的韶光内得到演习结果。
但是,仅有精良的处理器性能还远不敷够。
像 WSE 这样的高等处理器必须与专用的软件相结合才能实现破记录的性能。
因此,Cerebras 专门为这一巨型芯片开拓了 CS-1 内置系统和软件平台,各方面都为加速人工智能打算专门设计。

Cerebras 首席实行官安德鲁·费尔德曼(Andrew Feldman)在接管 VentureBeat 采访时说:“这是从 300 毫米晶圆中切割出的最大“正方形“。
只管我们拥有最大、最快的芯片,但我们知道,一个非凡的处理器未必足以供应非凡的性能。
如果想供应非常快的性能,那么就须要构建一个别系。
而且并不是说把法拉利的引擎放进大众汽车里,就能得到法拉利的性能。
如果想要得到 1000 倍的性能提升,须要做的便是冲破瓶颈。

Cerebras 首席实行官安德鲁·费尔德曼(Andrew Feldman)Cerebras 表示,他们是唯一一家从头开始建立专用系统这一任务的公司。
通过优化芯片设计、系统设计和软件的各个方面,CS-1 目前的性能令人满意。

通过 CS-1 和配套的系统软件, AI 须要几个月才能完成的事情现在可以在几分钟内完成,而须要几个星期完成的事情可以在几秒钟内迅速完成。

CS-1 不仅从根本上减少了演习韶光,而且还为降落延迟设立了新的标杆。
对付深度神经网络,单一图像的分类可以在微秒内完成,比其他办理方案快几千倍。

“这是一台由 40 万个专用人工智能处理器组成的人工智能系统。
”费尔德曼说。

CS-1 分解图。
图自: Cerebras官网

目前,CS-1 的第一台机器已经完成对 Argonne 国家实验室交付,正被用于研究癌症的神经网络的开拓,帮助理解和治疗创伤性脑损伤,CS-1 的性能使其成为 AI 中最繁芜问题的潜在办理方案。

Argonne 实验室是一个多学科的科学与工程研究中央,CS-1 可以将环球最大的超级打算机站点比现有的 AI 加速器性能提升 100 到 1000 倍。

通过将超级打算能力与 CS-1 的 AI 处理能力结合利用,Argonne 实验室现在可以加快深度学习模型的研发,以办理现有系统无法实现的问题。

“我们与 Cerebras 互助已有两年多了,我们非常高兴将新的 AI 系统引入 Argonne。
”Argonne 实验室的打算、环境和生命科学副实验室主任 Rick Stevens 表示,“通过支配 CS-1,我们大大缩短了神经网络的演习韶光,使我们的研究职员能够大大提高事情效率,从而在癌症、颅脑外伤以及当今社会主要的许多其他领域的深度学习研究中得到显著进步。

深度学习是人工智能的一个领域,它许可打算机网络从大量的非构造化数据中进行学习,然而深度学习模型须要大量的打算能力,并正在寻衅当前打算机系统能够处理的极限,Cerebras CS-1 的推出试图办理这一问题。

Argonne 实验室支配 CS-1 以加强人工智能模型的演习,它的第一个运用领域是癌症药物反应预测,这个项目是美国能源部和国家癌症研究所互助的一部分,旨在利用前辈的打算机和人工智能来办理癌症研究中的重大寻衅问题。
增加的 Cerebras CS-1 正在努力支持 Argonne 扩大,紧张提倡前辈的打算,这也有望利用 AI 功能在 2021 年发布的 Aurora exascale 系统实现百亿亿次级连接。

美国能源部卖力人工智能与技能的副部长 Dimitri Kusnezov 在一份声明中说:“在能源部,我们相信与私企互助是加速美国人工智能研究的主要组成部分。
我们期待着与 Cerebras 建立长期而有成效的伙伴关系,这将有助于研究下一代人工智能技能,并改变能源部的运营、业务和任务的形势。

费尔德曼说:“我认为,我们将在未来五年内迎来一个非常激动民气的职业生涯。
我认为,一小群人可以改变天下,这确实是企业家的口头禅。
你不须要一个大公司,不须要数十亿美元,只要一小群精彩的工程师就能真正改变天下。
我们始终相信这一点。

仍存在质疑:高昂价格、内存过小、算法瓶颈?

当然,对付这样一个全新的 AI 系统,许多网友也提出了质疑。

Reddit 上针对 CS-1 的一个谈论中,名为“yusuf-bengio”的网友表示,在实际操作中这种“晶圆规模的 AI 处理器”可能存在瓶颈,比如:

• 价格。
制造这样一个芯片比小型的 GPU 昂贵得多;• 内存过小。
存在延迟或带宽瓶颈;• 算法瓶颈。
如果要利用全体芯片,就必须演习一个极小批量的模型,这反过来会影响准确性。
内存的问题也引起了许多网友的共鸣,有网友表示,这个芯片只能用 batch_size 1 演习,18GB 的静态随机存取存储器(SRAM)直接使得 Megatron,T5,乃至是 GPT-2 这些模型不能利用。

两大亮点

末了,只管有质疑,还是再来看看 Cerebras 公布的这台全天下最快打算机的两大亮点。

CS-1 系统  

Cerebras 声称 CS-1 是最快的人工智能打算机。
图自: Cerebras官网“ CS-1 是一个单一的系统,可以比最大的集群供应更多的打算性能,还省去了集群搭建和管理的开销。
”Tirias Research 首席剖析师凯文 · 克雷韦尔(Kevin Krewell)在一份声明中表示, “CS-1 在单个别系中供应如此多的打算机,不仅可以缩短演习韶光,还可以减少支配韶光。
总体而言,CS-1 可能大幅缩短项目的整体韶光,而这是人工智能研究效率的关键指标。
”比较于 GPU 集群须要数周或数月才能建立起来、须要对现有模型进行大量修正、花费数十个数据中央的机器以及须要繁芜的专用 InfiniBand 进行集群搭建不同,CS-1 的搭建利用须要数分钟。
用户只需接入标准的 100Gb 以太网到交流机,就可以用惊人的速率开始演习模型。
Cerebras 软件平台

近间隔不雅观察 Cerebras 芯片。
图自: Cerebras官网CS-1 非常易于支配和利用,但是 Cerebras 的目的不仅是加快演习韶光,还要加快研究职员验证新想法所需的端到端韶光,从模型定义到演习,从调试到支配。
Cerebras 软件平台旨在许可机器学习研究职员在不改变现有事情流程的情形下利用 CS-1 的性能,用户可以利用行业标准的机器学习框架(如 TensorFlow 和 PyTorch)为 CS-1 定义模型演习。
一个强大的图形编译器自动将这些模型转换为针对 CS-1 优化的可实行文件,并供应一组可视化工具进行直不雅观的模型调试和剖析。
费尔德曼说: “我们利用开源软件,并尽可能使程序大略化。
”但是目前所知的是,这个别系既不是基于 x86,也不是基于 Linux。

相关文章