首页 » 互联网 » 融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟

融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟

南宫静远 2024-12-06 01:45:17 0

扫一扫用手机浏览

文章目录 [+]

编辑|李然

又是藤校生辍学创业,开拓技能新路线,寻衅主流的故事。

融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟 融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟 互联网

两个从哈佛退学的00后本科生,开拓了一款新的AI芯片,筹集了高达1.2亿美元。

融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟 融资1.2亿美元!00后哈佛华裔辍学生开拓Transformer专用加速芯片比英伟达H100快20倍_芯片_英伟 互联网
(图片来自网络侵删)

图源:X(

两位辍学生创立的公司名为Etched AI,开拓的这款芯片名为「Sohu」(但不是“搜狐”),是专为Transoformer架构大模型研发的ASIC芯片。
比较于霸占AI芯片垄断地位的、原来作为图形处理器的英伟达GPU,Sohu芯片只运行Transformer架构的模型,但运行速率比GPU快一个数量级。

图源:X(

当地韶光6月25日,Etched宣告完成 1.2 亿美元的 A 轮融资,由早期投资机构Primary Venture Partners 和 Positive Sum Ventures 共同领投。
重量级天使投资人包括风险投资家 Peter Thiel、GitHub 首席实行官 Thomas Dohmke、自动驾驶公司 Cruise 的联合创始人 Kyle Vogt, 以及Quora的联合创始人Charlie Cheever。
目前公司没有透露新一轮融资后的估值。
已经有早期客户,向Etched AI预订了数千万美元的硬件订单。

Etched AI 位于加利福尼亚,是一家“两人公司”,两位创始人都是2020年进入哈佛,在校时猖獗兼职打工,后来休学创业,个中一位是21岁华裔小哥Chris Zhu,一位是Gavin Uberti。

英伟达的AI芯片帝国,不乏寻衅者:芯片初创公司Cerebras Systems的大体积单个芯片,以及 Tenstorrent公司的RISC-V技能芯片。
现在英伟达又多了一个更年轻、更年夜志勃勃的对手——Etched AI。

如何比H100更快20倍?

众所周知,AI芯片的巨子英伟达采纳的GPU原来是图形处理器,善于并行处理多个大略的打算,后用于演习AI模型,由于演习AI须要同时对所有数据样本实行相同的操作。

但演习AI大模型须要更专用的芯片。
Etched首席实行官Uberti 在公开采访中说,“人工智能的发展已经到了这样一个阶段,性能优于通用 GPU 的专用芯片是不可避免的——全天下的技能决策者都知道这一点。

「Sohu」芯片是一种 ASIC(专用集成电路),一种为特定运用量身定制的芯片。
Sohu只运行Transformer架构的模型。
Transformer 是由谷歌研究职员团队于 2017 年提出的,已成为占主导地位的天生式 AI 模型算法。

Etched 称Sohu芯片采取台积电 4 纳米制程制造,可以供应比 GPU 更好的推理性能,同时花费更少的能源。

Etched流传宣传,与H100比较,一台集成了8块Sohu芯片的做事器,能匹敌160块H100芯片,这意味着Sohu芯片的速率比H100快20倍。
与英伟达下一代 Blackwell (B200) GPU比较,Sohu芯片快 10 倍以上,而且更便宜。

针对Llama 70B 开源大模型,一台Sohu芯片每秒运行超过 50万个token,比 H100 芯片(2.3万token/秒)多 20 倍,比 B200 芯片(约 4.5万token/秒)多 10 倍。

针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

Sohu的推理速率是如何做到这么快的?

连续批处理提示和补全:每个序列包含四个输入标记和四个输出标记;每种颜色代表一个不同的、独立的序列。
图源:Etched官网

Sohu芯片采取了一种名为\公众连续批处理\"大众(Continuous batching of prompts and completions)的创新技能。
这种方法奥妙地将多个输入和输出序列组合在一起处理,充分利用了芯片的打算资源。

想象一下,就像是在一个大厨房里,多个厨师同时利用相同的食材(模型权重)烹饪不同的菜肴(处理不同的输入序列)。

这种技能的上风在处理长输入短输出的场景中尤为明显,这恰好符合大多数AI运用的利用模式。
通过这种办法,Sohu芯片能够在处理Llama-3-70B等大型模型时达到惊人的效率,远超传统GPU的表现。

大略来说,Sohu芯片就像是一个超级高效的并行处理器,能够同时处理大量的AI任务,而不会被内存读取速率拖后腿。
这一打破性的技能有望大大提升AI运用的相应速率和处理能力,为用户带来更流畅、更智能的体验。

此外,Sohu还能做到简化推理所用的硬件和软件。
由于Sohu不运行非Transformer模型,Etched 团队可以去掉与Transformer无关的硬件,并减少传统上用于支配和运行非Transformer的软件开销。

比较之下,英伟达的GPU中,并不是所有晶体管都用于大模型的张量打算。
例如,H100 有 800 亿个晶体管,但只有27 亿个专用于张量核心的晶体管,这意味着 H100 GPU 上只有 3.3% 的晶体管用于大模型的矩阵乘法。

Sohu芯片通过仅运行变压器,在芯片上安装更多的 FLOPS,而无需诉诸较低的精度或稀疏性。

图源:X(

GPU 并没有在单芯性能上变得更好,只是变得更大了。
在过去四年中,打算密度 (TFLOPS/mm^2) 仅提高了约 15%。

新一代GPU都是靠堆叠多张卡来提升算力——将两个芯片算作一张卡,以“翻倍”其性能。
NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等都是如此。

随着摩尔定律(CPU的集成电路上可容纳的晶体管数目,约每隔两年便会增加一倍)放缓,提高芯片性能的唯一方法是采纳专业化的芯片,而非通用芯片。

图源:Etched官网

GPU触达天花板:英伟达、AMD、英特尔、亚马逊等公司都通过将两块芯片合为一体来成倍增强性能。
2022年至2025年间,AI芯片技能并没有“变好”,而只是“变大”。
这期间所有的芯片性能提升都是通过“变大”实现的,除了Etched。

Etched流传宣传,如今AI 模型的演习本钱超过 10 亿美元,将用于 100 亿美元以上的推理。
对付这么大的需求,用 5000 万至 1 亿美元的定制芯片来换取1%的性能改进,是合理的。

如果 AI 模型一夜之间速率提高 20 倍、本钱降落 20 倍,会发生什么?

当下,Gemini 要花超过 60 秒的韶光来回答有关视频的问题,用AI运行代码,须要数小时才能完成任务,本钱比雇佣人类码农更高。
视频天生模型,一秒钟才能天生一帧画面。
当 ChatGPT 注册用户达到 1000 万(这还只是环球用户的 0.15%)时,乃至 OpenAI 也涌现GPU算力荒。

纵然以多卡互联的办法堆叠显卡,以每两年 2.5 倍的速率不断制造更大的 GPU,也须要十年的韶光才能实现即时的视频天生。

而当Sohu芯片能让大模型的推理速率提高20倍,视频模型天生画面能更即时、迅速,

一出,网友们大多表示欢迎,认为这家公司的涌现将加速AI创新:

这些推理 GPU 基准测试中的数字很低。
下面是我的8xB200推理模型的理论值,适用于 NVLink,8位和70B Llama模型,后者更靠近300k token/秒。
这意味着完美的实现(靠近OpenAl/Anthropic所拥有的)。
图源:X(@Tim_Dettmers)

这使得利用LLM的高等推理用例更加可行。
他们网站上有很多例子。
这将加速创新,AI将为更好的AI的发展做出更大的贡献。
未来正以极快的速率到来。
图源:X(@leonovco)

Sohu用户\"大众直接烧进硅里\公众 vs \公众GPU呆子\公众抱怨在不丢失通用打算能力的情形下,无法在Transformer模型上达到40%以上的利用率。
此图暗示了SoHu芯片在AI特界说务上的上风,以及传统GPU在处理新型AI模型时可能面临的效率瓶颈。
图源:X(@qamcintyre)

两位哈佛本科生休学创业的死活赌注

Gavin Uberti和Chris Zhu休学创业,是在2022年10月,那时离Chat-GPT问世还有一个月,Transformer还远没有成为主流地位的架构——图像和视频天生模型利用的是U-Net,自动驾驶汽车模型利用CNN。
但在那时,两位创业者已经把全部赌注下在Transformer专用芯片上。

“我们在人工智能领域下了最大的赌注,”Etched联合创始人Gavin Uberti在一次公开采访中表示, “如果Transformer消逝了,我们就会去世。
但如果Transformer能坚持下去,我们便是有史以来最大的公司。

“后来当 ChatGPT 推出时,英伟达股票卖爆了,特殊是当其他发布的所有模型也都是Transformer架构时,我们创造自己在精确的韶光处于精确的位置。
”Gavin说。

“我们对自己正在做的事情感到如此愉快,为什么我们辍学,我们说服了这么多人离开这些芯片项目——这是我们要做的最主要的事情。
”后来加入Etched的联合创始人Robert Wachen说。

让我们看看几位如此年轻的创业者的背景是若何的:

Gavin Uberti

Gavin Uberti 是Etched的联合创始人兼首席实行官,创业前就读于哈佛大学,攻读数学学士和打算机科学硕士学位。

图源:semi

Gavin原来操持离开哈佛休学一年,但终极在 OctoML 找到了一份从事 ApacheTVM (深度学习编译器框架)开源编译器和matmul内核的事情。

在为 Arm Cortex M4 和 Cortex M7 内核开拓微内核时,Gavin 把稳到 Arm 的指令集没有 8 位 MAC SIMD 指令,只有 16 位(M4 和 M7 支持许多其他 8 位 SIMD 操作,但 Helium 引入了 8 位 MAC SIMD 指令)。
这意味着 8 位 MAC SIMD 操作实际上仅以一半的速率运行。
这可以说是Gavin创办Etched的一个关键成分。

“这个问题永久无法办理,每次上班,我都必须处理这个轻忽,这让我和 Chris 一起思考,我们必须能够做得更好,”Gavin说。

与此同时,Gavin和Kris还看到措辞模型领域正在发生变革,也便是人们对基于Transformer 架构的 LLM 的兴趣激增。

他和Zhu决定创办一家芯片公司,为 LLM 设计更高效的推理架构。
虽然目前市场上还没有专门针对 LLM 的加速器,但 Nvidia 已经宣告了针对转换器的软件功能,其他加速器公司也宣告支持措辞和视觉转换器。
Etched.ai 操持通过进一步专业化来与现有企业竞争。

“你无法通过泛化得到我们所得到的那种改进,”Gavin说。
“你必须在单一架构高下大赌注,不仅仅是人工智能,还要在更详细的东西高下赌注……我们认为 Nvidia 终极会做到这一点。
我们认为这个机会太大了,不容忽略。

图源:LinkedIn

在Etched,他正在为Transformer架构构建 ASIC(Application-Specific Integrated Circuit,专用集成电路,为特定用场而设计的定制化芯片,能在特界说务上实现最佳性能和效率),与通用 AI ASIC 比较,其吞吐量赶过一个数量级。

图源:Bloomberg,采访视频链接:https://x.com/Etched/status/1805775989500428739

Chris Zhu

图源:X(@czhu1729)

Chris Zhu,Etched.ai 的联合创始人,目前正在开拓下一代 LLM 加速器系统。

在创业前,他在校期间就不断参加科研,不断兼职演习。

他于2021年9月至2022年4月,在哈佛大学担当各种打算机科学课程的传授教化研究员,同期间还曾在亚马逊和 AvantStay 担当软件工程师演习,分别专注于后端物联网根本举动步伐和 AWS 环球收入运营。

Chris的早期履历还包括:在2021年2月至6月于哈佛本科成本合资公司担当演习剖析师;2018年1月至2020年5月在麻省理工学院担当研究员;2019年6月至8月担当波士顿大学 PROMYS 的低级辅导员。

Robert Wachen

图源:X(@robertwachen)

Robert Wachen是Etched的联合创始人和COO,他有着非常丰富的创业经历。

他的学术和创业经历包括:哈佛大学咨询集团、哈佛肯尼迪学院行为洞察小组代表、Prod联合创始人(2022年7月至今)、Mentor Labs联合创始人兼CEO(2022年1月至今)Generate Sales Online 创始人(2016年12月至今)、Birthday Cakes 4 Free Maryland 联合创始人兼总裁(2015年9月至今)、蒙哥马利县地区 SGA 财务主管以及蒙哥马利县公立学校“Early Edge”职业准备操持的学生代表。

英伟达目前是AI芯片的巨子。
据TechCrunch估计,英伟达霸占了人工智能芯片约 70% 至 95% 的市场份额。
Etched AI的Transformer专用芯片是英伟达的一个年轻竞争者。

寻衅英伟达的年轻竞争对手还有很多。
一个对手是Cerebras Systems公司,正在开拓由整块晶圆做成的、单个体积最大的 AI 芯片,已累计融资7.2亿美元,背后有OpenAI的首席实行官Sam Altman投资。
6月20日The Information称Cerebras已经秘密申请上市。

另一个英伟达寻衅者是Tenstorrent,该公司正在利用一种名为 RISC-V 的盛行技能来开拓AI 芯片。

英伟达鼎立山头,新势力群雄环伺,两位00后哈佛辍学生创立的Etched AI或许成为下一个英伟达寻衅者。

标签:

相关文章

IT86cc,创新驱动的数字科技新引擎

随着全球信息化、数字化进程的不断推进,我国数字科技产业迎来了前所未有的发展机遇。在这其中,IT86cc作为一家创新驱动的数字科技公...

互联网 2024-12-28 阅读0 评论0