科创板日报.
《科创板日报》由上海报业集团主管主理,财联社出品。专注新兴家当与成本,是科创板、新兴家当及成本的主要舆论前沿,深度覆盖新一代信息技能、半导体、生物医药、新能源、新材料、基金等,供应媒体、数据、城市、投行等产品体系做事。
芯片推理速率较英伟达GPU提高10倍、本钱只有其1/10;运行的大模型天生速率靠近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速率——短短几天,一家名为Groq的初创公司在AI圈爆火。

Groq读音与马斯克的谈天机器人Grok极为靠近,成立韶光却远远早于后者。其成立于2016年,定位为一家人工智能办理方案公司。
在Groq的创始团队中,有8人来自仅有10人的谷歌早期TPU核心设计团队。例如,Groq创始人兼CEO Jonathan Ross设计并实现了TPU原始芯片的核心元件,TPU的研发事情中有20%都由他完成,之后他又加入Google X快速评估团队,为谷歌母公司Alphabet设计并孵化了新Bets。
虽然团队脱胎于谷歌TPU,但Groq既没有选择TPU这条路,也没有看中GPU、CPU等路线。Groq选择了一个全新的系统路线——LPU(Language Processing Unit,措辞处理单元)。
“我们(做的)不是大模型,”Groq表示,“我们的LPU推理引擎是一种新型端到端处理单元系统,可为AI大模型等打算密集型运用供应最快的推理速率。”
从这里不丢脸出,“速率”是Groq的产品强调的特点,而“推理”是其主打的细分领域。
Groq也的确做到了“快”,根据Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。
第三方机构artificialanalysis.ai给出的测评结果也显示,Groq的吞吐量速率称得上是“遥遥领先”。
为了证明自家芯片的能力,Groq还在官网发布了免费的大模型做事,包括三个开源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前两个已开放利用。
图|Groq(Llama 2)比拟ChatGPT(来源:X用户JayScambler)
LPU旨在战胜两个大模型瓶颈:打算密度和内存带宽。据Groq先容,在 LLM 方面,LPU较GPU/CPU拥有更强大的算力,从而减少了每个单词的打算韶光,可以更快地天生文本序列。此外,由于肃清了外部内存瓶颈,LPU推理引擎在大模型上的性能比GPU赶过几个数量级。
据悉,Groq芯片完备抛开了英伟达GPU颇为倚仗的HBM与CoWoS封装,其采取14nm制程,搭载230MB SRAM,内存带宽达到80TB/s。算力方面,其整型(8位)运算速率为750TOPs,浮点(16位)运算速率为188TFLOPs。
值得把稳的是,“快”是Groq芯片主打的优点,也是其利用的SRAM最突出的强项之一。
SRAM是目前读写最快的存储设备之一,但其价格昂贵,因此仅在哀求苛刻的地方利用,譬如CPU一级缓冲、二级缓冲。
华西证券指出,可用于存算一体的成熟存储器有Nor Flash、SRAM、DRAM、RRAM、MRAM等。个中,SRAM在速率方面和能效比方面具有上风,特殊是在存内逻辑技能发展起来之后,具有明显的高能效和高精度特点。SRAM、RRAM有望成为云端存算一体主流介质。
原标题:《英伟达被“偷家”?全新AI芯片横空出世,速率比GPU快十倍》
阅读原文