Groq LPU推理芯片专家解读电话会纪要_成本_芯片

文章目录 [+]

在推理芯片市场上，Groq的LPU性能提升和本钱情形如何？A：Groq的LPU实际上是一个针对AI算法设计的DSA（领域特定加速器），与范例的如谷歌TPU相似，其架构与英伟达的GPU有显著不同。
它的设计并未分开传统CMOS工艺，并采取了与传统内存相连的SM（StorageMemory）架构，而非利用新型存储器设计。
不同之处在于，Groq采取了一种基于内嵌的SRAM架构进行存储，代替了传统的cache系统和HBM（高带宽内存）。
然而，这种设计并非创新打破，浩瀚其他公司也利用类似的内部存储办法，如百度昆仑芯和英国的GraphCore。
Groq的存储容量并不是最大的，但其架构非常适宜大模型打算，尤其是大型措辞模型，拥有较宽的数据流格式和向量打算。
Groq的LPU从架构和编程办法上更加适宜大措辞模型的打算需求，供应了友好的编程模式，适应目前大措辞模型的需求。
Groq对LPU进行了优化调度，目前能够供应高达500Trillionoperations per second的性能。

Q：Groq这样设计的LPU存储量为何这么大，采取这样的设计其本钱和价格如何？

A：虽然Groq的存储量并不是市情上最大的，但其230或240兆字节的全局共享SM便于编程，由于可以视为一整块内存，而不是多块分散的SM。
这让编程相对大略，由于不须要在多个小块间做过多的优化事情。
从工艺流派来看，Groq采取的是基于传统CMOS工艺的存储器设计，与新型存储器工艺比较，传统CMOS更加成熟、广泛采取，并且制造商和生产链也更为丰富和完善。
这意味着从设计到制造本钱都会相对较低，能够更随意马虎地找到代工和进行批量生产。
总体来说，Groq的这种设计选择可以使其本钱掌握更为有效，并有助于其推理芯片在市场中的竞争力。

Q：请先容大模型Groq芯片的架构特点。

A：Groq芯片在架构上有几种不同的形式，包括称为净存打算和存内打算的类型。
净存打算中,打算电路被放置于存储器中，例如至纯科技和后膜智能等都采取了这种被称为纯列打算的形式。
其余，还有一种叫做进程打算的形式，HBM（HighBandwidthMemory）是进程打算的一个范例例子，它将原来放置在芯片外部的设计集成到了芯片内，这样能够减小延时，并大幅提高带宽。
此外，有两种实现芯片内部进程打算的办法，一是基于SM（StreamingMultiprocessors）的设计，二是基于cache的设计。
比如CPU和GPU内部常日都会有大容量的cache。
而GPU比较之前在cache容量上有了增加，从原来的16MB、24MB、32MB增加到了96MB或者128MB。
DSA（Domain-SpecificArchitectures）险些都采取了基于SRAM的设计，例如含光800利用了256MB，英特尔的Graphcore利用了780MB。
不同的架构会导致价格和性能上的差异，比如Groq芯片，有着144MB或244MB不等的容量，并且架构也不同，这使得它们的性能竞争力很强。
举例来说，谷歌已经在其云做事中大规模采取Groq芯片，乃至超过了GPU的利用量。

Q：关于Groq芯片的本钱与性能比如何评估？

A：Groq创立之后，其芯片的本钱较高，但性能上却能够达到每秒500个科分数（GFLOPS）的运算能力。
在考虑其性能的条件下，要打算这种大模型Groq芯片的本钱，我们须要比较它与其他主流方案，比如英伟达芯片的整天性价比。
性能上，Groq芯片既有竞争力，又显示出了其在高性能打算领域的可靠性。
尤其是在谷歌云做事的利用情形中，Groq芯片的采取量已经超过了传统的GPU，表明其性价比是得到市场认可的。
对付投资决策来说，考虑Groq芯片的本钱和性能指标是至关主要的，以此来评估其在市场中的潜在影响力和投资回报率。

Q：Groq芯片在处理大模型时是否存在性能或本钱上的问题？

A：从我们的推算中，如果以拉马70B大模型为例，其模型须要至少100GB的内存，按照Groq的打算速率，须要500多块芯片才能运行这样的大型模型，这个数字非常夸年夜。
相对地，NVIDIA只须要一块IP100就可以处理，如果支配，NVIDIA利用的是HGX平台，8张卡每张196GB，合计约为1600GB。
本钱上，Groq的单芯片面积较大，大概720平方毫米14纳米，翻译成7纳米可能在400平方毫米以下，但英伟达是820平方毫米。
因此，Groq的单芯片本钱至少为英伟达的一半。
但实际的产品定价和利润率可能有所不同，NVIDIA单芯片本钱在2000美元旁边，而Groq的芯片售价可能在2000到3000美元。
据我们理解，Groq流传宣传自己的售价可以覆盖本钱，纵然它的利润率很低，但并非亏本。
纪要来源：【文八股调研】小程序

Q：Groq芯片在大模型处理方面存在哪些潜在的改进空间？

A：Groq的架构可能须要一些改进才更适宜大模型。
如果它采取像TPU那样支持HBM的架构，它的本钱可能会大幅降落，同时速率可能还会提高。
这是由于不须要利用500张卡来运算，可能改用8张卡即可。
这样，如果增加了HBM，Groq与NVIDIA的性能比拟可能靠近1：1。
当前Groq须要用500块芯片来匹配NVIDIA的16块芯片性能。
但如果以本钱25万美元比拟NVIDIA的16万美元，Groq的本钱还是高一些。
干预下一代芯片可能会添加外置的存储以减少所需芯片数量，从而减少本钱。
目前Groq的卡可能发卖价在5000美金，但本钱可能在2000到3000美金之间，如果进一步压缩利润率，Groq的本钱和价格都有低落空间，可能与NVIDIA的定价更为靠近。

Q：Groq芯片中的SM是什么，是否属于新技能？

A：SM（StreamingMultiprocessor）是在所有芯片中都存在的，不论是大的CPU、GPU还是其他芯片，它们内部都有SM。
这不是一个新的创新，以是芯片内增加SM并不虞味着从架构上有其它分外的创新。
以这种技能，Groq最近给出了每秒500特色的数据，但这个数字没有打破现有技能的范畴。

Q：Groq推理芯片的IP是如何进行设计与生产的，后期是否会有架构上的改变？

A：Groq的IP设计紧张是由核心芯片厂商自行完成，不会外包或分片处理。
至于架构上的改变，目前Groq仅公布了其芯片的POD连接办法，并未提到在chip-to-chip的高速做事上有显著的创新。
它们的接口类似于标准的MALink，因此在这方面可能与其他IP厂商的高速设计不会有太大差异。
Groq并未采取光模块或光通信等设计，因此，在这些连接办法上的创新并不多。
然而，Groq的创新更多在于数据流处理和编程模式方面，特殊是将全体芯片作为一个大型的SM（streamingmultiprocessor）和加速打算电路来利用。
相对来说，这种编程模式和数据流动处理办法的创新是Groq最为显著的特点。

Q：静态随机存取存储器（SRAM）在本钱上为什么这么贵，未来是否有降本空间？

A：SRAM的本钱高是由于其工艺同数字电路无异，随着工艺技能的发展，特殊是到了7纳米过程，SRAM的尺寸缩减变得相对敏感。
数字电路在每代工艺更新时面积可缩小一半旁边，但SRAM面积缩小幅度约为30%旁边，没有数字电路的缩小幅度大。
这一情形导致了SRAM在芯片中的本钱比例逐渐增加，随着技能进步SRAM本钱上升，并且其面积缩小速率追不上数字电路，因此在总体芯片本钱中变得加倍昂贵。
不过，通过架构设计、冗余设计和DFM（设计制造集成）策略，可以在一定程度上降落SRAM的本钱。
但总体而言，随着工艺的进一步发展，SRAM的相对本钱是上升的。
SRAM还面临良率问题，且随着位数的增加，良率低落速率加快。
这些成分都意味着SRAM在未来工艺中的本钱管理将成为一个寻衅。

Q：SSM（SRAM）的本钱为何会高于DM（DRAM）？

A：SSM的设计布局比DM繁芜，须要六个晶体管而DM仅须要一个晶体管。
在相同工艺条件下，比如西蒙斯工艺，一块DRAM的密度大约是SRAM的六倍，从而导致本钱为SRAM的1/6。
DRAM可以独立生产，而SRAM必须与数字电路如CPU、GPU等一起生产且无法大面积或大批量生产，增加了本钱。
因此，只管DRAM单个单元密度高且本钱低，SRAM在整合到数字电路后其本钱将相对较高。
此外，随着数字电路工艺趋势向前辈工艺发展，SRAM的缩小速率小于数字电路，从而在相对值上其本钱随着数字电路缩小而增大。

Q：SM是否有降落本钱的潜在路子？比如摩尔定律在数字电路上的运用。

A：在工艺的进步下，SRAM的本钱缩减速率小于数字电路，且无法单独生产，这使其本钱在相对值上随着数字电路尺寸减小而增加。
摩尔定律对SRAM本钱减小的潜在影响较小，而纵然有技能改造，也会受莅临盆模式限定。

Q：Groq的架构是否与传统的SRAM与逻辑电路紧密结合有所冲突？

A：Groq的架构通过一种流水线构造将一整块SRAM当成整体利用，虽然物理上它们是分开的，这是架构上的一个创新，并非硬件创新。
其他公司能够采纳类似方法，但由于与现有的谷歌TPU领域专利可能存在冲突，美海内可能没有公司乐意考试测验。

Q：在大型模型运用中，Groq芯片相较于GPU在推理质量上是否存在差异？

A：理论上如果Groq芯片和GPU利用相同的数据格式进行处理，比如说FP16或者Int8，该当不存在差异。
然而，比拟GPU是否同样利用Int8或者FP16进走运算存在不愿定性，如果Groq采取Int8而GPU采取FP16，那么精度上会有所不同，个中FP16常日具有较高的精度。
不过由于大型模型对精度不是非常敏感，Groq可能在实际运用中利用Int8而无显著影响。

Q：海内厂商海光、寒武纪、华为的在大模型芯片上的进展情形如何？

A：海光推出的芯片紧张是为传统的高性能打算HPC领域做事，并没有特殊为AI加速器优化，因此在大模型推理上不是特殊得当。
华为的产品也类似，也没有明显指向AI大模型推理的特化设计。

Q：Groq的芯片是否须要外接HBM，以及未来是否有此趋势？

A：Groq的芯片设计时并没有包括外部存储设备，只有PCIE接口和类似MA链接的高速接口，这可能是一个设计上的弊端。
在未来，Groq有可能会朝向外接HBM的设计方向，以改进本钱效率。
目前Groq须要通过利用更多芯片来达到大模型运算需求，如果未来的设计能够外接HBM，可能会减少所需芯片数量，提升本钱效率。

Q：Google的TPU是否采取了HBM，并且Groq芯片的设计是否与TPU相似？

A：Google的TPU是采取了HBM（高带宽存储器）技能，详细来说是32TBSBM的存储办法。
大约有三分之一的设计和Groq的芯片相似，可以说是肯定有借鉴Groq的一些设计，由于包括clock核心在内的专利很多都是Groq的。
比如在处理大模型运算方面，Groq的设计是有其创新之处的，这也是其他公司可以学习的地方。

Q：Groq的处理方案对海内的企业是否具有借鉴意义？HBM和Groq这类存储容量较小的产品在实际运用中与大容量存储方案比较有何差异？

A：Groq的处理方案对海内企业有一定的借鉴意义。
例如，许多公司都在探索层面打算或进程打算，虽然像寒光八百的数据显示并不是很成功，但昆仑以及百度新闻的架构更靠近于Groq这类大容量SM（流处理器）的架构。
然而，在ICBN（基本国际电旗子暗记缩略语）不能采取的情形下，Groq的方案是一个相对可实现的选择。
至于HBM这类高带宽但存储容量较小的技能，其在利用上与几GB大容量存储的差异紧张在于对付大模型的实行需求。
大模型常日须要100GB到200GB的空间才能跑起来，如果不该用外部的DM或ICM存储，则可能须要几百块芯片。
这样的情形下，对付小型公司或者单一工厂而言不得当，由于它们更适宜在云环境中运作。
比如，Google和Baidu这样的大公司在云端操作大模型时，可能须要购买恒河沙数的存储卡，以是对他们而言存储规模的问题不是障碍。
从终端用户的角度看，这些技能供应的性能是足够的，速率也非常快，不会感到明显的慢速。
关键的是，对付云真个后端履行者来说，是一个问答任务占用大约16张卡，还是500张卡，这是本钱和资源利用上的一个重大差异。

纪要来源：【文八股调研】小程序

标签：本钱芯片