若何才能让AI芯片跟上算法的速度？_芯片_思科

文章目录 [+]

AI芯片跟不上算法的速率

早在2019年斯坦福大学就有报告指出，AI对算力需求的速率要快于芯片的发展速率。
“在 2012年之前，AI的发展与摩尔定律的遵照度极高，打算能力每两年翻一番，但2012年之后，AI的打算能力每3.4个月就翻一番。
”

当通用途理器算力跟不上 AI 运用的需求，针对 AI 打算的专用途理器便出身了，也便是常说的“AI 芯片”。
自2015年AI算法在视觉识别方面超越人类分数，业界对AI芯片关注度大增，也因此带动了干系IP技能的发展，加快了下一代处理器和存储器的速率，实现了更高的带宽接口，从而牢牢跟上AI算法的步伐。
图1显示了自2012年引入反向传播和当代神经网络，并与NVIDIA的重型打算 GPU 引擎相结合后，AI范例缺点率呈现肉眼可见的降落。

（图片来自网络侵删）

图 1：在 2012 年引入当代神经网络后，AI分类缺点迅速减少，2015年起低于人类缺点率

随着AI 算法日益繁芜，无法在专为消费类产品设计的 SoC 上实行，须要利用修剪、量化等技能对齐进行压缩，从而减少系统须要的内存和打算量，但这样就会影响准确性。
以是工程上面临一个寻衅：如何履行压缩技能而不影响AI运用所需的精度？

除了AI算法繁芜性的提升之外，由于输入数据的增加，推理所需的数据量也急剧增长。
图 2 显示了优化后的视觉算法所需的内存和打算量。
该算法设计为相对较小的 6MB 内存占用空间（SSD-MobileNet-V1 的内存哀求）。
在这个特定示例中，我们可以看到，随着像素大小和颜色深度的增加，最新的图像捕获中的内存哀求已从 5MB 增加到 400MB 以上。

目前最新的三星手机CMOS图像传感器摄像头支持高达108MP。
理论上，这些摄像头在30fps和超过1.3GB 内存下可能须要40 TOPS的性能。
但ISP中的技能以及 AI 算法中特定的区域，无法知足这些哀求，40 TOPS性能尚无法在手机上实现。
但通过此示例能看出边缘设备的繁芜性和寻衅，并且也正在推动传感器接口IP的发展。
MIPI CSI-2 具有专门的区域来办理这个问题，MIPI C/D-PHY 连续增加带宽，以处理驱动数亿像素的最新 CMOS 图像传感器数据。

图 2：随着输入像素增大，SSD-MobileNet-V1 的内存变革测试

如今的办理方案便是压缩AI算法，压缩图像，这就使得芯片优化变得极其繁芜，尤其是对付内存有限、处理量有限且功耗预算较小的 SoC。

AI行业难题二：AI芯片评估面临寻衅

AI芯片厂商常日对会其芯片进行一些基准测试。
现在的SoC有多种不同的衡量指标。
首先，每秒万亿次运算 (TOPS) 是性能的一个紧张指标，通过这项数据可以更清楚地理解芯片能力，例如芯片可以处理的运算类型和质量。
再者，每秒推理数也是一个紧张指标，但须要理解频率和其他参数。
因此，行业内开拓了额外的基准测试来帮忙AI 芯片进行评估。

MLPerf/ML Commons和AI.benchmark.com都是AI芯片标准化基准测试的工具。
个中，ML Commons 紧张供应芯片精度、速率和效率干系的丈量规则，这对理解芯片处理不同 AI 算法的能力非常主要，如前所述，在不理解精度目标的情形下，我们是无法在芯片进度与压缩程度之间做取舍的。
此外，ML Commons还供应通用数据集和最佳实践。

位于瑞士苏黎世的 Computer Vision Lab 还供应移动处理器的基准测试，并发布其结果和芯片哀求以及支持重复利用的其它信息。
包括 78 项测试和超过180 个性能方面的基准。

斯坦福大学的DAWNBench为ML Commons的事情供应了支持。
这些测试不仅能办理 AI 性能评分问题，还办理了处理器实行 AI 算法演习和推理的总韶光问题。
这办理了芯片设计工程目标的一个关键问题，即降落整体拥有本钱或总拥有本钱。
AI 处理韶光，决定了云端 AI 租赁或边缘打算的芯片所有权，对付组织的整体 AI 芯片策略更有用。

另一种盛行的基准测试方法，是利用常见的开源图形和模型，但这些模型也有一些弊端。
例如，ResNET-50 的数据集为 256x256，但这不一定是终极运用中可能利用的分辨率。
其次，该模型较旧，层数少于许多较新模型。
第三，模型可以由处理器 IP 供应商手动优化，但这并不代表系统将如何与其他模型一起实行。
除了ResNET-50之外，还有大量可用的开源模型，通过它们可以看到该领域的最新进展，并为性能供应良好的指标。

末了，针对特定运用的定制图形和模型变得越来越普遍。
空想情形下，这是对 AI 芯片进行基准测试，以及合理优化以降落功耗和提高性能的最佳方案。

由于SoC开拓者各有不同的目标，有些是运用于高性能领域，有的是用于较低性能的领域，还有的是通用AI领域，以及ASIC领域。
对付不知道须要按照哪种 AI 模型进行优化的 SoC，自定义模型和开放可用模型的良好组合，可以很好地指示性能和功耗。
这种组合在当今市场中最常用。
然而，在 SoC 进入市场后，上述较新的基准测试标准的涌现，彷佛在比较中具有一定的干系性。

边缘AI芯片设计之前的评估尤为主要

现在越来越多的数据打算在边缘发生，鉴于边缘优化的繁芜性，当今的 AI 办理方案必须协同设计软件和芯片。
为此，它们必须利用精确的基准测试技能，同时还必须有工具支持，从而使设计职员能够准确探索系统、SoC 或半导体 IP 的不同优化办法，调查工艺节点、存储器、处理器、接口等。

在这方面，新思科技可针对特定领域供应有效的工具，来对 IP、SoC 和更广泛的系统进行仿照、原型验证和基准测试。

首先，新思科技HAPS® 原型验证办理方案常日用于展示不同处理器配置的能力和权衡。
该工具能够检测出除了处理器之外， AI 系统的带宽在什么情形下开始成为瓶颈？传感器输入（通过 MIPI）或存储器访问（通过 LPDDR）在处理不同任务时的最佳带宽是多少？

再一个，新思科技ZeBu® 仿真系统可用于功率仿照。
ZeBu Empower可采取AI、5G、数据中央和移动SoC运用的真实软件事情负载，在数小时内完成功耗验证周期。
此仿真系统已被证明优于 AI 事情负载的仿照和/或静态剖析。

用户还可以通过新思科技的 Platform Architect 探索 SoC 设计的系统层面。
Platform Architect 最初用于内存、处理性能和功耗探索，最近越来越多地用于理解 AI 的系统级性能和功耗。
利用预构建的LPDDR 、ARC处理器模型用于 AI、存储器等，可以进行灵敏度剖析，以确定最佳设计参数。

新思科技拥有一支履历丰富的团队，卖力开拓从 ASIP Designer 到 ARC 处理器的 AI 处理办理方案。
包括内存编译器在内的经由验证的根本 IP 产品组合已广泛运用于 AI SoC。
AI 运用的接口 IP 范围从传感器输入到 I3C 和 MIPI，再到通过 CXL、PCIe 和 Die to Die 办理方案的芯片到芯片连接，以及通过以太网的网络功能。

总结

软件和芯片协同设计已经成为现实，选择精确的工具和专业知识至关主要。
新思科技正在利用专业知识、做事和成熟的IP，为客户供应最适宜的方法，在不断变革的情形下优化 AI 芯片。

本文作者

新思科技IP 计策营销经理 Ron Lowman

免责声明：本文由作者原创。
文章内容系作者个人不雅观点，半导体行业不雅观察转载仅为了传达一种不同的不雅观点，不代表半导体行业不雅观察对该不雅观点赞许或支持，如果有任何异议，欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第3120内容，欢迎关注。

晶圆｜集成电路｜设备｜汽车芯片｜存储｜台积电｜AI｜封装

标签：芯片基准