AI芯片跟不上算法的速率
早在2019年斯坦福大学就有报告指出,AI对算力需求的速率要快于芯片的发展速率。“在 2012年之前,AI的发展与摩尔定律的遵照度极高,打算能力每两年翻一番,但2012年之后,AI的打算能力每3.4个月就翻一番。”

当通用途理器算力跟不上 AI 运用的需求,针对 AI 打算的专用途理器便出身了,也便是常说的“AI 芯片”。自2015年AI算法在视觉识别方面超越人类分数,业界对AI芯片关注度大增,也因此带动了干系IP技能的发展,加快了下一代处理器和存储器的速率,实现了更高的带宽接口,从而牢牢跟上AI算法的步伐。图1显示了自2012年引入反向传播和当代神经网络,并与NVIDIA的重型打算 GPU 引擎相结合后,AI范例缺点率呈现肉眼可见的降落。

图 1:在 2012 年引入当代神经网络后,AI分类缺点迅速减少,2015年起低于人类缺点率
随着AI 算法日益繁芜,无法在专为消费类产品设计的 SoC 上实行,须要利用修剪、量化等技能对齐进行压缩,从而减少系统须要的内存和打算量,但这样就会影响准确性。以是工程上面临一个寻衅:如何履行压缩技能而不影响AI运用所需的精度?
除了AI算法繁芜性的提升之外,由于输入数据的增加,推理所需的数据量也急剧增长。图 2 显示了优化后的视觉算法所需的内存和打算量。该算法设计为相对较小的 6MB 内存占用空间(SSD-MobileNet-V1 的内存哀求)。在这个特定示例中,我们可以看到,随着像素大小和颜色深度的增加,最新的图像捕获中的内存哀求已从 5MB 增加到 400MB 以上。
目前最新的三星手机CMOS图像传感器摄像头支持高达108MP。理论上,这些摄像头在30fps和超过1.3GB 内存下可能须要40 TOPS的性能。但ISP中的技能以及 AI 算法中特定的区域,无法知足这些哀求,40 TOPS性能尚无法在手机上实现。但通过此示例能看出边缘设备的繁芜性和寻衅,并且也正在推动传感器接口IP的发展。MIPI CSI-2 具有专门的区域来办理这个问题,MIPI C/D-PHY 连续增加带宽,以处理驱动数亿像素的最新 CMOS 图像传感器数据。
图 2:随着输入像素增大,SSD-MobileNet-V1 的内存变革测试
如今的办理方案便是压缩AI算法,压缩图像,这就使得芯片优化变得极其繁芜,尤其是对付内存有限、处理量有限且功耗预算较小的 SoC。
AI行业难题二:AI芯片评估面临寻衅
AI芯片厂商常日对会其芯片进行一些基准测试。现在的SoC有多种不同的衡量指标。首先,每秒万亿次运算 (TOPS) 是性能的一个紧张指标,通过这项数据可以更清楚地理解芯片能力,例如芯片可以处理的运算类型和质量。再者,每秒推理数也是一个紧张指标,但须要理解频率和其他参数。因此,行业内开拓了额外的基准测试来帮忙AI 芯片进行评估。
MLPerf/ML Commons和AI.benchmark.com都是AI芯片标准化基准测试的工具。个中,ML Commons 紧张供应芯片精度、速率和效率干系的丈量规则,这对理解芯片处理不同 AI 算法的能力非常主要,如前所述,在不理解精度目标的情形下,我们是无法在芯片进度与压缩程度之间做取舍的。此外,ML Commons还供应通用数据集和最佳实践。
位于瑞士苏黎世的 Computer Vision Lab 还供应移动处理器的基准测试,并发布其结果和芯片哀求以及支持重复利用的其它信息。包括 78 项测试和超过180 个性能方面的基准。
斯坦福大学的DAWNBench为ML Commons的事情供应了支持。这些测试不仅能办理 AI 性能评分问题,还办理了处理器实行 AI 算法演习和推理的总韶光问题。这办理了芯片设计工程目标的一个关键问题,即降落整体拥有本钱或总拥有本钱。AI 处理韶光,决定了云端 AI 租赁或边缘打算的芯片所有权,对付组织的整体 AI 芯片策略更有用。
另一种盛行的基准测试方法,是利用常见的开源图形和模型,但这些模型也有一些弊端。例如,ResNET-50 的数据集为 256x256,但这不一定是终极运用中可能利用的分辨率。其次,该模型较旧,层数少于许多较新模型。第三,模型可以由处理器 IP 供应商手动优化,但这并不代表系统将如何与其他模型一起实行。除了ResNET-50之外,还有大量可用的开源模型,通过它们可以看到该领域的最新进展,并为性能供应良好的指标。
末了,针对特定运用的定制图形和模型变得越来越普遍。空想情形下,这是对 AI 芯片进行基准测试,以及合理优化以降落功耗和提高性能的最佳方案。
由于SoC开拓者各有不同的目标,有些是运用于高性能领域,有的是用于较低性能的领域,还有的是通用AI领域,以及ASIC领域。对付不知道须要按照哪种 AI 模型进行优化的 SoC,自定义模型和开放可用模型的良好组合,可以很好地指示性能和功耗。这种组合在当今市场中最常用。然而,在 SoC 进入市场后,上述较新的基准测试标准的涌现,彷佛在比较中具有一定的干系性。
边缘AI芯片设计之前的评估尤为主要
现在越来越多的数据打算在边缘发生,鉴于边缘优化的繁芜性,当今的 AI 办理方案必须协同设计软件和芯片。为此,它们必须利用精确的基准测试技能,同时还必须有工具支持,从而使设计职员能够准确探索系统、SoC 或半导体 IP 的不同优化办法,调查工艺节点、存储器、处理器、接口等。
在这方面,新思科技可针对特定领域供应有效的工具,来对 IP、SoC 和更广泛的系统进行仿照、原型验证和基准测试。
首先,新思科技HAPS® 原型验证办理方案常日用于展示不同处理器配置的能力和权衡。该工具能够检测出除了处理器之外, AI 系统的带宽在什么情形下开始成为瓶颈?传感器输入(通过 MIPI)或存储器访问(通过 LPDDR)在处理不同任务时的最佳带宽是多少?
再一个,新思科技ZeBu® 仿真系统可用于功率仿照。ZeBu Empower可采取AI、5G、数据中央和移动SoC运用的真实软件事情负载,在数小时内完成功耗验证周期。此仿真系统已被证明优于 AI 事情负载的仿照和/或静态剖析。
用户还可以通过新思科技的 Platform Architect 探索 SoC 设计的系统层面。Platform Architect 最初用于内存、处理性能和功耗探索,最近越来越多地用于理解 AI 的系统级性能和功耗。利用预构建的LPDDR 、ARC处理器模型用于 AI、存储器等,可以进行灵敏度剖析,以确定最佳设计参数。
新思科技拥有一支履历丰富的团队,卖力开拓从 ASIP Designer 到 ARC 处理器的 AI 处理办理方案。包括内存编译器在内的经由验证的根本 IP 产品组合已广泛运用于 AI SoC。AI 运用的接口 IP 范围从传感器输入到 I3C 和 MIPI,再到通过 CXL、PCIe 和 Die to Die 办理方案的芯片到芯片连接,以及通过以太网的网络功能。
总结
软件和芯片协同设计已经成为现实,选择精确的工具和专业知识至关主要。新思科技正在利用专业知识、做事和成熟的IP,为客户供应最适宜的方法,在不断变革的情形下优化 AI 芯片。
本文作者
新思科技IP 计策营销经理 Ron Lowman
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第3120内容,欢迎关注。
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装






