首页 » 互联网 » 百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子

百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子

南宫静远 2024-12-18 05:58:52 0

扫一扫用手机浏览

文章目录 [+]

量子位 出品 | "大众年夜众号 QbitAI

△ 百度阐明了FPGA上AI和数据剖析事情负载的情形

百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子 百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子 互联网

刚刚在加州Hot Chips大会上,百度发布XPU,这是一款256核、基于FPGA的云打算加速芯片
互助伙伴是赛思灵(Xilinx)。
百度也在这次的大会上,透露了关于这款芯片的更多架构方面的细节。

百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子 百度宣告XPU芯片:基于FPGA加速AI云计算_内核_量子 互联网
(图片来自网络侵删)

过去几年,百度在深度学习领域,尤其是基于GPU的深度学习领域取得了不错的进展。
而且,百度也在开拓被称作XPU的新处理器。

百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于打算密集型、基于规则的任务,同时确保效率、性能和灵巧性的最大化。
本日,他在Hot Chips大会上与来自FPGA厂商Xilinx的人士一同发布了XPU。

△ 百度去年宣告采取Xilinx Kintex UltraScale FPGA加速数据中央的额机器学习运用

XPU的目标是在性能和效率之间实现平衡,并处理多样化的打算任务。
FPGA加速器本身很善于处理某些打算任务,但随着许多小内核交织在一起,多样性程度将会上升。

欧阳剑表示:“FPGA是高效的,可以专注于特定打算任务,但缺少可编程能力。
传统CPU善于通用打算任务,尤其是基于规则的打算任务,同时非常灵巧。
GPU瞄准了并行打算,因此有很强大的性能。
XPU则关注打算密集型、基于规则的多样化打算任务,希望提高效率和性能,并带来类似CPU的灵巧性。

目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。
到目前为止,XPU尚未供应编译器。
不过欧阳剑表示,该团队将会很快开拓一款编译器。

欧阳剑还表示

为了支持矩阵、卷积,以及其他大大小小的内核,我们须要一个配备高带宽低延时内存,以及高带宽I/O接口的大型数学阵列。
FPGA中XPU的DSP单元供应了并行处理能力,片外DDR4和HBM接口优化了数据传输,而片上SRAM则供应了必要的存储特性。

在Micro Benchmark测试中,对付打算密集型、常规内存访问的打算任务,XPU的效率与x86内核类似。
对付数据同步的打算任务,XPU的可扩展性应该可以进一步优化。
而对付没有数据同步的打算任务,XPU的可扩展性与核心数量呈线性关系。

这便是问题所在。
如前所述,XPU仍旧没有配备编译器。
这款处理器在FPGA上实现,通过订制的逻辑电路供应指令。
这些小核心类似于CPU,开拓者只能利用汇编措辞,而所有的实行都由主机来掌握。
全体流程包括拆分打算任务,编写XPU代码,调用专用的逻辑函数,从而在Linux平台上进行编译和运行。

△ XPU具有256个内核,集成了一个共享内存用于数据同步。
所有内核都运行在600MHz。

欧阳剑称:“在百度,我们利用FPGA已有多年韶光。
我们的数据中央、云打算平台和自动驾驶项目中有大量FPGA。
我们非常理解FPGA的优缺陷,以及如何优化。
凭借XPU的大型核心,我们专注于多样化的打算任务。

去年有媒体宣布了基于百度深度学习SDA的SQL加速器。
当时的数据流基于SA架构。
根据欧阳剑的描述,这也是XPU内存带宽和延时上风的核心。

欧阳剑同时展示了今年完成的一些benchmark测试,但信息非常粗略。
不过,这只是百度第一次公开展示XPU。

如果XPU被证明可以用于AI、数据剖析、云打算和无人驾驶,那么百度可能须要用ASIC技能去开拓XPU。

— 完 —

诚挚招聘

量子位正在招募编辑/,事情地点在北京中关村落。
期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位"大众年夜众号(QbitAI)对话界面,回答“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技能和产品新动态

标签:

相关文章