量子位 宣布 | "大众号 QbitAI
阿里第一颗芯片出身!
刚刚,云栖大会现场,阿里巴巴集团CTO、达摩院院长张建锋向全场展示了含光800——阿里第一款AI芯片。

为了这款芯片,阿里一年前放下狠话,但谁也没想到一年后即亮相:不仅完成流片,还已在阿里云上正式上线。
这也是阿里平头哥成立以来首款硬件产品,是阿里20年景长史上首款自主研发、流片量产的芯片。
在芯片行业时期变革转关之际,阿里好风凭借力、快速取得打破,节制下一阶段擂台主动权,意义和代价,或许将远超芯片本身。
不过发布现场,张建锋更想强调的是敬畏之心。
他说:“在环球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”
含光800究竟如何?含光之名,依然沿袭平头哥传统,取自神兵宝剑。
“含光”本是上古三大神剑之一,含而不露,光而不耀,正如含光芯片浸染办法——无形却强劲的算力。
详细来说,这是一款云端AI芯片,主打推理,重点运用于视觉场景。
性能方面,冲破现有AI芯片记录,性能及能效比环球第一。
芯片制程12nm,晶体管数量高达170亿个。
在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍。
能效比500 IPS/W,是第二名的3.3倍。
以数据横向比拟,含光800展现性能,是英伟达最新T4 15倍,是运用最广的英伟达P4的46倍——超过去年设计之初吹下的“牛”。
目前,含光800已经率先在阿里内部多个业务场景开启大规模运用。
从视频图像识别、分类、搜索,到城市大脑等,未来还可运用于医疗影像、自动驾驶等领域。
大会现场,张建锋展示了这款芯片的强大性能。
每天新增10亿商品图片的拍立淘商品库,利用含光800识别效率可提升12倍,韶光从传统通用GPU的1小时缩减至5分钟。
还有城市大脑。在城市大脑中实时处理杭州主城区交通视频,须要40颗传统GPU,延时为300ms,利用含光800仅需4颗,延时降至150ms。
阿里方面称,含光800会首先在阿里内部场景业务服役,同时含光800的AI云做事也正式上线,通过阿里云对外供应AI算力,但不会直接以芯片的形式对外售卖。
此前,阿里平头哥连战连捷,过去两个月已经发布了无剑SoC平台和玄铁处理器IP,“让天下没有难造的芯片”,帮助企业降落芯片设计门槛。
现在,作为首款硬件,也是最硬核产品,含光800依然承载平头哥之志,希望通过阿里云AI云做事,让企业随时随地可以享受高性能打算。
而且也意味着阿里平头哥成立一年来,走过了软件架构(处理器IP、SoC平台)到硬件流片的完全流程。
这是阿里造芯,标志性的“交作业”时候。
阿里造芯这一年阿里布局AI芯片,最早曝光于2018年4月。
其后9月云栖大会,阿里宣乐成立平头哥,并且先将“狠话”放下,正在打造一款NPU,架构设计上,性能成果就要比业内最好的AI处理器强大40倍。
此言一出,语惊四座。
然而一年之后的现在——成绩单时候——阿里平头哥确实没有食言。含光800,性能46倍于P4,乃至比最新一代英伟达T4,也有15倍领先。
虽然过程并非完备顺风顺水,但过去一年,“含光”团队不仅完成了从无到有的超过,更是超越了所有人的预期。
全体过程中,含光800团队在软硬件设计上都做了大量事情,例如做架构创新,软件编译器、框架、工具链等,后期还针对INT8数据类型进行了大量优化。
含光800芯片卖力人骄旸透露,这款芯片采取自研架构,针对深度学习中利用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的根本上,通过独特设计的数据访存与流水线处理技能,大大减低了I/O需求和数据的搬移。
芯片同时深度优化了卷积、矩阵乘、向量打算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。
其余,还集成了达摩院算法。针对CNN及视觉类算法深度优化打算、存储密度,可实现大网络模型在一颗NPU上完成打算。
更难能名贵的是,平头哥团队占领了一系列寻衅。
例如如何兼顾性能、良率、功耗等。平头哥在软硬件上充分考虑了这些问题,用最短的韶光完成了芯片的设计、流片全体过程,7个月完成前端设计,之后仅了3个月就成功流片。
骄旸感慨,从传统造芯角度来看,险些是一个不可能完成的任务。但终极,阿里AI芯片团队,还是创下记录,完成寻衅,把不可能变为可能。
这个中,自然有“007”们日昼夜夜的苦功,不过也不容忽略乘风起势的大趋势浸染。
正所谓时来天地同协力,AI时期的专芯专用需求,阿里业务场景加持上风,都是不得不说的核心缘故原由。
NPU:芯片的iPhone时候首先,AI时期的专芯专用需求。
顾名思义,NPU——神经网络处理器便是专门处理深度神经网络算法的芯片,而深度神经网络算法,核心是模拟生物神经网络构造特点,并且最基本特色便是模拟大脑神经元之间通报模式,并对输入的信息进行快速处理。
然而传统通用途理器基于冯诺依曼构造,其存储和运算处理相互分离,如果处理深度神经网络,须要大量读写运行操作,会受到带脱期制,效率较低。
因此以含光800为代表的神经网络芯片,根据神经网络推理运算特色,会设计特定的硬件神经元、高速连接的存储构造以及专用指令集,对内存和打算单元实现高效组织管理,实现单条指令完成多个操作,提高打算效率和内存访问效率。
简而言之,专芯专用,效率更高、本钱更低,相应效益也会更好。
而且另一方面,由于需求明确,运用处景有针对性,比较打造CPU和GPU,打造AI芯片的门槛要低很多。
于是全体行业都在来到一个“iPhone时候”——软件重新定义硬件,场景需求重新定义芯片。
然落后程中最好还能与运用的业务场景结合,不断验证、反馈,迭代,末了在达到目标效果后流片、完成物理实现。
以是当今之势,不仅AI造芯初创公司形成小高潮,而且互联网巨子也纷纭跨界变硬,启动自主AI芯片打造。
但想不想造、有没有能力造,末了造的结果如何……完备是好几个层次,完备是综合实力的比拼。
这也便是为什么,阿里的业务场景上风,会给平头哥首款AI芯片带来加速,也是阿里手握新时期芯片竞争“定命”的缘故原由。
何以一年造出AI芯?实际上,虽然速率快、成果惊人,但阿里AI芯片并非完备“从0开始”。
平头哥创立一年,不过达摩院和阿里各大业务,已在AI算法和软件方面积累很永劫光。
含光800团队透露,基于阿里达摩院的算法以及阿里巴巴集团硬件根本举动步伐多年技能沉淀,是含光800重构芯片软硬件技能栈的窍门所在。
由于AI芯片的差异化设计紧张表示在硬件架构和软件算法上,二者须要高度适配才能发挥芯片的最大代价。
算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完全的算法体系,涵盖语音智能、措辞技能、机器视觉、决策智能等方向,并且取得多个天下领先水平的成果。
硬件方面,阿里巴巴此前已在做事器、FPGA以及存储等领域拥有多年履历,平头哥团队也在体系构造、编译技能等领域拥有深厚的技能储备。
基于这些能力,平头哥完成了算法和硬件之间鸿沟的快速打破。在算法能力之上,自研芯片架构,并且设计了完全软件栈。
而且如此设计理念,效果也吹糠见米。例如功耗是AI芯片行业通病,但平头哥自研架构可大幅减少对内存的访问,在担保极致性能的情形下,能把芯片功耗降到最低水平。
其余,新入局也有新入局的上风。
带队打造含光800的骄旸感慨,半导体巨子搞AI芯片,会有既有开拓者生态的包袱,但阿里平头哥团队目标专一,便是要实现最强算力,把硬件能力完备开释,以构建更大的生态。
过程中也无时不刻展现着阿里业务场景上风、以及组织凝聚力。
而平头哥在架构设计之初,业务场景同事就从需求和履历层面给出了全面反馈,直接帮助厘清了需求。
然后算法加持和验证迭代阶段,达摩院和业务场景也不厌其烦帮助测试、反馈,提交迭代,共同完成了流片前的末了保障。
以是虽然阿里造芯,专门成立了平头哥半导体,但“含光800”从无到有,不只是一个人、一支团队在战斗。
如果你问阿里AI造芯的上风究竟有哪些?
除了有“死活看淡不服就干”的决心,真金白银的投入,业内环球资深人才的招揽……
平头哥首席科学家、阿里巴巴高等研究员元尊,会将详细上风归结为“ABCDE”。
A:Algorithm,算法,阿里本身的技能储备和AI实力,在算法方面有天下领先的积累。B:Big Data,大数据,弘大的生态场景和覆盖方方面面的业务,在数据质和量方面都有上风。C:Computing,安全稳定的打算力,阿里云的市场龙头和领先地位,就已能解释统统。D:Domain knowledge,专业领域知识,阿里本身并非只是一家一业的公司,而是几十家公司的凑集体、经济体,有各种各样的全面运用处景,对付各项最新技能和产品,有最天然的运用根本。E:Ecosystem,生态。比起传统芯片半导体公司,阿里生态涵盖之广泛、能力之多元和运用前景,都是综合实力的表示。元尊认为,拥有“ABCDE”的阿里,比光有C的其他芯片公司,自然更随意马虎更快速站上AI芯片C位。
而且这种“ABCDE”,一方面帮助造芯,另一方面还帮助用芯。
阿里AI芯片商业模式在阿里内部,由于丰富的场景需求和业务体量,对高性能AI算力的需求已非一日。
电阛阓景中,拍立淘等新兴购物办法涉及的图片搜索,须要AI芯片。
还有文娱场景,优酷视频修复、剖析,也须要AI实现。
还有阿里正在大规模落地推进的城市大脑等,如各种车辆进行检测、跟踪、特色提取、属性检测等,也都离不开更强算力加持。
未来,在医疗和自动驾驶等主要垂直领域,更是空间广阔、商业前景潜力十足。
单自主芯片自用,就已效益显著。
更何况阿里云的地位和实力,也能让AI算力通过阿里云赋能更多领域、更多企业。
以是这次含光800芯片选择云做事的商业模式,也在情理之中。
阿里方面,则更乐于强调首款AI芯片的商业模式背后,一以贯之的普惠性——平头哥创办的核心理念。
今年起先推出的无剑SoC平台和玄铁处理器IP,都选择了直接开放授权,帮助企业降落芯片设计门槛。
而含光800的普惠性,则表示在通过阿里云AI云做事的形式,让企业随时随地可以享受高性能打算做事。
平头哥下一步在杭州云栖大会期间,也谈到了阿里芯片的下一步。
随着含光800发布,平头哥已集齐了全栈芯片家族:
根本单元处理器IP,C-Sky系列、玄铁系列,为AIoT终端芯片供应高性价比IP;一站式芯片设计平台,无剑SoC平台集成CPU、GPU、NPU等,降落芯片设计门槛;AI芯片,含光800通过AI云做事为AI场景供应高性能算力。这三大产品系列,初步完成了平头哥端云一体的芯片生态。
而接下来,平头哥产品形态,重点将是云端AI演习芯片、端上推理芯片,以及用于阿里云神龙做事器的SoC专用芯片,以知足更多场景的算力需求。
此外,平头哥芯片初步软硬件闭环实现,阿里巴巴在芯片、云和AI三大业务之间的协同关系,也雏形初现。
从时期趋势而言,三者原来便是三位一体。
AI算法逐渐集成到芯片,集成算法的专用芯片能为云做事供应了更强的性能,而云打算本身则加速了AI运用的大规模落地。
过去十年,阿里集中推进、展现成果的是AI和云打算。
现在,平头哥补齐芯片一环,阿里在打算版图中的铁三角形成。
不过中国科技互联网巨子,自然还有野心更大的宏伟蓝图——行业生态和开拓者生态。
此前,玄铁910发布,阿里也明确阐明过,平头哥目标便是打造AIoT时期的根本举动步伐平台,延续从阿里巴巴B2B淘宝支付宝,到阿里云和菜鸟等延续继承的阿里之道。
在这次云栖大会,基于RISC-V架构的玄铁处理器、以及无剑SoC平台也有开拓者案例——如人工智能独角兽云天励飞、老牌芯片商炬芯科技,以及可重构打算芯片领军企业清微智能,都将现场亮相。
当然,既然AI芯片是一次软硬件一体化的完备重构,那么在软件栈和模型框架方面,阿里一定也不会袖手旁观。
最明显的旗子暗记,莫过于重磅引入的Caffe之父贾扬清。
One more thing:含光末了,阿里首款AI芯片,取名依然寓寄深远。
“含光”之名,来自《列子·汤问》,是上古名剑,也是商天子三剑之首。
“视不可见,运之不知其所触,泯然无际,经物而物不觉。”
这把剑模糊发光,如光如影如风,快到看不见,无形、无处不在,无往不利。
平头哥团队阐明说,这是含光800团队内部投票的结果。
既希望传达该款NPU的能力,也展现平头哥首款硬件初入芯片领域的心态——在英特尔和英伟达等巨子面前,还是“年轻人”,造芯重器,心怀敬畏。
不过,含光800面世,依然是阿里和平头哥历史性的主要一步。
阿里刚刚度过了20周岁生日,这一个20年完成了“让天下没有难做的买卖”。
接下来20年,能实现“让天下没有难造的芯片”的大胆梦想吗?
不知道。
眼下只知道含光初立,一剑光寒十四州,迈出万里长征第一步。
— 完 —
诚挚招聘
量子位正在招募编辑/,事情地点在北京中关村落。期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位"大众年夜众号(QbitAI)对话界面,回答“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技能和产品新动态