首页 » 科学 » 7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子

7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子

萌界大人物 2024-12-07 03:23:14 0

扫一扫用手机浏览

文章目录 [+]

参与:李泽南、四月

12 月 18 日,在苏州举行的英伟达 GTC CHINA 上,黄仁勋发布了自动驾驶芯片 ORIN。
ORIN 被认为是一款「系统级芯片」,包含 170 亿个晶体管,这款产品或许将为英伟达在 AI 算力上重新霸占领先位置。

7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子 7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子 科学

今年的 GTC 大会议题覆盖了 AI 框架、开拓工具、数据科学、云打算、实时渲染、光芒追踪、以及 5G 通信等等方面。
垂直方向则包含了自动驾驶、智能机器、医疗与金融、设计、工程制造等领域。

7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子 7倍AI算力芯片TensorRT重大年夜更新英伟达GTC新品全介绍_英伟_模子 科学
(图片来自网络侵删)

在 GTC 上,英伟达还发布了全新的 TensorRT 7.0 版,通过全栈优化,延续超越摩尔定律的算力加速。
在过去一年里,英伟达环绕 CUDA 等工具接连发布了 500 多个 SDK 和库,深度学习的演习能力在过去三年内提高了四倍,深度学习的推理在一年内提高了两倍。

最强自动驾驶芯片:性能提升 7 倍

作为英伟达的年度盛会,发布新处理器自然也是必不可少的环节。
英伟达在本日的 GTC 上推出的下一代自动驾驶芯片 NVIDIA DRIVE AGX ORIN 成为了全场大会的焦点。

这款芯片供应的算力可以达到 200TOPS,是此前英伟达自家芯片 Drive Xaiver 的 7 倍,也超过了特斯拉今年推出的自动驾驶芯片 Autopilot Hardware 3.0(144TOPS)。

「ORIN 包含 170 亿个晶体管,8 个核心,性能相称于 Xavier 的 7 倍,」黄仁勋先容道。
「同时它拥有全新的安全特性,可以使 CPU 和 GPU 锁步运行。

在英伟达的路线图中,Orin 系列可以覆盖从 L2 到 L5 的自动驾驶技能,它代表一种新的架构,与已有的 Xavier 兼容,通过与已有软硬件(包括 GPU)的结合,英伟达可以供应效率更高的自动驾驶办理方案。
Orin 系列操持于 2022 年开始投产。

黄仁勋现场宣告,滴滴将在数据中央利用 GPU 演习机器学习算法,并采取 DRIVE 为其 L4 级自动驾驶汽车供应推理能力。

在采访环节,黄仁勋针对 Orin 在自动驾驶场景下的安全性进行了补充阐明。
他表示 Orin 并不是一颗大略的芯片,设计参考数据中央,支持虚拟化,采取运用隔离,足够快的加速引擎将实现所有内存涉及到的打算都进行加密,设置了四把密钥,让每一台车的打算都是唯一的;同时加入防止修改方案。

几年古人们认为,自动驾驶将在 2020 年迎来拐点,ORIN 的推出或许将会加速这一过程的发生。
不过纵然是在自动驾驶以外的领域,英伟达也希望通过自己的技能为造车带来改变。

「我们希望持续不断地提高汽车的自动驾驶和安全性。
纵然是在非自动驾驶汽车上,智能化技能的引入可以像安全气囊和 ABS 这样的功能一样提高安全性,这对付搭客的生命安全都会有益的。
」英伟达汽车奇迹部高等总裁 Danny Shapiro 表示。

「我们的目标不是自动驾驶汽车,而是致力于为环球各家车企供应智能驾驶的算力设备。
我们希望在未来,汽车、卡车、送货机器人都可以拥有完全的自动驾驶能力。
」黄仁勋先容到。

在硬件之外,英伟达还宣告在 NGC 上推出了 NVIDIA DRIVE 预演习模型。
这一次,通过迁移学习,预演习模型可以经由调度适应 OEM 厂商的特定汽车、传感器和地区哀求,更快地支配上路。

当然还有联邦学习。
现在很多公司都希望落地这种方法办理数据隐私问题。
英伟达供应的 Drive Federated Server Global Model 可以供应给每个 OEM 厂商利用,帮助他们提升自己的模型,又结合各自的数据,可以供应彼此的模型水平。

在现场,英伟达还展示了物体操纵机器人 LEONARDO,它可以通过人在现实天下的辅导(交互)很快学会堆叠积木等技能。
通过景深摄像头、GPU 以及虚拟环境 Issac Gym,机器人可以在仅需少量示例的情形下快速学习新技能。

携手腾讯将 PC 游戏带入云端

英伟达推出的光芒追踪技能 RTX 今年正在逐渐被各家游戏厂商,以及专业软件公司所接管。
在本日的 GTC 上,黄仁勋首先先容的还是图形技能的最新运用。
首当其冲的是国民游戏《我的天下》,支持 RTX 渲染的新版 Minecraft 将在 2020 年发布,RTX 将支持其实时的 GI(全局光照)和一样平常反射等灯光效果。

在发布会现场,黄仁勋宣告了 RTX 技能对付一系列国内游戏的支持,个中包括《Project X》、《轩辕剑 7》等等。
此外还有更强大的案例,FYQD 事情室制作的《光明影象:无限》,借助 RTX 技能,只须要一个人就可以构建出完美的 3D 全局光照效果。

在 GTC 上,英伟达宣告了与腾讯互助,推出 START 云游戏做事,将电脑游戏体验引入云端。
业界领先的 GPU 将为全国百万玩家带来更好的游戏体验。
率先支持的游戏将包括《流放之路》、《NBA(2K)》、《FIFA 4》、《炫舞时期》等。

据先容,英伟达的 GPU 技能为腾讯游戏的 START 云游戏做事赋力,该做事已从今年初开始进入测试阶段。
START 使游戏玩家可以随时随地,纵然是在配置不敷的设备上也能玩 AAA 游戏。
腾讯游戏操持将扩展其云游戏产品,为数百万玩家供应与本地游戏设备同等的游戏体验。

在专业领域,英伟达发布了很多新的软件产品。
RTX Studio 面向内容事情者推出 40 余个产品,涵盖从配备 GeForce RTX 2060 的 Max-Q 条记本一贯到配备 4 路 SLI Quadro RTX 8000 的事情站和配备 8 路 RTX 8000 的做事器。

OMNIVERSE 利用 NVIDIA RTX RT 核心,CUDA 核心和支持 Tensor Core 的 AI,实时供应最高质量的照片级真实感图像。
它支持 Pixar 的通用场景描述技能,用于在多个运用程序之间交流有关建模,着色,动画,灯光,视觉效果和渲染的信息。

目前,OMNIVERSE 可以实现多种行业标准图形开拓程序,例如 Autodesk Maya,Adobe Photoshop 和 Epic Games 的虚幻引擎。

现场,英伟达方面展示了 OMNIVERSE AEC 开放式 3D 设计协作平台的强大功能,在配备了 8 路 RTX 8000 的 RTX 做事器上针对深圳华润大厦的实时渲染过程。

「The more you buy,more you save」黄仁勋说道,并推出由 RTX 供应强效助力的端如斯渲染能力,尤其在性能比方面能力突出。
比较 CPU 方面,RXT 方案速率快 12 倍,价格低 7 倍,原来须要花费 485 个小时渲染的场景现在只需不到 40 小时即可完成。

CUDA 开放 ARM 支持

在先容完 RTX 技能的发展之后,黄仁勋先容了英伟达高性能打算。

「在 2030 年,NASA 操持上岸火星,有 6 名宇航员将以每小时 12000km 的速率进入火星大气层,必须精确点火并在 6 分钟内减速并软着陆。
」黄仁勋说道。
NASA 在英伟达 GPU 上通过 FUN3D 流体力学软件运行了数十万次火星着陆场景的仿照,这些事情天生了 150TB 的数据。
这是一项 HPC 的范例寻衅,英伟达表示,这些事情是在 DGX-2 上运行的 Magnum IO GPU Direct Storage 技能完成的。

GPU 还可以进行全基因组测序,通过 CUDA 的帮助,华大基因的生命科学超级打算机目前已经可以实现每天 60 个基因组的吞吐量。
完成这项事情的 BGI MGI-T7 超算体量并不大,只需一个节点。

英伟达推出 Parabricks 基因组剖析工具包,基于 CUDA 加速,供应 DeepVariant 工具,利用深度学习进行基因组变异检测,可实现 30-50 倍的加速,用于创造变异并能产生与行业标准 GATK 最佳实践流程同等的结果。

CUDA 两个新运用,通过和爱立信的互助,CUDA 可以提高 5G RAN 的性能了。
「通过实时运算,我们可以提升 5G 旗子暗记在繁芜空间内的覆盖范围。
」黄仁勋说道。
「5G 的覆盖非常繁芜,我们可以用 GPU 来办理 3D 物理空间内的旗子暗记优化问题。

「险些所有人都有一台 ARM 设备,很多科技巨子也在构建自己的 ARM 芯片,」黄仁勋说道。
「首先它非常强大,其次人们也在构建 Hyper Scale 打算系统,而在这个过程中统一的架构效果是更好的。
」英伟达今年已经开始拥抱 ARM 生态,并对相应架构供应了 CUDA 支持。

「如果说有一个在 HPC 上最主要的运用,那毫无疑问是 TensorFlow 了,」黄仁勋说道。
2.0 版的 TensorFlow 现在已经得到了 ARM 架构的 CUDA 加速。

回看 2012 年,AlexNet 通过办理打算机视觉问题引发了深度学习的爆发。
而在 2018 年,预演习 AI 模型 BERT 可以让打算机学习人类的只是编码,让打算机逐渐学会与人类进行自然对话,为我们阅读文章并总结个中的要点,进而更自然地与我们进行互助。

在这背后,是 GPU 供应的算力,在最近五年来,神经网络的演习速率提升了 300 倍——ResNet-50 网络的演习速率已经从 600 年降落到了仅需 2 小时。

本日,英伟达的 AI 已经覆盖了各行各业,影响了很多人。
自 DGX 演习的神经网络,会在 HGX 做事的云端、EGX 做事的工业终端,以及 AGX 代表的消费端设备为人们带来自动化的便利。

GPU 不仅是软件开拓者演习人工智能模型的主要工具,早已在各大科技公司成为了 AI 背后的算力来源。
在 GTC 上,黄仁勋先容了两家海内科技巨子百度和阿里巴巴对英伟达最新 GPU 的运用案例。

百度推举系统将采取 英伟达 AI,个中 AIBox 推举系统采取 Wide and Deep 构造。

百度弘大的用户潜在兴趣数据包含了千亿维稀疏离散特色和 10TB embedding 词表,100 多个推举模型被利用在百度的浩瀚运用中,这些模型每周都会更新,它们学习用户的潜在兴趣,新的条款和特色。
「演习这些模型的 GPU 本钱只有 CPU 的 1/10,并且支持更大规模的模型演习」。
黄仁勋说道。

「双十一是全宇宙最神奇的节日,在这一天有 20 亿商品的销量,5 亿人次的销量,他们那天都不事情吗?」黄仁勋说道。
通过英伟达 GPU 的帮助,阿里巴巴实现了每秒几十亿次的推举要求。
这个要求的数量,即利用手环球的所有 CPU 都无法实现。

TensorRT 7.0 加入 BERT 专属优化

英伟达的 TensorRT 是对 GPU 加速的高性能深度学习库,可对各种深度学习算法带来高速率、低延迟的优化,这款产品支持所有主流深度学习框架。

在 18 日的大会上,英伟达发布了 TensorRT 的最新一代 7.0 版,加入了对 BERT、RoBERTa、Tacotron 2 等大量新模型的加速支持。
TRT 7 能够领悟水平和垂直方向的运算,可以为开拓者设计的大型 RNN 配置自动天生代码,逐点领悟 LSTM 单元,乃至可以跨多个韶光步上进行领悟,并在这个过程中进行自动低精度推理。

总而言之,TensorRT 7 实现了 1000 多种不同的打算变换和优化。
「这是一个巨大的飞跃。
它可以最大程度地利用显存,提高效率,」黄仁勋说道。

最为直不雅观的优化是什么呢?英伟达先容了 TensorRT 7 可以带来实时的交互 AI 的体验:在支持交互是绘画 AI 上,一套端到端流程可能须要20-30种不同 AI 模型组成,个中包括很多不同的模型构造,从 CNN、RNN、transfomer、再到自编码器、MLP。
通过新版的 TensorRT,我们可以对所有模型进行编译优化,在 ASR、NLU&TTS 上延迟小于 300ms,比较 CPU 速率提升 10 倍。

英伟达认为,从 AI 云到智好手机的智能化体系,本日已经触及各行各业,以及数十亿人。
「现在是所有行业享受智能革命的时期了,」黄仁勋说道。

末了,在这次 GTC 上,英伟达没有对旗下 GPU 产品进行制程上的更新。
对此黄仁勋向机器之心表示:「制程是很主要的,但是它不是最主要的。
在最近两年里我们让 AI 的算力提升了四倍,仅仅依赖制程提升这是不可能做到的。
在 GPU 的天下里,性能提升的办法和 CPU 思路不同。
如 RTX 系列芯片和光芒追踪技能,在 12nm 制程上达到了 AMD 7nm 制程 GPU 的性能。
在加速打算的领域中,想要让芯片达到最高效率,算法、架构、软件运用须要共同协力。
英伟达的架构不同于其他品牌架构。

关于英伟达在深度学习领域最主要的产品 Tesla V100,黄仁勋表示非常满意,但没有透露其迭代或升级操持。
他表示,「当你利用智好手机的过程中,一定能够和 V100 产生触点关系,无论是推举打算还是机器人对话」。
他透露,在过去一个季度里,Tesla V100 的销量超过了历史记录。

标签:

相关文章

IT应知应会,新时代IT人才的必备素养

随着信息技术的飞速发展,IT行业已成为我国经济的重要组成部分。在这个时代,掌握一定的IT知识已经成为每个职场人士的基本素养。本文将...

科学 2024-12-27 阅读0 评论0

IT广州李彬,创新引领未来,技术赋能发展

在信息时代的大潮中,广州这座千年商都正焕发出新的生机。作为我国南方重要的科技、商贸和文化中心,广州正以开放的姿态拥抱全球,其中,I...

科学 2024-12-27 阅读0 评论0