Nvidia推出Tesla T4 GPU芯片等新产品,性能大突破

2018年09月14日 由 浅浅 发表 892480 0
Nvidia推出Tesla T4 GPU芯片,TensorRT 5和TensorRT推理服务器,Jetson AGX Xavier开发人员套件

Nvidia首席执行官Jensen Huang在日本GTC会议上的演讲中宣布了一系列消息,包括推出Tesla T4 GPU芯片,最新版本的TensorRT 5和TensorRT推理服务器,以及Jetson AGX Xavier开发人员套件。

Tesla T4 GPU芯片


Nvidia今天推出了Tesla T4 GPU芯片,以加速数据中心深度学习系统的推理。T4 GPU采用2560个CUDA内核和320个Tensor内核,处理查询的能力比CPU快近40倍。

作为推动深度学习市场的一部分,两年前Nvidia首次推出专为部署AI模型而制造的Tesla P4芯片。在语音识别推理中,T4比其P4快5倍以上,在视频推理上快3倍。

Nvidia的分析发现,在过去两年中使用P4进行的所有推断中,将近一半与视频有关,其次是语音处理,搜索,自然语言和图像处理。

与基于Pascal的P4不同,T4 采用用于GPU的Turing Tensor Core,这种架构有望为一系列Nvidia芯片提供动力,Huang称之为“自2006年CUDA GPU发明以来的最大飞跃”。

TensorRT 5和TensorRT推理服务器


TensorRT 5支持新的图灵架构,新的优化和INT8 API,与仅使用CPU的平台相比,其推理速度提高了40倍。

这个最新版本大大加快了推荐器,神经机器翻译,语音和自然语言处理应用程序的推理。

TensorRT 5亮点:

  • 对于诸如使用Turing Tensor Cores上的混合精度进行平移的模型,可以将CPU推断速度提高40倍

  • 使用新的INT8 API优化推理模型

  • 支持基于Xavier的NVIDIA驱动器平台和用于FP16的NVIDIA DLA加速器


TensorRT 5将面向NVIDIA开发人员计划的成员。

TensorRT推理服务器是一种容器化微服务,可最大化GPU利用率,并在节点上同时运行来自不同框架的多个模型。它利用Docker和Kubernetes无缝集成到DevOps架构中。

Jetson AGX Xavier


Jetson AGX Xavier能够通过512核集成Volta Tensor Core GPU和双深度学习加速器(DLA)引擎提供高达32 TeraOPS(TOPS)的计算性能。

Jetson AGX Xavier在可部署的节能模块中提供与GPU工作站类似的性能,非常适合将资源密集型自主功能引入智能平台。它为边缘化处理提供了全新的机器人和其他自动化机器,用于制造,零售,医疗保健等。凭借10W,15W和30W之间的用户可配置工作模式,Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上,性能高出20倍。

Jetson AGX Xavier开发套件现已上市,售价为2499美元。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消