NVIDIA宣布推出TensorRT 6
2019年09月17日 由 KING 发表
470293
0
今天,NVIDIA发布了TensorRT 6。
NVIDIA TensorRT是一个高性能深度学习计算平台。它包括深度学习计算优化器和运行加速器,可以为深度学习计算应用程序提供低延迟和高精度的计算。在TensorRT平台上建立的应用程序比CPU平台的应用程序运算速度快40倍。使用TensorRT,你可以优化在所有主框架中培训的神经网络模型,最后部署到超大规模数据中心或汽车产品平台。
TensorRT构建于NVIDIA的编程模型CUDA之上,使您能够利用CUDA-X AI中的库开发工具和技术,为人工智能,机器学习,高性能计算和图形处理提供基于所有深度学习框架的计算。这次推出的TensorRT 6添加了许多新的功能,如AI会话智能应用、语音识别、医学应用的3D图像分割以及工业自动化中基于图像的处理等。
随着新TensorRT 6的发布,Tensorrt将继续深入拓展其优化层集,为会话式AI应用程序增加其他的功能,支持与框架更紧密集成,为在NVIDIA GPU上部署应用程序铺平道路。
以Transformers(BERT)为基础的双向编码器表在企业生产过程中得到了广泛应用,因为它能够实现高精度的跨应用程序工作。在TensorRT 4中,完成一次Bert-Large计算需要5.8毫秒,而最新发布的TensorRT 6只需要2毫秒就可以完成。
如果像BERT这样的自然语言理解模型能够以极高的速度运行,意味着使用者可以在保证任务质量的同时尽可能的缩短任务时间,提高工作效率,给客户带来更良好的体验。所以对于企业来说,使用了TensorRT 6的同时就代表着可以提高利润。NVIDIA的研究人员还在TensorRT开源REOP中发布了几个新的工具,以便于加速语言(opennmt、bert、jasper)、图像(mask-rcnn、faster-rcnn)和带有TensorRT的推荐程序(ncf)。最新版本的nsight系统工具可用于进一步优化深度学习应用程序。
Tensorrt 6亮点:
在NVIDIA GPU上,通过新的优化,仅需2ms就可以实现精确的bert-large计算。
使用新的API和动态输入形式,轻松加速AI会话智能应用、语音和图像分割应用程序。
通过对动态输入批量大小的支持,有效地加速具有波动计算需求(如在线服务)的应用程序。
通过新的三维卷积层,医疗应用中图像分割的计算速度比CPU快5倍。
通过优化2du-net实现工业自动加速应用。
TensorRT 6可从TensorRT产品页下载。