NVIDIA发布TensorRT 4,极大加速神经机器翻译
2018年07月19日 由 浅浅 发表
233155
0
NVIDIA发布了TensorRT 4,其新功能可加速GPU上神经机器翻译(NMT)应用的推断。
神经机器翻译为大量消费应用提供基于AI的文本翻译,包括网站,道路标志,外语字幕等。
TensorRT是NVIDIA的可编程推理加速器,可帮助优化和生成运行时引擎,以便将深度学习推理应用程序部署到生产环境中。谷歌的神经机器翻译(GNMT)模型与仅使用CPU的平台相比,使用TensorRT在Tesla V100 GPU上的推理速度提高了60倍。
新的TensorRT 4版本支持新的RNN层,如Batch MatrixMultiply,Constant,Gather,RaggedSoftMax,Reduce,RNNv2和TopK。这些层允许应用程序开发人员使用TensorRT轻松加速NMT模型中计算密集程度最高的部分。
NMT详细示例图。编码器、发电机和波束调整作为三个TensorRT引擎。在橙色缓冲区中,由用户分配。在GPU和CPU上分别实现绿色和蓝色的层。
在性能方面,当在数据写入器基准测试组件上测试光束搜索时,系统在batch= 1的推理期间执行的速度比仅用CPU快170倍,比batch= 64的速度快100倍。
NVIDIA的可编程推理加速器TensorRT帮助优化和生成运行时引擎,将深度学习推理应用部署到生产环境中。
与只使用cpu的平台相比,GNMT模型在特斯拉V100 GPU上使用TensorRT的速度更快。