NVIDIA宣布开源NVIDIA TensorRT推理服务器
2018年11月23日 由 浅浅 发表
226258
0
2018年9月,NVIDIA推出了NVIDIA TensorRT推理服务器,这是一种适用于数据中心推理部署的生产就绪解决方案。TensorRT推理服务器最大化GPU利用率,支持所有流行的AI框架,今天NVIDIA宣布开源NVIDIA TensorRT推理服务器。
开源TensorRT推理服务器将允许开发人员自定义并将其集成到他们的数据中心推理工作流程中。开发人员如何扩展TensorRT推理服务器的示例包括:
- 自定义预处理和后处理:开发人员现在可以更灵活地进行预处理和后处理,让他们可以自定义TensorRT推理服务器,以实现图像增强,功能扩展或视频解码等功能。与单独处理这些任务相比,将处理直接集成到推理服务器可以提高性能。
- 其他的框架后端:TensorRT Inference Server通过ONNX路径支持TensorFlow,TensorRT,Caffe2等,支持所有顶级深度学习框架。现在,开发人员可以自由地将他们选择的其他框架直接集成到推理服务器中,以进一步简化其环境中的模型部署。
为了帮助开发人员,除了API参考文档之外,TensorRT推理服务器文档还包括详细的构建和测试说明。
通过动态批处理提高利用率
NVIDIA将继续与社区一起开发TensorRT推理服务器,以增加新的特性和功能。例如,最新版本包括广泛要求的功能,动态批处理。
在将请求发送到处理之前对其进行批处理可以显著降低开销并提高性能,但需要编写逻辑来处理批处理。使用新的动态批处理功能,TensorRT推理服务器自动组合单独的请求,以动态创建批处理。用户可以控制批量大小和延迟,以根据特定需求调整性能。这消除了在推理服务器之前编写和部署批处理算法所需的工作,从而简化了集成和部署。
开源TensorRT推理服务器允许社区帮助确定产品的方向,并允许用户立即构建特定于其用例的解决方案,同时帮助具有类似需求的其他人。
要了解如何入门,请阅读新的博客文章:devblogs.nvidia.com/speed-up-inference-tensorrt/
代码:github.com/NVIDIA/tensorrt-inference-server