在計算機視覺與模式識別(CVPR)大會上,NVIDIA發(fā)布了TensorRT 4,它能夠加速常見推理應用,如神經(jīng)機器翻譯、推薦系統(tǒng)和語音。用戶還可通過ONNX格式輕松地從常見的深度學習框架(如Caffe 2、Chainer、MxNet、Microsoft Cognitive Toolkit和PyTorch)導入模型。
TensorRT特性包括:
· 借助針對多層感知器(MLP)和遞歸神經(jīng)網(wǎng)絡(RNN)的新層,吞吐量高達CPU的45倍
· 對于TensorRT中使用ONNX解析器導入的ONNX模型,在Tesla V100 GPU上的推理性能相當于僅使用CPU的50倍
· 支持面向自動駕駛汽車的AI計算平臺NVIDIA DRIVE Xavier
· 借助用于在Volta Tensor Core上運行的API,F(xiàn)P16自定義圖層可實現(xiàn)3倍的推理加速
其他功能包括可使用FP16精度執(zhí)行自定義神經(jīng)網(wǎng)絡層,以及通過NVIDIA DRIVE AI平臺支持Xavier SoC。