Nvidia推出新一代推論開發軟體TensorRT 8,用於BERT-Large模型最佳化推論只要1.2毫秒

Nvidia 7月20日發布了新一代的深度學習推論軟體開發套件TensorRT 8,比起前一代TensorRT 7,TensorRT 8能將推論時間縮短一半、推論準確性提升一倍,Nvidia宣稱,以TensorRT 8最佳化超大Transformer模型BERT-Large,並部署在V100上執行,只要1.2毫秒就能完成推論,比TensorRT 7快2.5倍。而大幅提升效能的關鍵,就是TensorRT 8套件中的稀疏性(Sparsity)與量化感知訓練(Quantization aware training,QAT)兩大功能,前者透過減少運算來加速推論,後者則讓模型能以INT8精度來進行推論,卻不會損失推論的準確性(accuracy)。

臉書留言

胡 自文

(這個頁面共進入 8 次, 今天進入 1 次)