1.2 毫秒! 英偉達 TensorRT 8 運行 BERT-Large 推理創紀錄

自今年 5 月份 TensorRT 8-EA 版 (Early Access, 嘗鮮版)發布之後,英偉達終於在本周二發布了 TensorRT 8 的正式版。作為支持英偉達
GPU 平台的深度學習推理框架 ,TensorRT 8 正式版與以往的版本相比,能夠在在 1.2 毫秒內運行全球最廣為採用的基於
transforemer 模型之一 ——BERT-Large,
即將語言查詢推理時間縮短至上一個版本的一半,創下最新記錄,為搜索引擎、廣告推薦和聊天機器人的 AI 模型提供支持。
英偉達官方聲稱 ,TensorRT8 不僅針對 transformer 作出突破性優化,還新增其他兩項關鍵特性,實現 AI 推理方面的突破。

推理時間縮短至 1.2 毫秒,速度提升 1 倍

“AI 模型以指數級的速度增長,很多公司不得不縮減模型大小以追求響應速度。英偉達 2016 年推出的 TensorRT 可以幫助這些企業擴大規模,提升精度。” 英偉達 AI 軟件部的產品管理總監 Kari Briski 回顧 TensorRT 推出的背景時說道。

1.2 毫秒! 英偉達 TensorRT 8 運行 BERT-Large 推理創紀錄

TensorRT 是英偉達自家的深度學習推理框架,在模型推理的過程中,可以將 Pytorch、TensorFlow 等其他框架訓練好的模型轉化為 TensorRT 格式,再使用 TensorRT 推理引擎運行,從而提升這一模型在 GPU 上的運行速度。

因此,支持更多的模型和進一步縮短推理時間,提高推理速度是廣大 AI 軟件開發者對 TensorRT 升級的普遍期望。

2019 年,黃仁勛在 GTC China 上發布 TensorRT 7。 相比於只支持 30 多種模型的 TensorRT 5,TensorRT 7 能夠支持各種類型的 RNN、Transformer 和 CNN, 支持多達 1000 多種不同類型的計算變換和優化,還能讓推理時間縮短至 0.3 秒,為此黃仁勛將其稱之為“我們實現的最大飛躍”。

這次更新的 TensorRT 8 版本,雖然升級“飛躍”程度比不上從 5.0 版本到 7.0 版本的升級,但也有一定程度的更新。

英偉達宣稱 ,TensorRT 8 的各項優化為語言帶來了創紀錄的速度,能夠在 1.2 毫秒內運行全球最廣為採用的基於 transforemer 模型之一 ——BERT-Large, 幫助企業將模型擴大一倍或兩倍,從而提高精度。

落實到具體的應用上,這種推理速度的提升能夠讓對話式 AI 更加智能,交互應用程序的性能也能夠得以提升。

新增兩項核心技術,是推理速度提升的關鍵

在此之前,之所以能夠憑藉 TensorRT 提升模型在英偉達 GPU 上的運行速度,主要得益於 TensorRT 的一系列優化,這些優化包括:

  • 權重與激活精度校準:通過將模型量化為 INT8 來更大限度提升吞吐量,同時保持高精度,力求精度和吞吐量的最大平衡;

  • 層與張量融合:通過融合內核中的節點,優化 GPU 顯存和帶寬的使用;

  • 內核自動調整:基於目標 GPU 選擇最佳的數據層和算法;

  • 動態張量顯存:更大限度減少顯存佔用,並高效地為張量重複利用內存;

  • 多流執行:并行處理多個輸入流的可擴展設計;

簡單而言,就是在力求以低混合精度提升吞吐量的同時,減少計算和內存訪問,合併網絡層。

1.2 毫秒! 英偉達 TensorRT 8 運行 BERT-Large 推理創紀錄

而在 TensorRT 8 版本中,英偉達又新加入兩個關鍵特性,以實現 AI 推理方面的突破。

其一是稀疏性。TensorRT 8 中使用稀疏性技術,在保證精度推理的同時,降低深度學習模型中的部分權重,減小模型所需要的帶寬和內存,在提升效率的同時使開發者能夠通過減少計算操作來加速神經網絡。

這項技術能夠幫助 NVIDIA Ampere 架構 GPU 得到性能上的提升。

其二是量化感知訓練。開發者能夠使用訓練好的模型,以 INT8 精度運行推理,且不會造成精度損失,大大減少計算和存儲成本,在 Tensor Core 核心上實現高效推理。

TensorRT 誕生第五年,下載次數近 250 萬次

推理模型上的速度優勢讓 TensorRT 廣受歡迎。五年來,已有來自醫療、汽車、金融和零售等各個領域的 27500 家企業,超過 25 萬名開發者下載使用 TensorRT, 累計次數近 250 萬次。

1.2 毫秒! 英偉達 TensorRT 8 運行 BERT-Large 推理創紀錄

GE 醫療是 TensorRT 的使用者之一,他們用 TensorRT 助力加速早期檢測疾病的關鍵工具——超聲波計算機視覺創新,使臨床醫生能夠通過其職能醫療解決方案提供方最高質量的護理。

GE 醫療心血管超聲首席工程師 Erik Steen 表示:“臨床醫生需要花費寶貴的時間來選擇和評估超聲圖像。在 Vivid Patient Care Elevated Release 項目的研發過程中,我們希望通過在 Vivid E95 掃描儀上實施自動心臟視圖檢測,使這一過程變得更加高效。心臟視圖識別算法將選擇合適的圖像來分析心壁運動 。TensorRT 憑藉其實時推理能力,提高了視圖檢測算法的性能,同時縮短了我們研發項目的產品上市時間。”

開源 AI 技術的領導者 Hugging Face 也在同英偉達展開密切合作,其產品總監 Jeff Boudier 表示,通過 TensorRT 8,Hugging Face 在 BERT 上實現了 1 毫秒的推理延遲,十分期待能在今年晚些時候為客戶提供這一性能。

目前 ,TensorRT 8 已經全面上市,且面向英偉達計劃開發者成員免費提供,用戶能夠從TensoRT GitHub 庫中獲得最新版本插件、解析器和樣本開放源代碼。

(0)
上一篇 2021-07-21 16:21
下一篇 2021-07-21 16:22

相关推荐