自研VCU視頻轉碼芯片讓谷歌擺脫對高耗低能的英特爾平台的依賴

多年來,英特爾通過與 CPU 集成的視頻編解碼器而長期主導市場。但隨着客戶需求的爆發性增長,這家芯片巨頭的解決方案已顯得愈加力不從心。與此同時,許多科技企業也在努力換用基於自研芯片的加速方案,比如搜索巨頭 Google 設計的 Argos 視頻轉碼單元(VCU)。

0 Intel Server.jpg

谷歌正在利用自研高效芯片,來替換數千萬顆英特爾 CPU 。

Tom’s Hardware 指出,與通用型的處理器相比,基於定製的專用集成電路(ASIC)往往具有高得多的硬件性能,而谷歌 YouTube 網站後台已經給出了相當積極的反饋。

據悉,用戶每分鐘都會向 YouTube 上傳超過 500 小時各種格式的視頻內容,而谷歌需要將之轉碼成多種分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p),以及高效的數據格式(比如 H.264、VP9 或 AV1),此時就需要相當強大的算力提供支撐。

回顧谷歌歷史,該公司通常有兩種轉碼選項。其一是英特爾的視覺計算加速器(VCA)方案,它包含了三路至強 E3 CPU、內置了 Iris Pro P6300 / P580 GT4e 核顯和先進的硬件編碼器。另一種選項,就是使用基於純軟件編碼的通用型英特爾至強處理器。

3.png

然而谷歌認為,對於新興的 YouTube 工作負載來說,上述兩套方案都已顯得難以為繼。比如 VCA 本身就相當費電,而擴展至強處理器的數量,也無異於大幅增加服務器的總量,意味着額外的功耗與數據中心空間佔用。

一番思索過後,谷歌毅然決定使用內部定製的硬件來支撐未來業務需求。為實現平穩過渡,該公司初代 Argos VCU 並沒有徹底取代英特爾的中央處理器(CPU),因為服務器仍需運行操作系統並管理存儲驅動器和網絡連接。

換言之,谷歌 Argos VCU 在很大程度上更像是一塊依賴於 CPU 的 GPU 加速卡。不過與我們在普通顯卡上見到的流處理器不同,Argos 主要集成了十組 H.264 / VP9 編碼器引擎。

輔以幾個解碼器內核、四通道 LPDDR4-3200 內存控制器(接口位寬為 4 × 32-bit),一個 PCIe 接口、一個 DMA 引擎、以及一個用於調度目的的小型通用內核。

1.png

除了內部設計的編碼 / 轉碼器,其餘大多數 IP 都源於直接的第三方許可,以降低 Argos VCU 的開發成本。此外每顆 VCU 都搭配了 8GB 的 ECC LPDDR4 內存。

谷歌的主要設計理念,就是將儘可能多 的高性能編碼 / 轉碼器放入單個芯片、併兼顧良好的節能特性,然後將 VCU 的數量與所需的服務器數量分開擴展。

通過在一款擴展卡 PCB 板上安置兩顆 VCU,然後在每台雙路至強服務器上安裝 10 張 Argos 加速卡,谷歌就能夠極大地提升每列機架的總體編碼 / 轉碼性能。

與英特爾 Skylake 服務器系統相比,谷歌 VCU 平台在計算效能 / 總體擁有成本(TCO)方面實現了高達 7 / 33 倍的改進(分別針對 H.264 / VP9 編碼而言)。

2.png

對比英特爾 CPU + 三年運營運營費用,VCU 方案毫無疑問地成為了谷歌旗下 YouTube 流媒體視頻服務的首選。

從官方分享的性能數據來看,單個 Argos VCU 的 H.264 轉碼性能,僅比基於雙路 Intel Skylake 服務器的平台略快一些。

但考慮到谷歌能夠在同樣大小一台服務器內塞下多達 20 張 VCU 加速卡,谷歌自研方案毫無疑問地具有顯著的效率優勢。

至於要求更高的 VP9 編解碼器,谷歌 VCU 方案也是英特爾雙路至強平台的五倍速。如此出眾的表現,着實讓人刮目相看。

4.png

一些分析師認為,谷歌或可將 400 ~ 3300 萬顆 Intel 處理器換成自家的 VCU 。

但除了視頻轉碼,這家搜索巨頭旗下還有許多其它業務,因此對於 AMD / Intel 處理器的採購需求已讓相當旺盛,除非該公司的數據中心 SoC 可在數年時間內準備就緒。

有趣的是,在谷歌展示第二代 Argos 加速卡的同時,英特爾也沒有停下在 GPU 領域的研髮腳步。比如該公司基於 DG1 Xe-LP 的 4-Tile SG1 加速卡,就能夠為多達 12 / 28 路 4K 60fps 視頻流提供轉碼和解碼支撐。

(0)
上一篇 2021-06-04 17:34
下一篇 2021-06-04 17:54

相关推荐