800億晶體管核彈GPU架構深入解讀，又是“拼裝貨”？

在2022年3月NVIDIA GTC大會上，NVIDIA創始人兼CEO黃仁勛介紹了一款基於全新Hopper架構的H100 GPU，這是英偉達迄今用於加速人工智能（AI）、高性能計算（HPC）和數據分析等任務的最強GPU芯片。

性能比上一代A100高6倍，英偉達Hopper架構是怎麼做到的？

作者 | 陳巍千芯科技

Hopper架構H100 GPU的主要升級

Hopper架構以計算科學的先驅Grace Hopper的姓氏命名。黃教主稱：“Hopper H100是有史以來最大的代際飛躍。H100具有800億個晶體管，在性能上堪稱NVIDIA的“新核彈”。

那麼，“新核彈”的核心是什麼樣的？本文將深入解讀和分析Hopper架構。

Hopper架構的H100與前幾代GPU性能對比

註：Grace Hopper博士是哈佛Mark 1的首批程序員，被譽為編譯語言之母。據稱她發現了計算機程序中的第一個Bug，同時也創造了計算機世界最大的Bug——千年蟲。

01.

Hopper的整體結構拆解

NVIDIA Hopper架構H100芯片採用台積電4nm工藝（N4是台積電N5工藝的優化版），芯片面積為814平方毫米（比A100小14平方毫米）。

H100 Tensor Core GPU的性能規格

Hopper架構可以視為由兩組對稱結構拼接而成。（是不是有點類似我們之前介紹的蘋果UltraFusion架構的拼接思路？不過這裡的GPU還是單片的。回顧蘋果UltraFusion架構可參見《蘋果芯片“拼裝”的秘方，在專利里找到了》文章。）

在頂層拓撲上，Hopper似乎與她的前輩Ampere架構差別不大。圖中的Hopper架構GPU由8個圖形處理集群（Graphics Processing Cluster，GPC）“拼接”組成。

Hopper架構基本結構

外周與多組HBM3封裝在一起（Chiplet技術），形成整個芯片模組——從模組上看又是個“拼裝貨”。片上的每個GPC又由9個紋理處理集群（Texture Processor Cluster，TPC）“拼接”組成。

由PCIe5或SMX接口進入的計算任務，通過帶有多實例GPU（Multi-Instance GPU，MIG）控制的GigaThread引擎分配給各個GPC。GPC之間通過L2緩存共享中間數據，GPC計算的中間數據通過NVLink與其他GPU連接/交換。每個TPC由2個流式多處理器（Streaming Multiprocessor，SM）組成。

Hopper架構的性能提升和主要變化體現在新型線程塊集群技術和新一代的流式多處理器（具有第4代張量核心）。

線程塊集群和帶有集群的網格

Hopper架構中引入了一種新的線程塊集群機制，該機制可以跨SM單元進行協同計算。H100 中的線程塊集群可在同一GPC內的大量SM併發運行，這樣對較大的模型具有更好的加速能力。

02.

新一代流式多處理器SM與FP8支持

Hopper架構的新一代流式多處理器引入了FP8張量核心（Tensor Core）來加速AI訓練和推理。FP8張量核心支持FP32和FP16累加器，以及兩種FP8 輸入類型（E4M3和E5M2）。

流式多處理器SM

與FP16或BF16相比，FP8將數據存儲要求減半，吞吐量翻倍。我們在Transformer引擎的分析中還會看到使用FP8可自適應地提升Transformer的計算速度。

每個SM包括128個FP32 CUDA核心、4個第4代張量核心（Tensor Core）。

進入SM單元的指令首先存入L1指令緩存（L1 Instruction Cache），然後再分發到L0指令緩存（L1 Instruction Cache）。與L0緩存配套的線程束排序器（Wrap Scheduler）和調度單元（Dispatch Unit）來為CUDA核心和張量核心分配計算任務。（註：GPU中最小的硬件計算執行單位是線程束，簡稱Warp。）