TACC借助 Horizon 系統探索高性能計算混合精度與 FP64 仿真技術
如果想在高性能計算(HPC)仿真與建模領域測試某個想法,并觀察其對各類科學應用的影響,得克薩斯大學奧斯汀分校的得克薩斯高級計算中心(TACC)或許是最佳選擇。這里是美國國家科學基金會(NSF)旗艦級超級計算機的部署地,因此各類應用程序全年無休地在此運行。
現有的 “Frontera” 系統于 2019 年 9 月投入使用,是一臺純 CPU 架構超級計算機,由 8368 個雙路至強(Xeon)節點組成,共計 468608 個核心,峰值性能達 38.75 拍字節浮點運算 / 秒(petaflops)。Frontera 系統中設有一個搭載液冷英偉達(Nvidia)GPU 節點的分區,該分區以 3.5 拍字節浮點運算 / 秒的性能,測試國家科學基金會相關程序的 GPU 加速效果。這些國家科學基金會程序的應用范圍涵蓋天體物理學、量子力學、材料科學、藥物設計及氣候建模等多個領域。每年,有超過 100 個大規模、計算密集型應用程序在 Frontera 系統上運行,其中許多應用程序能夠充分利用該系統的全部性能。
2023 年 11 月,TACC 做出了向 GPU 加速轉型的明確決策,推出了 “Vista” 超級計算機。該系統旨在銜接已顯老舊的 Frontera 與性能將大幅提升的 “Horizon” 系統 —— 后者作為國家科學基金會的新一代旗艦級超級計算機,最初預計于 2026 年投入使用。Vista 系統于 2023 年末啟動部署,2024 年夏季交付使用。正如我們所預期的,該系統確實預示了 TACC 在 Horizon 系統上所依賴的 CPU 與 GPU 混合架構未來。Vista 系統包含 256 個純 CPU 節點和 600 個 CPU-GPU 混合節點,在不同數值精度下的 CPU 與 GPU 性能均表現不俗:
TACC 超級計算機 | Ranger | Stampede | Stampede-2 | Frontera | Stampede-3 | Vista | |
部署年份 | 2008 | 2012 | 2017 | 2019 | 2023 | 2024 | 2026 |
純 CPU 節點 | 3936 | 6400 | 1736 | 8008 | 1848 | 256 | 4752 |
CPU 核心數 | 62976 個 * 2.3GHz 皓龍(Opteron)核心 | 102400 個 * 2.7GHz 至強(Xeon)E5-2680 v2 核心 | 166656 個 * 2.1GHz 至強(Xeon)8160 v3 核心 | 468608 個 * 2.7GHz 至強(Xeon)E5-2620 v4 核心 | 131712 個 * 不同主頻的至強(Xeon)核心 | 36864 個 * 3.1GHz 格蕾絲(Grace)核心 | 836352 個 * 3.64GHz 維拉(Vera)核心 |
FP64 性能 | 579.4 太字節浮點運算 / 秒(teraflops) | 2.1 拍字節浮點運算 / 秒(petaflops) | 5.2 拍字節浮點運算 / 秒(petaflops) | 38.7 拍字節浮點運算 / 秒(petaflops) | 7.9 拍字節浮點運算 / 秒(petaflops) | 1.8 拍字節浮點運算 / 秒(petaflops) | 131.8 拍字節浮點運算 / 秒(petaflops) |
CPU-GPU 混合節點 | - | - | - | 108 | 20 | 600 | 2016 |
混合節點 CPU 核心數 | - | - | - | 4752 個 * 2.0GHz Power9 核心 | 2240 個 * 1.9GHz 至強(Xeon)Max CPU 核心 | 43200 個 * 3.44GHz 格蕾絲(Grace)核心 | 145152 個 * 3.44GHz 格蕾絲(Grace)核心 |
GPU 數量 | - | - | - | 448 個 * 英偉達(Nvidia)V100 | 80 個 * 英特爾(Intel)Max GPU | 600 個 * 英偉達(Nvidia)H100 | 4032 個 * 英偉達(Nvidia)B200 |
FP64 性能(CPU+GPU) | - | - | - | 3.5 拍字節浮點運算 / 秒(petaflops) | 2.1 拍字節浮點運算 / 秒(petaflops) | 2.3+40.8 拍字節浮點運算 / 秒(petaflops) | 6.9+161.28 拍字節浮點運算 / 秒(petaflops) |
FP16 性能(稀疏計算) | - | - | - | - | - | 1.183 艾字節浮點運算 / 秒(exaflops) | 20.16 艾字節浮點運算 / 秒(exaflops) |
FP8 性能(稀疏計算) | - | - | - | - | - | 2.375 艾字節浮點運算 / 秒(exaflops) | 40.32 艾字節浮點運算 / 秒(exaflops) |
FP4 性能(稀疏計算) | - | - | - | - | - | - | 80.64 艾字節浮點運算 / 秒(exaflops) |
CPU - 協處理器節點 | - | 6880 | 4200 | 90 | - | - | - |
協處理器節點 CPU 核心數 | - | - | - | 2880 個 * 2.1GHz 至強(Xeon)E5-2620 v4 | - | - | - |
協處理器數量 | - | 6880 個 * 1.1GHz 至強融核(Xeon Phi)7120P | 4200 個 * 1.4GHz 至強融核(Xeon Phi)7250 | 360 個 * 英偉達(Nvidia)RTX 5000 | - | - | - |
FP64 性能(CPU + 協處理器) | - | 7.1 拍字節浮點運算 / 秒(petaflops) | 12.8 拍字節浮點運算 / 秒(petaflops) | 0.063 拍字節浮點運算 / 秒(petaflops) | - | - | - |
總 FP64 性能 | 579.4 太字節浮點運算 / 秒(teraflops) | 9.2 拍字節浮點運算 / 秒(petaflops) | 18.0 拍字節浮點運算 / 秒(petaflops) | 42.3 拍字節浮點運算 / 秒(petaflops) | 10 拍字節浮點運算 / 秒(petaflops) | 43.1 拍字節浮點運算 / 秒(petaflops) | 300 拍字節浮點運算 / 秒(petaflops) |
性能提升幅度 | - | 15.9 倍 | 1.96 倍 | 2.35 倍 | - | - | 7.1 倍 |
值得關注的是,TACC 執行董事丹?斯坦齊奧內(Dan Stanzione)向《The Next Platform》透露,早在 2021 年,TACC 就已與英偉達及戴爾(Dell)達成 Horizon 系統相關協議。因此,從某種程度上說,Horizon 系統選用的 GPU 早已確定 —— 將采用 “Hopper” 系列 H100 和 H200 之后的 “Blackwell” 數據中心 GPU,而非后續的 “Rubin” GPU 加速器。盡管按照英偉達的計劃,Rubin GPU 加速器將于 2026 年底推出(有跡象表明,“Vera” CV100 Arm 處理器和 Rubin R200 GPU 加速器均能按時在 2026 年下半年交付)。
由于美國國家科學基金會的預算周期與英偉達的產品周期難以同步,Horizon 系統無法等待 Rubin GPU。這也是 Horizon 系統的 CPU-GPU 混合部分采用 2016 個節點的原因 —— 每個節點配備 1 顆 72 核心的 “Grace” CG100 Arm 處理器和 2 塊 Blackwell B200 GPU。據我們計算,這些 Grace CPU 的 FP64 性能達 6.9 拍字節浮點運算 / 秒,Blackwell GPU 的 FP64 性能則為 161.3 拍字節浮點運算 / 秒。
對于 TACC 計劃開展的混合精度浮點運算研究(該研究始于 Frontera 系統,在 Vista 系統上進一步推進)而言,至關重要的一點是:這些 Blackwell GPU 在 FP16 精度下的性能略超 20 艾字節浮點運算 / 秒,FP8 精度下略超 40 艾字節浮點運算 / 秒,FP4 精度下則接近 81 艾字節浮點運算 / 秒(下文將詳細介紹)。
由于仍有大量美國國家科學基金會的工作負載需在 CPU 上運行,設置純 CPU 分區同樣必要。因此,Horizon 系統包含一個基于 Vera CV100 處理器的分區,該處理器擁有 88 個核心。通過反向計算我們推測,該分區由 4752 個 Vera-Vera 超級芯片節點組成,這些節點的主頻為 3.64GHz,FP64 總性能達 131.8 拍字節浮點運算 / 秒。
幸運的是,盡管生成式人工智能(GenAI)熱潮導致英偉達 GPU 的市場價格大幅上漲,但英偉達仍履行了 2021 年與 TACC 達成的財務協議。
“這對我們來說是件好事,” 斯坦齊奧內表示,“我們當時并未預料到生成式人工智能會迎來如此爆發式增長,但值得稱贊的是,英偉達兌現了承諾,按約定數量和價格為我們提供了 GPU。而戴爾及系統其他部分的成本則大幅上升 —— 我們并未達成類似的固定價格協議,但五年前我們確實為這 4000 塊 GPU 簽訂了固定價格協議,且明確適用于 Blackwell 系列。盡管 GPU 零售價格大幅波動,英偉達仍堅守了與我們的約定。我認為我們的采購成本未必比美國能源部(DOE)下屬實驗室更具優勢,但肯定比 OpenAI 的采購成本更低。”
這無疑是個好消息,為 TACC 點贊!
不過,今年即將部署的 Horizon 系統還有一個令人關注的亮點:TACC 將利用 Blackwell GPU 張量核心中的低精度浮點運算功能,對科學家當前在 TACC 設備上運行的高性能計算仿真與建模工作負載核心的 FP64 計算進行仿真。
“隨著行業發展,電路設計越來越注重低精度運算,我們必須對此進行深入研究,” 斯坦齊奧內解釋道,“我們目前尚未掌握所有相關信息,但我們將先進行原生 FP64 運算測試,之后很可能采用 Ozaki 方案進行 FP64 仿真(除非出現更優方案)。對于所有驗收應用程序,我們將開展驗證流程,對比原生 FP64 運算結果與 Ozaki 方案生成的非完全符合 IEEE 標準的 FP64 運算結果的準確性。但考慮到當前低精度運算的電路資源投入規模,我們預計仿真 FP64 的性能將比原生 FP64 提升 2 至 3 倍。”
斯坦齊奧內補充稱,TACC 將分別以原生 FP64 和仿真 FP64 模式,運行高性能 LINPACK 測試,以參與全球超級計算機 TOP500 排名。這與田納西大學的杰克?東加拉(Jack Dongarra)等人開發的 LINPACK 代碼中的混合精度 HPL 求解器不同 —— 后者可實現 10 倍的性能提升。
我們熱切期待看到實際應用程序在 Blackwell 和 Rubin GPU 上采用 Ozaki 方案的表現,并希望能獲取相關數據,對比采用相同 Ozaki 方案仿真的 “Ampere” 和 “Hopper” GPU 的性能(2012 年發布了關于 Ozaki 方案的原始論文,去年 4 月則發布了一篇關于更新后的 Ozaki FP64 仿真算法的新論文)。
TACC 已通過內部實現的 Ozaki 方案在其 GPU 上進行了初步測試,但斯坦齊奧內表示,針對 Blackwell GPU,TACC 將轉而采用英偉達提供的 FP64 仿真器參考實現。他指出,實際性能將取決于 Blackwell GPU 的帶寬,但采用 Ozaki 方案僅需修改代碼中的 DGEMM 調用(選擇原生或仿真模式)即可。
“如果這種仿真能夠產生科學上可接受的結果,那么無需更換芯片,我們的 FP64 計算成本就能降低 2 至 3 倍,” 斯坦齊奧內滿懷期待地說,“我推測,隨著時間推移,將會出現更多類似 Ozaki 的方案 —— 其中部分方案的性能可能略低,但能滿足 IEEE 64 的所有邊界條件。未來,這些方案可能會被隱藏在微碼中,用戶將無需再關注其實現細節。”
五年前 TACC 與英偉達簽訂 Blackwell GPU 采購協議時,上述這些可能性均未被納入考量。因此,若仿真技術能夠成功落地,這將成為另一項推動科學進步的意外收獲,就像早期與英偉達鎖定 GPU 價格一樣。
英偉達鎖定價格這一舉措的影響不容小覷。Horizon 系統的總預算為 4.57 億美元,其中僅需約三分之一的資金即可覆蓋來自英偉達的計算和網絡設備成本(斯坦齊奧內表示,與 Horizon 系統相連的、來自 VAST Data 的 400PB 閃存存儲是單獨招標采購的)。盡管 Horizon 系統的 FP64 綜合性能約為 300 拍字節浮點運算 / 秒(低于早期規劃階段傳聞的 400 拍字節浮點運算 / 秒),但約 1.6 億美元的采購價格堪稱劃算 —— 這一投入是 Frontera 系統的 2.7 倍,而 FP64 性能卻達到了 Frontera 系統的 7.1 倍。
若僅對比 GPU 引擎性能,Frontera 與 Horizon 系統的差距更為顯著。Frontera 系統的 448 塊 “Volta” V100 GPU 的 FP64 性能為 3.5 拍字節浮點運算 / 秒,而 Horizon 系統的 4032 塊 Blackwell GPU 的 FP64 性能達 161.3 拍字節浮點運算 / 秒 ——GPU 向量核心的 FP64 吞吐量提升了 46.1 倍。在張量核心方面,FP16 精度下的性能達 20.2 艾字節浮點運算 / 秒,且精度每減半,計算吞吐量就翻一番,FP4 精度下的性能可達 80.6 艾字節浮點運算 / 秒。
我們期待 FP64 仿真測試數據的公布 —— 該數據可能顯示,同一臺機器的仿真 FP64 性能可達 320 至 484 拍字節浮點運算 / 秒,經過優化后甚至可能更高,而若追求更高的精度保真度,性能則可能略有下降。




評論