這次,較小的高性能計算中心推動了前500超級計算機排名的前列
在過去兩年里,我們一直在剖析被稱為Top500的超級計算機半年排名,采用另一種方式,重點關注每年六月或十一月進入各榜單的新機型。我們認為,這讓我們了解人們目前購買超級計算機時的做法,而不僅僅是僅僅關注那些通過高性能LINPACK(HPL)基準測試提交基準測試的五百臺機器。
這是自2024年6月以來最弱的榜單,當時我們首次以這種方式分析Top500,包括新機器和核心和Rpeak flop的整體表現。不過,這并不算糟糕。只是名單上沒有太多新的大型機器,就像2024年6月時一樣。這是升級周期和融資周期的一部分,而在生成式AI出現之前,這兩者聯系更緊密,傳統高性能計算不再是主導者。
我們認為傳統的高性能計算(HPC)能做更多實際工作,即使美國和歐洲實行核武器管理,從長遠來看,破壞力也比人工智能低。
自2025年6月榜單鎖定以來,已有45臺新機器啟動,運行了HPL基準測試,并提交了結果給Top500組織。這并不意味著過去五個月全球只安裝了45臺相對較大的超級計算機。有很多機器不提交HPL測試結果——尤其是中國國家實驗室和伊利諾伊大學國家超級計算應用中心的集群都抵制Top500——即使它們確實在系統調試中運行了測試。Top500是一個重要的指標和數據集,但它絕不能涵蓋整個高性能計算市場。

這45臺新加入Top500名單的機器擁有648萬個核心——包括GPU上的流式多處理器和CPU核心——峰值總性能為1.48億億次浮點運算。2025年6月,名單新增容量大約是2025年的兩倍,2024年11月則因美國國家實驗室HPC系統管理權的更替,新增容量幾乎是其三倍。我們之前已經寫過所有這些機器,不會再詳細介紹這些系統的供電和速度。你可以自己閱讀列表以了解詳情。
不那么明顯的是,名單上最新的機器——由軟銀安裝的CHIE-4系統——是最大的新系統,但它在名單中僅排名第17位。KAUST的Shaheen-III GPU分區是本次僅新增的五個英偉達CPU-GPU超級芯片系統之一,排名第18。
這五臺基于英偉達“Grace” CG100 Arm服務器CPU的超級計算機,配合其“Hopper” H200或“Blackwell” B200 GPU加速器,在64位精度下實現了197.1拍浮點峰值性能,約為今年7月至11月間新增FP64精度容量的13.3%。
我們覺得有趣的是,有21臺機器搭載了Intel Xeon CPU,并搭配H100、H200或B200 GPU加速器。這21臺機器合計貢獻了698.9千萬億次浮點次的FP64總性能,占本次FP64總性能1.48億次浮點的47.3%。
列表中一臺有趣的新機器由戴爾為美國聯邦政府服務提供商Maximus打造,使用其PowerEdge服務器,配備英特爾“Emerald Rapids”Xeon 5處理器,配合AMD Instinct MI300X GPU加速器。該機器的峰值計算量為251.2千萬億次運算,占11月Top500排名新裝容量的17%。
有兩臺機器基于著名的AMD MI300A混合加速器,這些加速器曾被著名地部署在勞倫斯利弗莫爾國家實驗室的“El Capitan”超級計算機中。這臺機器依然位居Top500榜首,峰值峰值為2.821億次浮點運算,HPL測試中Rmax為1.809億次浮點運算。11月名單中幾臺新機器混合了AMD Epyc CPU和Nvidia Hopper GPU,另外有6臺新機器僅使用AMD Epyc CPU作為計算引擎,另外5臺全新機器則完全使用Intel Xeon CPU。僅支持CPU的機器僅占Rpeak總容量的9.4%,盡管它們占11月新增系統的24.4%。
我們總是對加速的機器數量感到好奇,而在2025年11月的Top500排行榜中,突破了超過五百臺機器的一半:

總體來看,這次Top500的總性能為22.16億次浮點,加速機器以19.11億次浮點運算占86.2%。僅有CPU系統的FP64總動力量僅占13.8%。
在加速的機器中,AMD GPU占性能指數的37.8%,其中Nvidia GPU占51.3%,Intel GPU占10.9%,其他加速器占不到幾個%。AMD和英偉達在高性能計算領域的份額分布可能是整個市場的領先指標,并且與我們上周AMD預測報道中計算的英偉達收入份額非常接近。(澄清一下,Top500 是在我們寫完那篇 AMD 報道之后才發布的。)
雖然明年將是生成式人工智能訓練和推理中心的繁榮期,但即使未來幾年美國能源部將在橡樹嶺國家實驗室、阿貢國家實驗室和洛斯阿拉莫斯國家實驗室資助九臺新機器,傳統高性能計算中心的資金來源仍不明朗。關于這些機器,我們目前還沒有太多細節,這些機器將采用Nvidia和AMD的計算引擎。我們希望本周在SC25上能了解更多。
無論如何,要讓超級計算重回摩爾定律曲線,都需要巨大的投資,而行業多年前就已經滑落了這個曲線:

正如你從上面圖表中看到的,這張圖表來自Top500數據集本身,世界上最大的機器理論上應該有大約8倍億次的FP64峰值計算,而已安裝的計算基礎也應該是實際的兩倍。根據趨勢,你可能需要超過10千萬億次浮點才能讓機器進入名單。具有諷刺意味的是,隨著高性能計算能力的提升,人工智能訓練系統卻在不斷下降,計算量大幅增加,精度降低,這反而推動了人工智能性能的提升,遠超預期。混合精度求解器可以填補這一空白,但目前尚不清楚有多少實際HPC應用在使用它們。













評論