久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 提升高性能計(jì)算性能比保持支出不變更容易

提升高性能計(jì)算性能比保持支出不變更容易

作者: 時間:2025-12-11 來源: 收藏

1765430320800772.png

我們?nèi)栽谒伎冀鼛讉€月在圣路易斯SC25超級計(jì)算會議前后宣布的所有新型-AI超級計(jì)算機(jī)系統(tǒng),特別是國家實(shí)驗(yàn)室發(fā)布的一系列新機(jī)器不僅推動技術(shù)進(jìn)步,還將降低仍驅(qū)動大量高性能計(jì)算仿真和建模工作的FP64浮點(diǎn)運(yùn)算成本。

和你們許多人一樣,我們認(rèn)為高性能計(jì)算的本質(zhì)正在發(fā)生變化,這不僅因?yàn)闄C(jī)器學(xué)習(xí)和現(xiàn)在的生成式人工智能,還包括混合精度的出現(xiàn),以及可以更換求解器以使用它,或者使用更低精度的數(shù)學(xué)單元模擬FP64處理。這肯定會是十年后半段的有趣表現(xiàn)。

與此同時,鑒于仍有大量FP64原生代碼存在,我們認(rèn)為有必要從長遠(yuǎn)角度觀察FP64計(jì)算引擎的性能如何隨著引擎數(shù)量不斷擴(kuò)展和淘汰而逐步提升。我們也認(rèn)為機(jī)器所需的資本投入越來越高,但幸運(yùn)的是,生成式人工智能讓花費(fèi)數(shù)十億美元打造超級計(jì)算機(jī)變得“正常”。

如果你能讓他們預(yù)算四倍于計(jì)算機(jī),因?yàn)殡娔X一半時間都在做生成式人工智能,那么你最終還是能獲得兩倍的高性能計(jì)算性能......而且你不需要超級計(jì)算機(jī)來做這些計(jì)算。

無論如何。

正如我們在一篇名為《Show Me The Money: What Money For The Buck?》的報道中指出的。 早在2015年,也就是我和我親愛的妻子Nicole創(chuàng)立The Next Platform的時候,建造一臺更快的超級計(jì)算機(jī)比降低計(jì)算成本容易得多。生成式AI的興起使GPU加速器的成本遠(yuǎn)高于預(yù)期,同時GPU網(wǎng)絡(luò)規(guī)模也大幅提升,類似于超級計(jì)算機(jī)制造商如SGI、Cray和IBM在1990年代中期研發(fā)的緊密耦合聯(lián)邦互連,這也顯著增加了集群成本。

將這些龐大的GPU服務(wù)器擴(kuò)展成集群所需的帶寬需求也非常高,遠(yuǎn)比過去要高得多。稀缺性、高需求以及技術(shù)復(fù)雜性正在推高規(guī)模化成本,盡管FP64計(jì)算的單位成本確實(shí)以曲折方式持續(xù)下降。

我們分別對 FP16 和 FP4 的 AI 工作負(fù)載機(jī)制進(jìn)行了比較,因此請注意,本文僅聚焦于那些仍高度依賴雙精度浮點(diǎn)數(shù)學(xué)的高性能計(jì)算中心。我們知道求解器正在以混合精度重鑄,以及尾崎方法,該方法允許用更低精度的INT8單元模擬FP64,提升仿真和建模應(yīng)用的整體有效吞吐量。那是另一個故事了。(事實(shí)上,我們正在努力解決這個問題。)

此外,比較旨在說明,而非詳盡。自從Cray 1A矢量超級計(jì)算機(jī)問世48年來,它實(shí)際上創(chuàng)造了與大型機(jī)和小型計(jì)算系統(tǒng)區(qū)分開來的超級計(jì)算市場,后者可以通過輔助協(xié)處理器進(jìn)行計(jì)算,因此很難獲得系統(tǒng)成本。是的,還有變化,還有,我不僅選擇了定價不精確的問題,還涉及超級計(jì)算的混合架構(gòu),正如1989年IBM System/3090與向量設(shè)施對抗Cray X-MP所體現(xiàn)的那樣。這是我職業(yè)生涯初期寫的第一篇高性能計(jì)算(HPC)決選。(我也是混合型,一直都是,我一直做企業(yè)計(jì)算和超級計(jì)算,后來加入了超大規(guī)模工具、云構(gòu)建器,現(xiàn)在又加入了人工智能模型構(gòu)建器。)

我們一直認(rèn)為高性能計(jì)算是性能的代價,而生成式人工智能的繁榮,按這個定義,無疑是一種高性能計(jì)算。云計(jì)算和超大規(guī)模企業(yè)通常會優(yōu)化最佳的性價比,而普通企業(yè)、政府和學(xué)術(shù)機(jī)構(gòu)則傾向于在有限預(yù)算內(nèi)優(yōu)化計(jì)算。話雖如此,高性能計(jì)算社區(qū)在對大型系統(tǒng)在各種工作負(fù)載下的性能進(jìn)行基準(zhǔn)測試,并將這些結(jié)果公開給公眾,同時也提供了部分定價信息。這不僅僅是數(shù)據(jù)利他主義,更反映了國家和州高性能計(jì)算中心由公共資金支持,因此其預(yù)算屬于公開記錄。此外,政客和高性能計(jì)算中心理所當(dāng)然地喜歡吹噓他們在制造超級計(jì)算機(jī)方面的實(shí)力——就像如今幾乎每天都在做的超大規(guī)模模型制造者一樣。

我們知道這些數(shù)字并不完美,而且每一個重要的高性能計(jì)算系統(tǒng)都沒有被展示出來。但所選機(jī)器都是當(dāng)時的旗艦系統(tǒng),既反映了架構(gòu)選擇,也反映了當(dāng)時預(yù)算的限制。我們調(diào)整了舊機(jī)器的成本以適應(yīng)通脹,我們認(rèn)為這對長期來說很重要。下表和圖表中的性能為FP64精度下的理論頂峰兆浮點(diǎn)浮點(diǎn)。我們還展示了機(jī)器中的并發(fā)——即GPU和XPU中包含的核心總數(shù),以及如今流式多處理器或混合核心。隨著25年前時鐘頻率停滯,節(jié)點(diǎn)和互聯(lián)節(jié)點(diǎn)系統(tǒng)中對性能的需求越來越高,并發(fā)顯然大幅增長。

誠然,我們本可以挖掘并填充更多1970年代、1980年代和1990年代初的機(jī)器,但最終選擇了1977年的Cray 1A和1986年的Cray X-MP/48,來代表各自年代的巔峰。如果時間不是問題,我們就能做到。但時間始終是個物體。我們認(rèn)為將所有內(nèi)容與超級計(jì)算美學(xué)的標(biāo)志Cray 1A進(jìn)行比較非常有趣,我們的表格正是如此。

那么,廢話不多說,以下是超級計(jì)算機(jī)與近年來加入的一些人工智能訓(xùn)練系統(tǒng)的歷史對比,以增強(qiáng)對比:

1765430402997712.png

一如既往,粗體紅色斜體顯示的數(shù)據(jù)是我們的估計(jì),???表示我們對做出猜測不確定(至少在本文時間限制內(nèi)不確定)。同樣以粗體紅色斜體標(biāo)示了美國能源部資助的前百億和百億億超級計(jì)算機(jī)的初始預(yù)期配置。我們留下了阿貢國家實(shí)驗(yàn)室“極光”系統(tǒng)的兩個臨時架構(gòu)方案,該系統(tǒng)最初于2018年交付,速度為180千萬億次,2021年則為1千萬億次浮點(diǎn),但2023年上市時已接近2億次浮點(diǎn),價格大幅降低,因?yàn)橛⑻貭栆驑O光交付延誤嚴(yán)重,對5億美元訂單進(jìn)行了3億美元減值進(jìn)入實(shí)地。這導(dǎo)致了一臺每FP64兆浮點(diǎn)運(yùn)算成本極低的機(jī)器。

我們還加入了預(yù)期中的“Blue Waters”Power 775集群配置,IBM原本計(jì)劃為伊利諾伊大學(xué)制造,但因成本為15億美元而取消,而非國家超級計(jì)算應(yīng)用中心為Cray公司提供的混合CPU-GPU系統(tǒng)支付的1880億美元,該系統(tǒng)采用了Blue Waters名稱。(按通脹調(diào)整,IBM藍(lán)水公司成本為16.7億美元,而小魚藍(lán)水公司成本為2.05億美元。IBM 在許多方面都超越了時代的 GenAI,Power 775 集群設(shè)計(jì)中采用了液冷和高度集成。)

橡樹嶺國家實(shí)驗(yàn)室的“Frontier”百億級系統(tǒng)和勞倫斯利弗莫爾國家實(shí)驗(yàn)室2019年規(guī)劃的“El Capitan”系統(tǒng)的粗略配置也被保留在這里,以及它們的原始預(yù)算。能源部在這些機(jī)器上投入了20%,F(xiàn)rontier性能稍強(qiáng),一年后安裝的El Capitan性能提升了1.9倍。從 IBM 和 Nvidia GPU 轉(zhuǎn)向 AMD CPU,以及從 IBM 和 Nvidia GPU 轉(zhuǎn)變,性價比非常高。英偉達(dá)已認(rèn)真重返高性能計(jì)算領(lǐng)域,全球各國政府正在將國家高性能計(jì)算實(shí)驗(yàn)室重新定位為主權(quán)人工智能數(shù)據(jù)中心。

我們將埃隆·馬斯克的xAI公司“Colossus”系統(tǒng)加入名單,該系統(tǒng)在單一系統(tǒng)中集成了10萬臺英偉達(dá)的“Hopper” H100和H200 GPU加速器,作為去年性能和預(yù)算的基準(zhǔn)。(Colossus今年規(guī)模翻倍,據(jù)報道該機(jī)總投入約70億美元,部署超過20萬塊英偉達(dá)GPU。)

這份名單上的四臺新機(jī)器包括德國尤利希研究中心“Jupiter”超級計(jì)算機(jī)的GPU增強(qiáng)器分區(qū),這是歐洲未來將出現(xiàn)的眾多百億級機(jī)器中的第一臺。Jupiter由Atos的Eviden部門使用Nvidia CPU和GPU制造,現(xiàn)已運(yùn)行。

我們還新增了戴爾為德克薩斯先進(jìn)計(jì)算中心制造的“Horizon”機(jī)器,這臺機(jī)器是美國最強(qiáng)大的學(xué)術(shù)科學(xué)專屬機(jī)器。我們知道Horizon的總預(yù)算為4.57億美元,但這個數(shù)字包括幫助Sabey數(shù)據(jù)中心為高性能計(jì)算(HPC)改造數(shù)據(jù)中心,以及支付空間、電力、冷卻和新機(jī)器的費(fèi)用。我們認(rèn)為其中約2億美元用于Horizon系統(tǒng)本身,該系統(tǒng)基于基于Nvidia未來“Vera” CV100 Arm服務(wù)器CPU的CPU分區(qū)和基于Nvidia“Grace” CG100 CPU與“Blackwell” B200 GPU配對的GPU分區(qū)。

我們還根據(jù)能源部提供的極少信息,嘗試了未來阿貢“索爾蒂斯”系統(tǒng)以及橡樹嶺未來“探索”系統(tǒng)可能的樣貌。Oracle是Solstice的主要承包商,該項(xiàng)目將配備10萬塊英偉達(dá)的Blackwell GPU。Discovery基于AMD“Venice”Epyc處理器和“Altair”MI430X GPU,據(jù)HPE和AMD稱,這些GPU的性能將達(dá)到當(dāng)前Frontier機(jī)器的3到5倍。目前尚未公布具體數(shù)量的Altair GPU型號,鑒于MI430X矢量發(fā)動機(jī)FP64的性能為120拍浮點(diǎn),我們嘗試了一下。我們曾讀到發(fā)現(xiàn)號可能只需5億美元,而發(fā)現(xiàn)號加上基于“Antares+”MI355X GPU的小型系統(tǒng)“Lux”,成本將超過10億美元。

Solstice及其基于1萬臺Blackwell GPU的“Equinox”測試平臺,以及Discovery及其Lux測試平臺收購均未采用正常能源部流程,被描述為“公私合作伙伴關(guān)系”的一部分。我們認(rèn)為能源部的意思是他們正在調(diào)試這些機(jī)器,但會租用部分——但絕不會全部——這些機(jī)器的產(chǎn)能。我們之所以知道這一點(diǎn)很簡單。我們的初步猜測是,冬至號的造價是60億美元,發(fā)現(xiàn)號將耗資40億美元。買兩臺機(jī)器要花100億美元。能源部科學(xué)辦公室的預(yù)算在2025財年僅為82.4億美元。和OpenAI一樣,美國政府負(fù)擔(dān)不起購買生成式人工智能級超級計(jì)算機(jī),必須租賃它們,我們認(rèn)為價格比擁有它們更為高。目前還沒有人具體討論這個問題,但我們會繼續(xù)深入挖掘更好的定價數(shù)據(jù),并了解如果能源部無法購買全部容量,誰將使用這些機(jī)器的剩余容量。

正如你所見,F(xiàn)P64的性能和并發(fā)性幾十年來大幅提升,但每千萬億次浮點(diǎn)次的成本下降速度并沒有像一臺能力級超級計(jì)算機(jī)的價格不斷上漲那樣快。

按2023年調(diào)整后,1977年Cray 1A售價為3680萬美元,九年后的1986年Cray X-MP/48售價為4600萬美元。1997年的ASCI Red售價為7200萬美元。2008年,洛斯阿拉莫斯國家實(shí)驗(yàn)室的“Roadrunner”混合CPU加速器系統(tǒng)突破了萬億次浮點(diǎn)放大,2023年造價為1.4億美元;而基于AMD Opteron處理器和XT5互連的“Jaguar”系統(tǒng),同樣從2008年起,以相對現(xiàn)代的價值計(jì)算為215美元。

對于喜歡視覺效果的朋友,這里有一個散點(diǎn)圖,X軸顯示了萬億次浮點(diǎn)次(teraflops)的性能,Y軸顯示系統(tǒng)每峰值萬億次浮點(diǎn)次的成本:

1765430546764947.png

那個一直到每兆浮點(diǎn)100美元的系統(tǒng)是Aurora(交付時),扣除3億美元成本后,成本為5億美元。

如你所見,這是一條相當(dāng)直的向上右側(cè)線,這正是你希望在對數(shù)尺度上看到的,以提升超級計(jì)算機(jī)性能和降低每千萬億次浮次成本。不過,變化很大。

正如我們上面所說,將明年及以后推出的機(jī)器與五十年前的Cray 1A進(jìn)行比較很有趣。Cray 1A與2028年將登陸橡樹嶺的Discovery系統(tǒng)性能差異為425億,并發(fā)時間增加了352億。系統(tǒng)成本在1977年至2028年間上漲了108.7倍,前提是我們對Discovery的估算大致準(zhǔn)確。

順便說一句:把這些數(shù)字顛倒過來,1997年購買1兆浮點(diǎn)浮點(diǎn)FP64計(jì)算需要2300億美元,而在625萬臺Cray 1A機(jī)器中實(shí)現(xiàn)1兆浮點(diǎn)運(yùn)算是不可能的。(同軸開關(guān)不起作用......)

為了更好地理解這些數(shù)據(jù),我們制作了第二張表格,展示所有這些機(jī)器的性能和性價比,然后與Cray 1A進(jìn)行比較。下表還顯示了FP64精度下2億美元(2023年美元)能獲得多少萬億次浮點(diǎn)次:

1765430588165752.png

El Capitan為此設(shè)定了很高的標(biāo)準(zhǔn),除非你把極光的折扣票數(shù)算進(jìn)去。展望未來,這2億美元的預(yù)算將大大減少HPC中心在向量上的FP64。所以,他們最好計(jì)劃更多地使用張量核心,并讓算法以混合精度工作。這將是繼續(xù)前進(jìn)的唯一途徑。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉