TACC的“Horizon”超級(jí)計(jì)算機(jī)引領(lǐng)學(xué)術(shù)科學(xué)的發(fā)展

正如我們所預(yù)料的那樣,德克薩斯先進(jìn)計(jì)算中心去年安裝的“Vista”超級(jí)計(jì)算機(jī),作為當(dāng)前“Stampede-3”和“Frontera”生產(chǎn)系統(tǒng)與明年即將推出的未來(lái)“Horizon”系統(tǒng)之間的橋梁,確實(shí)是TACC為Horizon機(jī)器選擇架構(gòu)的先驅(qū)。
TACC所做的事情和不做的事情很重要,因?yàn)樽鳛槊绹?guó)國(guó)家科學(xué)基金會(huì)學(xué)術(shù)超級(jí)計(jì)算的旗艦數(shù)據(jù)中心,公司為那些需要擁抱人工智能、不僅擁有需要整個(gè)系統(tǒng)運(yùn)行的大型作業(yè)(所謂的能力類機(jī)器)的高性能計(jì)算組織樹(shù)立了領(lǐng)先地位,這些組織不僅擁有需要整個(gè)系統(tǒng)運(yùn)行的大型作業(yè)(即所謂的能力類機(jī)器),還需要堆疊和推送各種較小的工作(使得它也成為容量等級(jí)系統(tǒng))。正如TACC前六臺(tái)主要超級(jí)計(jì)算機(jī)所恰好展示的那樣,你可以兩全其美,盡管為了實(shí)現(xiàn)這套可以說(shuō)更為艱難的目標(biāo),你必須根據(jù)技術(shù)和經(jīng)濟(jì)做出不同的架構(gòu)選擇。
上周SC25超級(jí)計(jì)算大會(huì)上公布了一些關(guān)于Horizon機(jī)器的細(xì)節(jié),我們一直在思考,但仍有許多未知。預(yù)計(jì)2026年春季啟動(dòng)的Horizon與預(yù)期有所不同,最大變化是FP64浮點(diǎn)峰值性能從預(yù)期的400千萬(wàn)億次浮點(diǎn)運(yùn)算降至300千萬(wàn)億次運(yùn)算。TACC尚未解釋這種差異,但這可能與GPU加速系統(tǒng)成本的上升有關(guān)。據(jù)我們所知,地平線系統(tǒng)的預(yù)算(于2024年7月確定,包含從Sabey數(shù)據(jù)中心租賃設(shè)施及其他運(yùn)營(yíng)成本)仍為4.57億美元。(我們寫(xiě)作時(shí)正試圖確認(rèn)這一點(diǎn),但鑒于SC25事件之后和感恩節(jié)假期臨近,聯(lián)系上的人變得困難。)
事實(shí)證明,Horizon看起來(lái)非常像Vista的現(xiàn)代化和更厚重版本,如下表所示:

Vista機(jī)器具有CPU分區(qū)和CPU-GPU分區(qū),如上所示,總計(jì)其CPU和GPU的理論峰值FP64性能為44.9。該系統(tǒng)還擁有來(lái)自VAST Data的全閃存數(shù)據(jù)平臺(tái)30 PB容量。兩年前,TACC通過(guò)“Stampede-3”升級(jí)測(cè)試了13PB的VAST數(shù)據(jù)存儲(chǔ),而NFS文件系統(tǒng)存儲(chǔ)(也原生支持對(duì)象和表格格式)主要應(yīng)用于Vista,同時(shí)也將成為Horizon的主存儲(chǔ),容量準(zhǔn)確為400 PB。而且得益于VAST-Data平臺(tái)的工作方式,所有這些閃存看起來(lái)都是原生且本地化的,適用于Horizon集群中的CPU和GPU節(jié)點(diǎn)。這400 PB的存儲(chǔ)擁有超過(guò)10 TB/秒的讀寫(xiě)帶寬,以及多租戶安全和服務(wù)質(zhì)量的層級(jí)。
我們對(duì)Horizon計(jì)算的了解相當(dāng)有限。我們知道它將由戴爾PowerEdge服務(wù)器組成,并集成到戴爾的集成機(jī)架可擴(kuò)展系統(tǒng)中,計(jì)算元件將采用液冷。我們還知道合并后平臺(tái)將配備“Grace” CG100 Arm服務(wù)器CPU和“Blackwell”GPU的系統(tǒng),推測(cè)還有性能相當(dāng)于FP64的B200變體。(B200張量核的FP64計(jì)算量為40拍浮點(diǎn),而B(niǎo)300僅有1拍浮點(diǎn)。后者對(duì)高性能計(jì)算中心來(lái)說(shuō)非常糟糕,除非它只打算在這部分機(jī)器上運(yùn)行GPU推理。)TACC還表示,該機(jī)器將擁有超過(guò)100萬(wàn)個(gè)核心,配備4000個(gè)GPU。
有很多不同的方法可以達(dá)到這些數(shù)字。如上表所示,我們?yōu)榈仄骄€機(jī)器做了兩個(gè)不同的場(chǎng)景。
在情景1中,我們假設(shè)Grace-Blackwell平臺(tái)實(shí)際上是GB200 NVL72,計(jì)算Grace和Blackwell CPU的flops,從FP64總計(jì)算量的300拍浮點(diǎn)中減去,然后計(jì)算剩余計(jì)算部分需要多少“Vera”CPU核心。我們知道Vera擁有88個(gè)核心,而Grace是72個(gè)核心,我們也假設(shè)Nvidia會(huì)將Vera CPU的矢量性能提升一倍。如果你計(jì)算核心數(shù),最終需要4,856個(gè)Vera-Vera超級(jí)芯片計(jì)算引擎(兩個(gè)Vera通過(guò)NVLink內(nèi)存端口在NUMA配置中連接),總共854,656個(gè)Vera核心,運(yùn)行頻率為3.56 GHz,F(xiàn)P64時(shí)輸出131.8千萬(wàn)億次浮點(diǎn)。考慮到臺(tái)積電將N3工藝縮減到3納米工藝,而英偉達(dá)讓臺(tái)積電為Grace CPU和Hopper、Blackwell GPU設(shè)計(jì)的4納米定制工藝相比,這一切看起來(lái)非常合理。
出于好玩,我們?cè)O(shè)計(jì)了第二個(gè)情景,將Grace-Blackwell的CPU-GPU組合成一對(duì)配置,就像英偉達(dá)為Grace-Hopper超級(jí)芯片所做的那樣。據(jù)我們所知,這不是商業(yè)選項(xiàng),但對(duì)TACC來(lái)說(shuō)是個(gè)不錯(cuò)的選擇,TACC是一個(gè)以CPU為核心的高性能計(jì)算中心活動(dòng),之前多年為系統(tǒng)部分區(qū)域增加了GPU加速。
在情景二中,你會(huì)有4000個(gè)Grace-Blackwell超級(jí)芯片,采用1:1配置,而不是像GB200 NVL72機(jī)架級(jí)系統(tǒng)那樣采用1:2配置。該分區(qū)將擁有352,000個(gè)Grace核心,提供17.2千萬(wàn)億次FP64計(jì)算,以及4,000個(gè)B200 GPU,提供160千萬(wàn)億次FP64計(jì)算。如果從那100萬(wàn)個(gè)CPU核心中退回,你需要3,686個(gè)Vera-Vera節(jié)點(diǎn),總共648,736個(gè)核心,而且還得把它們超頻到5 GHz,才能達(dá)到122.8千萬(wàn)億次浮點(diǎn),才能實(shí)現(xiàn)Horizon系統(tǒng)在FP64時(shí)的總性能300千萬(wàn)億次。這可能需要臺(tái)積電將N2X工藝規(guī)模縮減到2納米,而這些工藝預(yù)計(jì)要到2026年底或2027年初才會(huì)上市——而且服務(wù)器零件也不會(huì)上市。
重要的是,在我們Horizon思維實(shí)驗(yàn)中的情景1中,有機(jī)架級(jí)節(jié)點(diǎn)非常適合專家(MoE)生成式AI模型推斷的混合,這對(duì)將AI集成到高性能計(jì)算(HPC)模擬和模型中可能很重要。
無(wú)論Horizon節(jié)點(diǎn)如何構(gòu)建,我們都知道TACC選擇了英偉達(dá)400 Gb/秒的Quantum-2交換機(jī)(也稱為Quantum X400)來(lái)將CPU和GPU計(jì)算引擎連接起來(lái)。服務(wù)器節(jié)點(diǎn)很可能使用了ConnectX-7網(wǎng)絡(luò)接口卡,但TACC、戴爾和英偉達(dá)的公告并未說(shuō)明具體情況。今年三月在GTC 2025發(fā)布的800 Gb/sec Quantum X800交換機(jī)與ConnectX-8網(wǎng)卡搭配使用,這些未來(lái)交換機(jī)還將為交換機(jī)ASIC與前面板提供聯(lián)裝光學(xué)元件。令人費(fèi)解的是,為什么Horizon沒(méi)有將切換擴(kuò)展到800 Gb/sec端口,尤其是如果TACC可以作為該技術(shù)的測(cè)試平臺(tái),就像高性能計(jì)算中心應(yīng)有的功能一樣。不過(guò),也許TACC只是想讓Horizon運(yùn)行起來(lái),拆解Frontera,然后轉(zhuǎn)向下一個(gè)問(wèn)題......
我們與TACC執(zhí)行董事Dan Stanzione有時(shí)間聊聊機(jī)器架構(gòu)及其如何映射到NSF工作負(fù)載。敬請(qǐng)期待。
預(yù)計(jì)Horizon將在明年夏天全面量產(chǎn),看起來(lái)它將成為全球首批大規(guī)模搭載Vera Arm服務(wù)器CPU的系統(tǒng)之一。
最后一個(gè)問(wèn)題:為什么作為NSF旗艦高性能計(jì)算數(shù)據(jù)中心的TACC沒(méi)有配備百億億級(jí)超級(jí)計(jì)算機(jī)?這樣的機(jī)器至少能完成三倍于地平線的工作量。









評(píng)論