久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)的Vera-Rubin平臺(tái)在發(fā)布前六個(gè)月取代現(xiàn)有的AI鐵牌

英偉達(dá)的Vera-Rubin平臺(tái)在發(fā)布前六個(gè)月取代現(xiàn)有的AI鐵牌

作者: 時(shí)間:2026-01-15 來(lái)源: 收藏

1768448257322091.png

如果你恰好在恰當(dāng)?shù)臅r(shí)間購(gòu)買(mǎi)最新的鐵,制定年度AI系統(tǒng)改進(jìn)節(jié)奏是一件好事。但機(jī)架級(jí)AI系統(tǒng)及其大規(guī)模擴(kuò)展網(wǎng)絡(luò)的快速提升也意味著,在任何時(shí)刻,一定一部分客戶(hù)都會(huì)感到后悔,后悔當(dāng)初沒(méi)等到。

我們意識(shí)到這可以說(shuō)是發(fā)達(dá)世界的問(wèn)題,當(dāng)你拿到任何GPU或XPU容量時(shí),這并不值得抱怨。

但即便如此,當(dāng)全世界關(guān)注聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁森在拉斯維加斯2026年消費(fèi)電子展上的主題演講時(shí),許多高管看到未來(lái)“Vera”Arm服務(wù)器CPU和“Rubin”GPU加速器的進(jìn)給和速度,以及可擴(kuò)展的NVLink內(nèi)存結(jié)構(gòu)和可擴(kuò)展的Spectrum以太網(wǎng)互連的規(guī)格,肯定會(huì)想“早該等一等”與新的網(wǎng)卡和DPU一起推出,打造出大幅改進(jìn)的機(jī)架級(jí)系統(tǒng),用于咀嚼或輸出令牌。

具體來(lái)說(shuō),高層表示,Vera-Rubin NVL72機(jī)架級(jí)系統(tǒng),顧名思義擁有72個(gè)GPU插槽,同樣有36個(gè)CPU插槽,以及將它們連接起來(lái)的NVSwitch結(jié)構(gòu),能為專(zhuān)家(MoE)AI模型混合時(shí),每個(gè)令牌的推理成本降低10倍,GPU數(shù)量減少4倍(但可能不會(huì)減少4倍成本,請(qǐng)注意不要跳到錯(cuò)誤結(jié)論)來(lái)訓(xùn)練這些模型,與上一代Grace-Blackwell NVL72系統(tǒng)進(jìn)行比較。(這是將GB200 NVL72系統(tǒng)與我們推測(cè)將被稱(chēng)為VR200 NVL72系統(tǒng)的對(duì)比。)

比Blackwell的過(guò)渡更平滑

英偉達(dá)于2016年4月推出了首款自制服務(wù)器,基于其“Pascal” P100 GPU加速器和NVLink端口混合立方體網(wǎng)格,將系統(tǒng)中的八塊GPU綁定在一起。以現(xiàn)代標(biāo)準(zhǔn)來(lái)看,這是一臺(tái)相當(dāng)簡(jiǎn)單的機(jī)器,值得注意的是,第一臺(tái)機(jī)器就交給了OpenAI的首席執(zhí)行官Sam Altman。

兩年后,基于“Volta” V100 GPU 和一個(gè)叫 NVSwitch 的奇特小東西,推出了 DGX-2 平臺(tái),這是 Nvidia Research 的一個(gè)研究項(xiàng)目。通過(guò)DGX-2,英偉達(dá)首次體驗(yàn)了復(fù)雜的系統(tǒng)組件開(kāi)發(fā)與集成,英偉達(dá)沒(méi)有讓別人按規(guī)格構(gòu)建,而是自行制造GPU板、交換板和兩者之間的平面互連,以保持質(zhì)量控制。“Ampere” A100和“Hopper” H100 GPU設(shè)計(jì)相似,但經(jīng)過(guò)提升以提供更多浮點(diǎn)性能和帶寬以支持,但隨著2024年3月發(fā)布的“Blackwell”GB200 NVL72設(shè)計(jì),英偉達(dá)實(shí)現(xiàn)機(jī)架規(guī)模,將72個(gè)GPU插槽、36個(gè)CPU插槽和18個(gè)NVSwitch托盤(pán)塞入“節(jié)點(diǎn)”,打造了一個(gè)復(fù)雜的共享內(nèi)存系統(tǒng), 炎熱,制造難度高,需求極高且供應(yīng)緊張。

最初的Blackwell機(jī)架級(jí)機(jī)器存在問(wèn)題,這迫使GPU和機(jī)架在多個(gè)方面重新設(shè)計(jì),這當(dāng)然意味著發(fā)貨延遲——從2024年底到2025年初,數(shù)量合理。但是,當(dāng)你在構(gòu)建世界上最復(fù)雜的服務(wù)器節(jié)點(diǎn),推動(dòng)集成和散熱的極限時(shí),無(wú)論所有工程師多么謹(jǐn)慎和深思熟慮,你都必須預(yù)料到偶爾會(huì)出現(xiàn)問(wèn)題。

1768448290668957.png

這次,使用Vera-Rubin VR200 NVL72機(jī)器,一切都在正軌上。在黃曉明主旨演講前與記者和分析師的預(yù)告會(huì)上,高性能計(jì)算與人工智能工廠(chǎng)解決方案高級(jí)總監(jiān)迪昂·哈里斯表示,Vera-Rubin NVL72平臺(tái)核心的六顆芯片均已從臺(tái)灣積體電路晶圓廠(chǎng)返回,正在調(diào)配并發(fā)送給關(guān)鍵合作伙伴,預(yù)計(jì)將在2026年下半年開(kāi)始加快生產(chǎn)。

我們強(qiáng)烈懷疑英偉達(dá)會(huì)公布更多關(guān)于VR200 NVL72平臺(tái)的細(xì)節(jié)——這些平臺(tái)是GPU插槽數(shù)而非芯片組,因此這臺(tái)機(jī)器也是英偉達(dá)去年在2026年3月圣何塞GPU技術(shù)大會(huì)上對(duì)VR200 NVL144系統(tǒng)的稱(chēng)呼。但現(xiàn)在,我們先分享CES上發(fā)布的這些機(jī)器的介紹。(或者說(shuō),是在CES,因?yàn)槲覀兗依锊辉谡箷?huì)現(xiàn)場(chǎng),因?yàn)榧依镉行┽t(yī)療問(wèn)題。)

也許Harris在預(yù)簡(jiǎn)報(bào)中展示的最重要的圖表就是這張,它說(shuō)明了為什么Vera-Rubin系統(tǒng)的設(shè)計(jì)重點(diǎn)是提升HBM堆疊內(nèi)存帶寬,這樣這些昂貴的Rubin顯卡就能比Hopper和Blackwell世代更好地供電。(就像你用的是你擁有的軍隊(duì),而不是你希望擁有的那支軍隊(duì),每個(gè)IT供應(yīng)商都會(huì)帶著他們能集成、可靠性最高、成本最低的組件進(jìn)入市場(chǎng)。)請(qǐng)看:

1768448381686621.png

但在專(zhuān)家混合時(shí)代,模型必須創(chuàng)建和分析更多代幣以得出更好的答案,而如果你想及時(shí)完成這些工作,處理所有專(zhuān)家之間交流需要大量帶寬。

因此,我們認(rèn)為,在新 Vera-Rubin 機(jī)器中最重要的指標(biāo)是,Rubin GPU 中八組 HBM4 內(nèi)存——大概是 R200,但 Nvidia 尚未公布其名稱(chēng)——的總內(nèi)存帶寬為 22 TB/秒,是 Blackwell GPU 所用八個(gè) HBM3E 堆棧的 8 TB/秒的 2.75 倍。雖然略高于預(yù)期,但288GB的容量是Blackwell B200顯卡192GB的1.5倍,完全符合預(yù)期。(如果HBM供應(yīng)放寬,英偉達(dá)未來(lái)可能會(huì)創(chuàng)造更豐厚的記憶,但我們強(qiáng)烈懷疑這會(huì)在2027年的Rubin Ultra顯卡上實(shí)現(xiàn),而非2026年的Rubin。)

以下是Rubin顯卡的基本規(guī)格:

1768448411307129.png

你會(huì)注意到,這款兩芯片組Rubin GPU插槽的NVFP4推理性能為50拍浮點(diǎn)運(yùn)算,是Blackwell B200顯卡性能的5倍,但訓(xùn)練時(shí),NVFP4浮點(diǎn)運(yùn)算精度僅為35拍浮點(diǎn)運(yùn)算,僅為B200的10拍浮點(diǎn)運(yùn)算的3.5倍。后續(xù)的B300經(jīng)過(guò)調(diào)整,AI推斷性能提升至15千萬(wàn)億次運(yùn)算,比B200提升了50%。Nvidia從未真正解釋過(guò)這是怎么發(fā)生的。

但對(duì)于Rubin GPU,英偉達(dá)超大規(guī)模與高性能計(jì)算總經(jīng)理Ian Buck說(shuō),有一個(gè)解釋?zhuān)@叫做自適應(yīng)壓縮,這是Rubin GPU重新設(shè)計(jì)的張量核心的一部分,也是這些張量核心實(shí)現(xiàn)的下一代Transformer Engine的一部分。

“自適應(yīng)壓縮基本上是一種更智能的稀疏化技術(shù),能夠自適應(yīng)應(yīng)用,并且我們知道它不會(huì)影響準(zhǔn)確性,”巴克告訴《下一個(gè)平臺(tái)》。

雖然英偉達(dá)沒(méi)有明確說(shuō)明,但我們強(qiáng)烈懷疑這是Balckwell B300與早期B200顯卡之間的關(guān)鍵區(qū)別之一。(這并非英偉達(dá)GPU首次將未來(lái)技術(shù)引入。)否則如何解釋B300推理性能提升50%的原因?在一塊采用4納米工藝實(shí)現(xiàn)的芯片上,時(shí)鐘速度肯定沒(méi)提升多少。

我們會(huì)進(jìn)一步探討Rubin的GPU芯片,但Rubin復(fù)合體擁有3360億個(gè)晶體管,我們認(rèn)為它采用了臺(tái)積電N3的3納米工藝(雖然也可能跳到2納米的N2工藝),而B(niǎo)200的晶體管有2080億個(gè)。這意味著晶體管數(shù)量增加了62%,在沒(méi)有自適應(yīng)壓縮提升的情況下實(shí)現(xiàn)了3.5倍的性能提升——我們想知道這是如何實(shí)現(xiàn)的。

在CPU方面,英偉達(dá)今年晚些時(shí)候推出的AI及有時(shí)的高性能計(jì)算平臺(tái)包括基于Vera Arm的CPU和英偉達(dá)自家開(kāi)發(fā)的“奧林巴斯”核心。

1768448442907753.png

根據(jù)我們?cè)贑ES上的第一印象,Vera的CPU比Grace好得多。Vera芯片擁有88個(gè)核心,每個(gè)核心兩線(xiàn)程,Nvidia稱(chēng)之為“空間多線(xiàn)程”,但尚未解釋。

Vera 核心每個(gè)核心有 2 MB L2 緩存(是 Grace 及其非定制 Arm Neoverse“Demeter” V2 核心的 2 倍),核心間共享 162 MB L3 緩存(比 Grace CPU 的 114 MB L3 緩存增加了 42%)。Vera芯片擁有1.5TB LPDDR5X內(nèi)存,是Grace的480 GB LPDDR5X內(nèi)存的3.2倍。每個(gè)Vera核心配備六個(gè)128位SVE2矢量引擎,支持FP64至FP8格式,這與Grace中支持FP64至FP16格式的四個(gè)128位SVE2單元相比,非常有趣。Vera 的共享內(nèi)存帶寬為 1.8 TB/秒,是 Grace 的兩倍,這使得它能夠非常快速地與與 MGX 系統(tǒng)板上的兩塊 Rubin GPU 共享數(shù)據(jù),MGX 系統(tǒng)板是 Vera-Rubin VR200 NVL72 系統(tǒng)的關(guān)鍵組件。

將它們組合起來(lái),你就得到了英偉達(dá)所稱(chēng)的Vera-Rubin超級(jí)芯片和我們所說(shuō)的系統(tǒng)板:

1768448480143684.png

把其中兩個(gè)放進(jìn)一個(gè)MGX服務(wù)器滑板里,再把十八個(gè)這樣的滑板放進(jìn)一個(gè)“Oberon”機(jī)架,里面有36個(gè)NVSwitch 4交換機(jī)(英偉達(dá)現(xiàn)在稱(chēng)之為NVLink 6交換機(jī)以避免讓人混淆),你就擁有了一個(gè)機(jī)架級(jí)系統(tǒng),具體如下:

1768448526287120.png

考慮到Nvidia還沒(méi)開(kāi)始銷(xiāo)售這款Vera-Rubin巨獸,我們根本不知道它的售價(jià)。但鑒于機(jī)架中的所有設(shè)備制造成本都高于處理器本身,且顯然在同一空間內(nèi)提供了更強(qiáng)的動(dòng)力和更高的每瓦性能,我們認(rèn)為英偉達(dá)將能夠?yàn)閂era-Rubin系統(tǒng)收取更高的價(jià)格。具體金額將由市場(chǎng)決定——預(yù)計(jì)將會(huì)有英偉達(dá)著名聯(lián)合創(chuàng)始人兼首席執(zhí)行官的深度參與。

如果 GB200 NVL72 價(jià)格約為 335 萬(wàn)美元,正如我們兩年前估算的那樣,那么推理性能提升 5 倍的 VR200 NVL72 預(yù)計(jì)價(jià)格將達(dá)到 1680 萬(wàn)美元。啊,但每個(gè)代幣的成本必須大幅降低,英偉達(dá)表示推斷MoE的成本將降10倍。所以現(xiàn)在你只剩下168萬(wàn)美元了。我們絕不相信英偉達(dá)會(huì)只收取168萬(wàn)美元的價(jià)格,因此我們不知道上述10倍成本的降低來(lái)自何處。(我們認(rèn)為這可能是測(cè)量的MoE推斷性能,而非上圖所示的理論峰值表現(xiàn)。)我們更容易相信,Nvidia可能會(huì)收取比GB200 NVL72高2.5倍的費(fèi)用,但VR200 NVL72的原始NVFP4性能提升5倍,約840萬(wàn)美元,但原始推理性能成本降低了50%。很多事情取決于英偉達(dá)能擠出多少利潤(rùn)。考慮到英偉達(dá)最初與布萊克韋爾的麻煩,以及向魯賓過(guò)渡可能的順利,可能還有空間將價(jià)格降得比預(yù)期低,以抵御競(jìng)爭(zhēng)對(duì)手。

部分競(jìng)爭(zhēng)來(lái)自英偉達(dá)對(duì)Vera-Rubin系統(tǒng)的燈塔客戶(hù),公司表示包括亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云、Microsoft Azure、甲骨云基礎(chǔ)設(shè)施,以及CoreWeave、Lambda、Nebius和Nscale等小型企業(yè)。前三個(gè)客戶(hù)正在自行開(kāi)發(fā)加速器,谷歌很可能以與Nvidia硬件層面相同甚至更低的代幣成本實(shí)現(xiàn),并構(gòu)建單一內(nèi)存域可擴(kuò)展至9,216個(gè)TPU的系統(tǒng)。這個(gè)規(guī)模非常重要,也是Nvidia必須解決的真正工程難題。我們堅(jiān)信它也能做到這一點(diǎn)。


評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉