英偉達(dá)的Vera-Rubin平臺(tái)在發(fā)布前六個(gè)月取代現(xiàn)有的AI鐵牌

作者：時(shí)間：2026-01-15 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

如果你恰好在恰當(dāng)?shù)臅r(shí)間購(gòu)買(mǎi)最新的鐵，制定年度AI系統(tǒng)改進(jìn)節(jié)奏是一件好事。但英偉達(dá)機(jī)架級(jí)AI系統(tǒng)及其大規(guī)模擴(kuò)展網(wǎng)絡(luò)的快速提升也意味著，在任何時(shí)刻，一定一部分客戶(hù)都會(huì)感到后悔，后悔當(dāng)初沒(méi)等到。

我們意識(shí)到這可以說(shuō)是發(fā)達(dá)世界的問(wèn)題，當(dāng)你拿到任何GPU或XPU容量時(shí)，這并不值得抱怨。

但即便如此，當(dāng)全世界關(guān)注英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁森在拉斯維加斯2026年消費(fèi)電子展上的主題演講時(shí)，許多高管看到未來(lái)“Vera”Arm服務(wù)器CPU和“Rubin”GPU加速器的進(jìn)給和速度，以及可擴(kuò)展的NVLink內(nèi)存結(jié)構(gòu)和可擴(kuò)展的Spectrum以太網(wǎng)互連的規(guī)格，肯定會(huì)想“早該等一等”與新的網(wǎng)卡和DPU一起推出，打造出大幅改進(jìn)的機(jī)架級(jí)系統(tǒng)，用于咀嚼或輸出令牌。

具體來(lái)說(shuō)，英偉達(dá)高層表示，Vera-Rubin NVL72機(jī)架級(jí)系統(tǒng)，顧名思義擁有72個(gè)GPU插槽，同樣有36個(gè)CPU插槽，以及將它們連接起來(lái)的NVSwitch結(jié)構(gòu)，能為專(zhuān)家（MoE）AI模型混合時(shí)，每個(gè)令牌的推理成本降低10倍，GPU數(shù)量減少4倍（但可能不會(huì)減少4倍成本，請(qǐng)注意不要跳到錯(cuò)誤結(jié)論）來(lái)訓(xùn)練這些模型，與上一代Grace-Blackwell NVL72系統(tǒng)進(jìn)行比較。（這是將GB200 NVL72系統(tǒng)與我們推測(cè)將被稱(chēng)為VR200 NVL72系統(tǒng)的對(duì)比。）

比Blackwell的過(guò)渡更平滑

英偉達(dá)于2016年4月推出了首款自制服務(wù)器，基于其“Pascal” P100 GPU加速器和NVLink端口混合立方體網(wǎng)格，將系統(tǒng)中的八塊GPU綁定在一起。以現(xiàn)代標(biāo)準(zhǔn)來(lái)看，這是一臺(tái)相當(dāng)簡(jiǎn)單的機(jī)器，值得注意的是，第一臺(tái)機(jī)器就交給了OpenAI的首席執(zhí)行官Sam Altman。

兩年后，基于“Volta” V100 GPU 和一個(gè)叫 NVSwitch 的奇特小東西，推出了 DGX-2 平臺(tái)，這是 Nvidia Research 的一個(gè)研究項(xiàng)目。通過(guò)DGX-2，英偉達(dá)首次體驗(yàn)了復(fù)雜的系統(tǒng)組件開(kāi)發(fā)與集成，英偉達(dá)沒(méi)有讓別人按規(guī)格構(gòu)建，而是自行制造GPU板、交換板和兩者之間的平面互連，以保持質(zhì)量控制。“Ampere” A100和“Hopper” H100 GPU設(shè)計(jì)相似，但經(jīng)過(guò)提升以提供更多浮點(diǎn)性能和帶寬以支持，但隨著2024年3月發(fā)布的“Blackwell”GB200 NVL72設(shè)計(jì)，英偉達(dá)實(shí)現(xiàn)機(jī)架規(guī)模，將72個(gè)GPU插槽、36個(gè)CPU插槽和18個(gè)NVSwitch托盤(pán)塞入“節(jié)點(diǎn)”，打造了一個(gè)復(fù)雜的共享內(nèi)存系統(tǒng)，炎熱，制造難度高，需求極高且供應(yīng)緊張。

最初的Blackwell機(jī)架級(jí)機(jī)器存在問(wèn)題，這迫使GPU和機(jī)架在多個(gè)方面重新設(shè)計(jì)，這當(dāng)然意味著發(fā)貨延遲——從2024年底到2025年初，數(shù)量合理。但是，當(dāng)你在構(gòu)建世界上最復(fù)雜的服務(wù)器節(jié)點(diǎn)，推動(dòng)集成和散熱的極限時(shí)，無(wú)論所有工程師多么謹(jǐn)慎和深思熟慮，你都必須預(yù)料到偶爾會(huì)出現(xiàn)問(wèn)題。

這次，使用Vera-Rubin VR200 NVL72機(jī)器，一切都在正軌上。在黃曉明主旨演講前與記者和分析師的預(yù)告會(huì)上，高性能計(jì)算與人工智能工廠(chǎng)解決方案高級(jí)總監(jiān)迪昂·哈里斯表示，Vera-Rubin NVL72平臺(tái)核心的六顆芯片均已從臺(tái)灣積體電路晶圓廠(chǎng)返回，正在調(diào)配并發(fā)送給關(guān)鍵合作伙伴，預(yù)計(jì)將在2026年下半年開(kāi)始加快生產(chǎn)。

我們強(qiáng)烈懷疑英偉達(dá)會(huì)公布更多關(guān)于VR200 NVL72平臺(tái)的細(xì)節(jié)——這些平臺(tái)是GPU插槽數(shù)而非芯片組，因此這臺(tái)機(jī)器也是英偉達(dá)去年在2026年3月圣何塞GPU技術(shù)大會(huì)上對(duì)VR200 NVL144系統(tǒng)的稱(chēng)呼。但現(xiàn)在，我們先分享CES上發(fā)布的這些機(jī)器的介紹。（或者說(shuō)，是在CES，因?yàn)槲覀兗依锊辉谡箷?huì)現(xiàn)場(chǎng)，因?yàn)榧依镉行┽t(yī)療問(wèn)題。）

也許Harris在預(yù)簡(jiǎn)報(bào)中展示的最重要的圖表就是這張，它說(shuō)明了為什么Vera-Rubin系統(tǒng)的設(shè)計(jì)重點(diǎn)是提升HBM堆疊內(nèi)存帶寬，這樣這些昂貴的Rubin顯卡就能比Hopper和Blackwell世代更好地供電。（就像你用的是你擁有的軍隊(duì)，而不是你希望擁有的那支軍隊(duì)，每個(gè)IT供應(yīng)商都會(huì)帶著他們能集成、可靠性最高、成本最低的組件進(jìn)入市場(chǎng)。）請(qǐng)看：

但在專(zhuān)家混合時(shí)代，模型必須創(chuàng)建和分析更多代幣以得出更好的答案，而如果你想及時(shí)完成這些工作，處理所有專(zhuān)家之間交流需要大量帶寬。

因此，我們認(rèn)為，在新 Vera-Rubin 機(jī)器中最重要的指標(biāo)是，Rubin GPU 中八組 HBM4 內(nèi)存——大概是 R200，但 Nvidia 尚未公布其名稱(chēng)——的總內(nèi)存帶寬為 22 TB/秒，是 Blackwell GPU 所用八個(gè) HBM3E 堆棧的 8 TB/秒的 2.75 倍。雖然略高于預(yù)期，但288GB的容量是Blackwell B200顯卡192GB的1.5倍，完全符合預(yù)期。（如果HBM供應(yīng)放寬，英偉達(dá)未來(lái)可能會(huì)創(chuàng)造更豐厚的記憶，但我們強(qiáng)烈懷疑這會(huì)在2027年的Rubin Ultra顯卡上實(shí)現(xiàn)，而非2026年的Rubin。）

以下是Rubin顯卡的基本規(guī)格：

你會(huì)注意到，這款兩芯片組Rubin GPU插槽的NVFP4推理性能為50拍浮點(diǎn)運(yùn)算，是Blackwell B200顯卡性能的5倍，但訓(xùn)練時(shí)，NVFP4浮點(diǎn)運(yùn)算精度僅為35拍浮點(diǎn)運(yùn)算，僅為B200的10拍浮點(diǎn)運(yùn)算的3.5倍。后續(xù)的B300經(jīng)過(guò)調(diào)整，AI推斷性能提升至15千萬(wàn)億次運(yùn)算，比B200提升了50%。Nvidia從未真正解釋過(guò)這是怎么發(fā)生的。

但對(duì)于Rubin GPU，英偉達(dá)超大規(guī)模與高性能計(jì)算總經(jīng)理Ian Buck說(shuō)，有一個(gè)解釋?zhuān)@叫做自適應(yīng)壓縮，這是Rubin GPU重新設(shè)計(jì)的張量核心的一部分，也是這些張量核心實(shí)現(xiàn)的下一代Transformer Engine的一部分。

“自適應(yīng)壓縮基本上是一種更智能的稀疏化技術(shù)，能夠自適應(yīng)應(yīng)用，并且我們知道它不會(huì)影響準(zhǔn)確性，”巴克告訴《下一個(gè)平臺(tái)》。

雖然英偉達(dá)沒(méi)有明確說(shuō)明，但我們強(qiáng)烈懷疑這是Balckwell B300與早期B200顯卡之間的關(guān)鍵區(qū)別之一。（這并非英偉達(dá)GPU首次將未來(lái)技術(shù)引入。）否則如何解釋B300推理性能提升50%的原因？在一塊采用4納米工藝實(shí)現(xiàn)的芯片上，時(shí)鐘速度肯定沒(méi)提升多少。

我們會(huì)進(jìn)一步探討Rubin的GPU芯片，但Rubin復(fù)合體擁有3360億個(gè)晶體管，我們認(rèn)為它采用了臺(tái)積電N3的3納米工藝（雖然也可能跳到2納米的N2工藝），而B(niǎo)200的晶體管有2080億個(gè)。這意味著晶體管數(shù)量增加了62%，在沒(méi)有自適應(yīng)壓縮提升的情況下實(shí)現(xiàn)了3.5倍的性能提升——我們想知道這是如何實(shí)現(xiàn)的。

在CPU方面，英偉達(dá)今年晚些時(shí)候推出的AI及有時(shí)的高性能計(jì)算平臺(tái)包括基于Vera Arm的CPU和英偉達(dá)自家開(kāi)發(fā)的“奧林巴斯”核心。

根據(jù)我們?cè)贑ES上的第一印象，Vera的CPU比Grace好得多。Vera芯片擁有88個(gè)核心，每個(gè)核心兩線(xiàn)程，Nvidia稱(chēng)之為“空間多線(xiàn)程”，但尚未解釋。

Vera 核心每個(gè)核心有 2 MB L2 緩存（是 Grace 及其非定制 Arm Neoverse“Demeter” V2 核心的 2 倍），核心間共享 162 MB L3 緩存（比 Grace CPU 的 114 MB L3 緩存增加了 42%）。Vera芯片擁有1.5TB LPDDR5X內(nèi)存，是Grace的480 GB LPDDR5X內(nèi)存的3.2倍。每個(gè)Vera核心配備六個(gè)128位SVE2矢量引擎，支持FP64至FP8格式，這與Grace中支持FP64至FP16格式的四個(gè)128位SVE2單元相比，非常有趣。Vera 的共享內(nèi)存帶寬為 1.8 TB/秒，是 Grace 的兩倍，這使得它能夠非常快速地與與 MGX 系統(tǒng)板上的兩塊 Rubin GPU 共享數(shù)據(jù)，MGX 系統(tǒng)板是 Vera-Rubin VR200 NVL72 系統(tǒng)的關(guān)鍵組件。

將它們組合起來(lái)，你就得到了英偉達(dá)所稱(chēng)的Vera-Rubin超級(jí)芯片和我們所說(shuō)的系統(tǒng)板：

把其中兩個(gè)放進(jìn)一個(gè)MGX服務(wù)器滑板里，再把十八個(gè)這樣的滑板放進(jìn)一個(gè)“Oberon”機(jī)架，里面有36個(gè)NVSwitch 4交換機(jī)（英偉達(dá)現(xiàn)在稱(chēng)之為NVLink 6交換機(jī)以避免讓人混淆），你就擁有了一個(gè)機(jī)架級(jí)系統(tǒng)，具體如下：

考慮到Nvidia還沒(méi)開(kāi)始銷(xiāo)售這款Vera-Rubin巨獸，我們根本不知道它的售價(jià)。但鑒于機(jī)架中的所有設(shè)備制造成本都高于處理器本身，且顯然在同一空間內(nèi)提供了更強(qiáng)的動(dòng)力和更高的每瓦性能，我們認(rèn)為英偉達(dá)將能夠?yàn)閂era-Rubin系統(tǒng)收取更高的價(jià)格。具體金額將由市場(chǎng)決定——預(yù)計(jì)將會(huì)有英偉達(dá)著名聯(lián)合創(chuàng)始人兼首席執(zhí)行官的深度參與。

如果 GB200 NVL72 價(jià)格約為 335 萬(wàn)美元，正如我們兩年前估算的那樣，那么推理性能提升 5 倍的 VR200 NVL72 預(yù)計(jì)價(jià)格將達(dá)到 1680 萬(wàn)美元。啊，但每個(gè)代幣的成本必須大幅降低，英偉達(dá)表示推斷MoE的成本將降10倍。所以現(xiàn)在你只剩下168萬(wàn)美元了。我們絕不相信英偉達(dá)會(huì)只收取168萬(wàn)美元的價(jià)格，因此我們不知道上述10倍成本的降低來(lái)自何處。（我們認(rèn)為這可能是測(cè)量的MoE推斷性能，而非上圖所示的理論峰值表現(xiàn)。）我們更容易相信，Nvidia可能會(huì)收取比GB200 NVL72高2.5倍的費(fèi)用，但VR200 NVL72的原始NVFP4性能提升5倍，約840萬(wàn)美元，但原始推理性能成本降低了50%。很多事情取決于英偉達(dá)能擠出多少利潤(rùn)。考慮到英偉達(dá)最初與布萊克韋爾的麻煩，以及向魯賓過(guò)渡可能的順利，可能還有空間將價(jià)格降得比預(yù)期低，以抵御競(jìng)爭(zhēng)對(duì)手。

部分競(jìng)爭(zhēng)來(lái)自英偉達(dá)對(duì)Vera-Rubin系統(tǒng)的燈塔客戶(hù)，公司表示包括亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云、Microsoft Azure、甲骨云基礎(chǔ)設(shè)施，以及CoreWeave、Lambda、Nebius和Nscale等小型企業(yè)。前三個(gè)客戶(hù)正在自行開(kāi)發(fā)加速器，谷歌很可能以與Nvidia硬件層面相同甚至更低的代幣成本實(shí)現(xiàn)，并構(gòu)建單一內(nèi)存域可擴(kuò)展至9,216個(gè)TPU的系統(tǒng)。這個(gè)規(guī)模非常重要，也是Nvidia必須解決的真正工程難題。我們堅(jiān)信它也能做到這一點(diǎn)。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

英偉達(dá)的Vera-Rubin平臺(tái)在發(fā)布前六個(gè)月取代現(xiàn)有的AI鐵牌

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)