久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 英偉達將在CES發布Vera Rubin的NVL72 AI超級計算機——承諾推理性能提升5倍,且每枚代幣成本降低10倍,預計將在2026年下半年發布

英偉達將在CES發布Vera Rubin的NVL72 AI超級計算機——承諾推理性能提升5倍,且每枚代幣成本降低10倍,預計將在2026年下半年發布

作者: 時間:2026-01-06 來源: 收藏

1767662049477175.png

,人工智能無處不在,而GPU則是不斷擴展的人工智能領域的核心。今天,在CES主題演講中,首席執行官黃仁明分享了他如何讓公司在人工智能革命中保持領先地位的計劃,因為這項技術遠遠超越了聊天機器人,進入機器人、自動駕駛車輛以及更廣泛的物理世界。

首先,黃氏正式發布了 ,這是下一代人工智能數據中心機架級架構。Rubin是公司所謂的“極端聯合設計”成果,涵蓋六種芯片:Vera CPU、Rubin顯卡、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4數據處理單元和Spectrum-6以太網交換機。這些基本組件匯聚在一起,造就了 NVL72機架。

對AI計算的需求無窮無盡,每一代Rubin顯卡都承諾在這一代中實現更多:NVFP4數據類型下推理性能可達50 PFLOPS,是Blackwell GB200的5倍;NVFP4訓練性能可達35 PFLOPS,是Blackwell的3.5倍。為這些計算資源提供能量,每個Rubin GPU套件配備八組HBM4內存,提供288GB容量和22 TB/s帶寬。

每GPU計算只是AI數據中心的一個構建模塊。隨著領先的大型語言模型從密集的架構(激活所有參數以生成輸出詞)轉變為僅激活部分可用參數的專家混合(MoE)架構,這些模型的規模化變得相對高效。然而,模型內專家之間的通信需要大量的節點間帶寬。

推出了 NVLink 6 用于擴展網絡,將每GPU結構帶寬提升至3.6 TB/s(雙向)。每臺NVLink 6交換機擁有28 TB/s帶寬,每個Vera Rubin NVL72機架配備九臺此類交換機,總擴展帶寬為260 TB/s。

Nvidia Vera CPU 實現了 88 個定制的 Olympus Arm 核心,采用 Nvidia 稱之為“空間多線程”的技術,最多可支持176個線程。用于將Vera CPU與Rubin顯卡一致連接的NVLink C2C互連帶寬翻倍,達到1.8 TB/s。每個 Vera CPU 最多可尋址 1.5 TB 的 SOCAMM LPDDR5X 內存,內存帶寬最高可達 1.2 TB/s。

為了將Vera Rubin NVL72機架擴展為每臺8個機架的DGX SuperPod,推出了兩款Spectrum-X以太網交換機,配備同封裝光學器件,全部由其Spectrum-6芯片組裝而成。每顆Spectrum-6芯片提供102.4 TB/s帶寬,英偉達將通過兩款交換機提供該帶寬。

SN688 擁有 409.6 Tb/s 帶寬,支持 512 個 800G 以太網端口或 2048 個 200G 端口。SN6810 提供 102.4 Tb/s 帶寬,可分流至 128 個 800G 端口或 512 個 200G 以太網端口。這兩款交換機均采用液冷技術,英偉達聲稱它們更節能、更可靠,且運行時間更優,推測是針對缺乏硅光子技術的硬件。

隨著上下文窗口數量增長到數百萬個令牌,英偉達表示,對保存與AI模型交互歷史的關鍵值緩存的作成為推理性能的瓶頸。為了突破這一瓶頸,英偉達利用其下一代BlueField 4 DPU打造了它所謂的新內存層級:Inference上下文內存存儲平臺。

公司表示,這一存儲層旨在實現關鍵值緩存數據在AI基礎設施間的高效共享和重用,從而提升響應速度和吞吐量,并實現代理型AI架構的可預測且節能的擴展性。

Vera Rubin首次將Nvidia可信執行環境擴展到整個機架,通過保護芯片、結構和網絡層級,Nvidia表示這對于確保AI前沿實驗室珍貴的尖端模型的保密和安全至關重要。

總的來說,每臺Vera Rubin NVL72機架提供3.6 exaFLOPS的NVFP4推理性能,2.5 exaFLOPS的NVFP4訓練性能,連接Vera CPU的54 TB LPDDR5X內存,以及20.7 TB的HBM4,提供1.6 PB/s的帶寬。

為了保持機架的生產力,英偉達強調了機架層面的多項可靠性、可用性和可維護性(RAS)改進,例如無線模塊化托盤設計,使組件更換速度比之前的NVL72機架更快;NVLink彈性提升,實現零停機維護;以及第二代RAS引擎實現零停機健康檢查。

所有這些原始的計算和帶寬表面上令人印象深刻,但對英偉達合作伙伴來說,在考慮未來大規模容量投資時,擁有成本的整體情況可能更為重要。Nvidia表示,Vera Rubin訓練MoE模型所需的GPU數量僅為Blackwell的四分之一,Rubin還能將MoE推斷的代幣成本降低多達10倍,涵蓋廣泛型號。如果我們反過來看,這表明Rubin還能提升訓練吞吐量,并在同一機架空間內交付更多代幣。

英偉達表示,他們已經從晶圓廠取回了用于構建Vera Rubin NVL72系統的全部六顆芯片,并且對其運行的工作負載性能感到滿意。公司預計將在2026年下半年加快Vera Rubin NVL72系統的批量生產,這一預測與其以往關于Rubin供應情況的預測保持一致。


評論


相關推薦

技術專區

關閉