英偉達公布基于其Vera Rubin架構的千兆瓦“人工智能工廠”愿景
英偉達公司今天在圣何塞舉行的 2025 年 OCP 全球峰會上登臺,談論了它如何與 70 多個合作伙伴合作設計更高效的“千兆瓦 AI 工廠”,以支持下一代人工智能模型。
英偉達設想的千兆瓦人工智能工廠將采用 Vera Rubin NVL144,這是一款基于 100% 液冷設計的開放式架構機架式服務器。它旨在支持該公司的下一代 Vera Rubin 圖形處理單元,預計將于 2027 年推出。該架構將使公司能夠成倍地擴展其數據中心,通過中央印刷電路板中板實現更快的組裝,并根據需要添加用于網絡和推理的模塊化擴展托架。
英偉達表示,它正在將 Vera Rubin NVL144 架構作為開放標準捐贈給開放計算項目,以便任何公司都能夠在自己的數據中心中實施它。它還談到了其生態系統合作伙伴如何加強對 Nvidia Kyber 服務器機架設計的支持,該設計最終將能夠連接 576 個 Rubin Ultra GPU 可用。
此外,Meta Platforms Inc. 和 Oracle Corp. 都宣布計劃在該公司的 Spectrum-X 以太網網絡交換機上標準化其數據中心,這也提振了 Nvidia。
對 Vera Rubin NVL144 的支持不斷增加
Vera Rubin NVL144 架構旨在支持千兆瓦時代推出 800 伏直流數據中心,英偉達希望它能成為新的“人工智能工廠”的基礎,即針對人工智能工作負載進行優化的數據中心。
主要的設計創新之一是中央印刷電路板中板,它取代了數據中心中傳統的基于電纜的連接,以實現更快速的組裝,同時使其更易于維修和升級。模塊化擴展托架有助于該架構面向未來,允許數據中心運營商添加 Nvidia ConnectX-9 800GB/s 網絡和 Vera Rubin GPU 來擴展其 AI 工廠,以滿足對計算能力和帶寬日益增長的需求。此外,Vera Rubin NVL144 采用先進的 45°C 液冷母線,可實現更高的性能,儲能能力提高 20 倍,以確保可靠的供電。
Nvidia 解釋說,Vera Rubin NVL144 旨在為未來做準備,其靈活的架構旨在隨著時間的推移而擴展,以支持先進的推理引擎和自主 AI 代理的需求。它基于現有的 Nvidia MGX 模塊化架構,這意味著它與來自 50 多個生態系統合作伙伴的眾多第三方組件和系統兼容。借助新架構,數據中心運營商將能夠以模塊化方式混合和匹配不同的組件,以定制他們的人工智能工廠。
在峰會上,超過 50 家生態系統合作伙伴宣布支持 Vera Rubin NVL144 架構。
Nvidia Kyber 提高 AI 能源效率
Nvidia 還透露了對其 Nvidia Kyber 機架服務器架構的日益增長的支持,該架構旨在支持為 576 個 Vera Rubin GPU 集群提供動力的基礎設施。與 Vera Rubin NVL144 一樣,Nvidia Kyber 在 800 VDC 供電、液體冷卻和機械設計方面具有多項創新。
該公司解釋說,即將推出的 Vera Rubin GPU 的電力需求增加,需要改進的能源分配系統。它表示,應對更高配電挑戰的最有效方法是增加電壓,這意味著它正在放棄傳統的 415 和 480 伏三相系統,轉而采用新的 800 VDC 架構。英偉達表示,有了這個系統,將有可能通過相同的銅線傳輸 150% 以上的電力。
Nvidia Kyber 還支持增加機架 GPU 密度,以最大限度地提高 AI 基礎設施的性能。它引入了一種新設計,可以像書架上的書籍一樣垂直旋轉計算刀片,以便在單個機箱上安裝 18 個計算刀片。同時,專用的 Nvidia NVLink 交換機刀片通過無電纜中板集成在背面,以擴展網絡功能。
英偉達表示,Kyber 將成為未來超大規模數據中心的“基礎元素”,具有卓越的性能、更高的可靠性和更高的能源效率,能夠支持未來幾年人工智能的預期進步。
Meta 和 Oracle 采用 Spectrum-X 以太網

Vera Rubin NVL144 和 Kyber 的影響可能還要幾年后才能感受到,但 Nvidia 表示,Meta 和 Oracle 在決定在其現有和未來的數據中心標準化其 Spectrum-X 以太網交換機(如圖)后,將看到更直接的收益。
Spectrum-X 以太網交換機是更先進的網絡交換機,可以通過提供更高速的連接和增強的數據吞吐量來為 AI 工作負載提供即時的性能提升。Nvidia 表示,它們利用自適應路由來優化通過網絡的數據流,這使它們能夠更好地處理 AI 應用程序的獨特流量模式。在早些時候的演示中,Nvidia 展示了世界上最大的 AI 超級計算機如何使用 Spectrum-X 實現 95% 的數據吞吐速度。
Meta 計劃將 Spectrum-X 以太網交換機集成到 Facebook 開放交換系統中,該系統是它用于大規模管理和控制網絡交換機的軟件平臺。Meta 網絡工程副總裁 Gaya Nagarajan 表示,該公司預計將立即提高 AI 訓練效率。
“Meta 的下一代人工智能基礎設施需要業界前所未有的規模的開放和高效的網絡,”他說。“通過將 Nvidia Spectrum-X 以太網集成到 Minipack3N 交換機和 FBOSS 中,我們可以擴展我們的開放網絡方法,同時釋放訓練越來越大的模型并將生成式 AI 應用程序帶給數十億人所需的效率和可預測性。”
與此同時,甲骨文正在展望未來。它不僅會將 Spectrum-X 以太網集成到其現有數據中心中,還會將未來由 Vera Rubin GPU 提供支持的千兆瓦級人工智能工廠集成。
Oracle 云基礎設施執行副總裁 Mahesh Thiagarajan 表示:“通過采用 Spectrum-X 以太網,我們可以以突破性的效率互連數百萬個 GPU,以便我們的客戶能夠更快地訓練、部署并從下一波生成式和推理 AI 中受益。










評論