久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > EDA/PCB > 設計應用 > 英偉達的新Rubin架構在網絡領域蓬勃發展

英偉達的新Rubin架構在網絡領域蓬勃發展

作者: 時間:2026-01-16 來源:IEEE 收藏

在拉斯維加斯舉辦的國際消費電子展()上,意外發布全新 架構。這款計劃于年內正式推向市場的新平臺,官方宣稱相較前代 Blackwell 架構,其推理成本可降低 90%,訓練特定模型所需的 數量可減少 75%。

通常而言,硬件性能的提升往往聚焦于 本身。誠然,新款 Rubin 在面向大語言模型等基于變換器(Transformer)的推理負載時,4 比特精度運算性能可達 50 千萬億次浮點運算每秒(petaFLOPS),遠超 Blackwell 架構的 10 petaFLOPS。

但如果僅將目光放在 GPU 上,便會忽略該架構的核心突破點。基于 架構的計算設備,共集成 6 款全新芯片:Vera 中央處理器()、Rubin 圖形處理器(GPU),以及 4 款功能各異的網絡芯片。網絡事業部高級副總裁 Gilad Shainer 表示,該架構的性能優勢,必須依托所有組件的協同運作才能實現。

“同款硬件,不同的連接方式,所能釋放的性能天差地別。這正是我們將其稱為深度協同設計的原因。”

功能升級的 “網絡內計算” 技術

人工智能的訓練與推理負載,均需依托大規模 GPU 集群的并行運算。“兩年前,推理任務大多還在單塊 GPU、單臺設備、單個服務器上運行,”Shainer 指出,“而如今,推理任務正朝著分布式方向演進,且其分布式部署范圍已不再局限于單個機柜,而是拓展至跨機柜的規模。”

為了支撐這類大規模分布式任務,需要讓盡可能多的 GPU 像單一計算單元一樣高效協作,這正是縱向擴展網絡(scale-up network)的設計目標 —— 該網絡負責實現單個機柜內的 GPU 互聯。英偉達采用自研 NVLink 網絡芯片來搭建這一互聯架構,新推出的 NVLink6 交換機,帶寬相較上一代 NVLink5 交換機提升一倍:GPU 間互聯帶寬達到 3600GB/s,遠超 NVLink5 的 1800GB/s。

除帶寬翻倍外,縱向擴展系列芯片的串并轉換器(SerDes)數量也實現翻倍 —— 這類器件能夠減少數據傳輸所需的物理線路數量;同時,芯片支持在網絡層完成的運算任務范圍也得到大幅拓展。

“縱向擴展網絡的本質,并非單純的網絡架構,而是一套計算基礎設施。部分運算任務可直接在網絡層面完成…… 具體來說,就是在交換機上執行。”Shainer 補充道。

將部分運算任務從 GPU 轉移至網絡層執行,主要基于兩方面的考量。

第一,此舉可實現部分任務的 “單次執行、全局復用”,避免所有 GPU 重復執行相同操作。一個典型案例是人工智能訓練過程中的全歸約(all-reduce)操作:訓練時,每個 GPU 都會基于自身處理的數據批次計算梯度值;為確保模型訓練的準確性,所有 GPU 都需要獲取所有批次梯度值的平均值。如果讓每個 GPU 都向其他所有 GPU 發送自身計算的梯度值,再各自計算平均值,會產生巨大的算力與時間消耗;而將這一求平均操作交由網絡層統一執行,能夠顯著節省計算時間與功耗。

第二,通過在數據傳輸過程中同步完成運算任務,可有效隱藏 GPU 間的數據傳輸延遲。Shainer 用一個生動的比喻解釋這一原理:“假設一家披薩店想要縮短訂單配送時間,僅靠增加烤箱或員工數量是行不通的 —— 這些舉措只能提高披薩的總產量,卻無法縮短單個訂單的配送耗時。但如果換一種思路,把烤箱裝到配送車上,讓披薩在配送途中完成烘烤,就能真正節省時間。我們所做的,正是類似的事情。”

實際上,“網絡內計算” 并非英偉達在該架構中首次應用的技術,這項技術早在 2016 年左右就已投入實用。但 Shainer 表示,此次架構升級拓展了網絡層支持的運算類型,能夠適配更多樣化的負載場景與數值精度格式。

橫向擴展與跨域擴展網絡架構

架構所包含的其余網絡芯片,則共同構成了橫向擴展網絡(scale-out network),負責實現數據中心內部不同機柜之間的互聯。

這類芯片包含三款核心產品:

  • ConnectX-9 網絡接口卡:承擔數據中心內機柜間的數據傳輸接口功能;

  • BlueField-4 數據處理單元(DPU):每顆 BlueField-4 會與兩顆 Vera 及一塊 ConnectX-9 網卡搭配使用,專門負責卸載網絡、存儲及安全相關任務,釋放 GPU 算力;

  • Spectrum-6 以太網交換機:采用共封裝光學器件(co-packaged optics)技術實現機柜間數據傳輸,其帶寬相較前代產品翻倍,同時最大限度降低了數據分組傳輸時延抖動(jitter)—— 即數據分組到達時間的波動幅度。

“橫向擴展基礎設施的核心要求,是確保分布在不同機柜的 GPU 能夠高效通信,從而支撐分布式計算負載。這就需要構建一個無抖動的網絡環境。”Shainer 強調。時延抖動會引發一個嚴重問題:當不同機柜負責處理同一計算任務的不同部分時,各部分計算結果的返回時間會存在差異,必然有一個機柜的計算速度慢于其他機柜,而其他機柜中價值高昂的計算設備,只能處于閑置狀態等待最慢的結果返回。“時延抖動,就意味著真金白銀的損失。”

目前,英偉達推出的這一系列新芯片,均未專門針對跨域擴展(scale-across)場景 —— 即數據中心之間的互聯進行設計。但 Shainer 表示,這將是該技術的下一個發展方向。“技術的發展不會止步于此,因為我們看到,部分負載對數據中心內 GPU 數量的需求正在持續攀升。” 他指出,“對于一些超大規模負載而言,10 萬塊 GPU 已經無法滿足需求,因此,我們需要將多個數據中心連接起來,構建跨數據中心的算力集群。”


評論


相關推薦

技術專區

關閉