久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 新品快遞 > 英偉達 Groq 3 LPU推理加速器與Groq LPX機柜入駐Rubin平臺

英偉達 Groq 3 LPU推理加速器與Groq LPX機柜入駐Rubin平臺

—— 這款集成靜態隨機存取存儲器的加速器,可助力 AI 模型每個令牌的每一層運算性能提升
作者: 時間:2026-03-17 來源: 收藏

格羅克()技術為邁向多智能體系統新領域做好準備

1773708686219026.png

Rubin圖形處理器與格羅克

的Vera?Rubin計算平臺將為下一代人工智能數據中心(首席執行官黃仁勛將其稱作 “人工智能工廠”)提供強勁算力支持,這些系統將于今年晚些時候正式面世。在本屆 大會的主題演講中,黃仁勛公布了將去年收購的格羅克知識產權技術融入、實現功能升級的具體方案。現已新增一款核心芯片 —— 英偉達 3 ,該芯片能大幅提升系統的令牌生成量與低延遲表現,為前沿 AI 模型的高交互性運行提供支撐。

此前,Rubin平臺已搭載六款核心芯片,英偉達依托這些芯片搭建級算力系統,并進一步拓展為規模化人工智能工廠,這六款芯片分別為:Rubin圖形處理器、Vera中央處理器、新一代 NVLink 6 橫向擴展交換機、ConnectX 9 智能網絡接口卡、Bluefield 4 數據處理單元,以及集成共封裝光模塊的 Spectrum-X 縱向擴展交換機。如今, 3 成為Rubin平臺實現規?;瘮U展的又一核心硬件單元。

與多數依賴高帶寬存儲器作為工作內存的人工智能加速器不同,每顆 芯片均集成了 500 兆字節的靜態隨機存取存儲器,這類存儲器也被用于中央處理器和圖形處理器的超高速緩存。相較于Rubin圖形處理器搭載的 288 吉字節超大容量第四代高帶寬存儲器,500 兆字節的容量看似微不足道,但該靜態隨機存取存儲器能提供 150 太字節 / 秒的超高帶寬,遠超第四代高帶寬存儲器 22 太字節 / 秒的帶寬表現。對于對帶寬高度敏感的人工智能解碼運算,Groq 3 芯片帶來的海量帶寬提升,能為推理應用賦予極具吸引力的性能優勢。

英偉達將基于 Groq 3 LPU 芯片搭建 Groq 3 ,每個集成 256 顆 Groq 3 LPU 芯片。該款機柜可提供 128 吉字節的靜態隨機存取存儲器,推理加速帶寬達 40 拍字節 / 秒,機柜內還配備專用橫向擴展接口,單臺機柜的擴展帶寬可達 640 太字節 / 秒。

英偉達 Groq 3 機柜核心參數

2026 年下半年正式上市

人工智能推理算力

315 千萬億次浮點運算    / 秒

靜態隨機存取存儲器容量

128 吉字節

內存帶寬

40 拍字節 / 秒

橫向擴展芯片密度

256 顆

橫向擴展帶寬

640 太字節 / 秒

1773708764826607.png

(配圖標注:芯片間點對點骨干連接器、8 顆推理加速器芯片、現場可編程門陣列、搭載 Bluefield 4 的數據處理單元的主中央處理器、推理加速器芯片間點對點連接)

英偉達超大規模計算業務副總裁伊恩?巴克表示,英偉達將 Groq 機柜定位為Rubin平臺的協處理器,能夠實現 “AI 模型每個令牌的每一層解碼性能全方位提升”,同時這一組合也讓Rubin平臺具備了支撐人工智能下一發展前沿的能力 —— 滿足多智能體系統的運行需求。這類系統需在對萬億級參數模型進行推理運算、處理百萬級令牌上下文窗口的同時,保障高交互性能。

在多智能體系統中,人工智能智能體的交互對象正從面對聊天窗口的人類,逐漸轉變為其他人工智能智能體,這也讓系統的響應速度要求發生了新的變化。對于人類而言,每秒生成 100 個令牌的速度已屬可觀,但對于人工智能智能體來說,這一速度卻十分緩慢。伊恩?巴克描繪的多智能體系統未來圖景中,Rubin圖形處理器與格羅克推理加速器的組合,將把人工智能智能體間的交互吞吐量從目前每秒 100 個令牌的水平,提升至每秒 1500 個及以上令牌。

Groq 3 LPU 芯片的加入,將進一步強化Rubin平臺在低延遲推理領域的競爭力,助力其應對行業挑戰者。賽睿博拉斯公司憑借晶圓級引擎技術,集成了海量靜態隨機存取存儲器與算力單元,能為先進模型提供低延遲推理運算,該公司還多次指出英偉達圖形處理器在低延遲推理場景下的短板。包括開放人工智能公司在內的頭部客戶,均已采購賽睿博拉斯的算力服務,借助其平臺的低延遲優勢運行前沿人工智能模型。

伊恩?巴克還透露,Groq 3 LPU 的推出或會降低Rubin CPX 推理加速器的應用比重,英偉達目前正重點推進 Groq 3 LPX 機柜與Rubin平臺的集成工作。盡管他并未透露更多細節,但在當前內存資源緊張的行業背景下,這一研發重心的調整實則合乎情理 ——Groq 3 LPU 與Rubin CPX 推理加速器的定位相近,均為提升推理性能的專用芯片,而 Groq 3 LPU 無需像Rubin CPX 加速模塊那樣,搭配大容量第七代圖形雙倍數據率存儲器。 


評論


相關推薦

技術專區

關閉