久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > AWS Graviton5為服務器CPU帶來了不同的平衡

AWS Graviton5為服務器CPU帶來了不同的平衡

作者: 時間:2025-12-09 來源: 收藏

1765268734269514.png

自兩年前為兩插槽系統推出Graviton4處理器以來,我們一直期待Annapurna Labs團隊能帶來新的Arm設計,他們負責為亞馬遜網絡服務開發CPU、XPU、DPU和擴展交換機。

Graviton4基于“Demeter”V2核心,與Nvidia“Grace” CG100處理器類似,是開發的首款具備NUMA集群功能的,允許兩個CPU共享內存,向作系統呈現單一內存空間和計算復合體。但正如計算與機器學習服務副總裁Dave Brown在re:Invent 2025大會開幕主題演講中所解釋的,兩個處理器在一組NUMA鏈路共享內存,給應用帶來了大量延遲,Graviton4核心無法使用足夠的L3緩存作為DRAM緩存也同樣存在。這以及其他因素,使得應用運行比你預期的慢,畢竟他們擁有192個Neoverse V2核心支持。

因此,Graviton5目前已在部分客戶中進行技術預覽,Annapurna Labs團隊似乎放棄了NUMA,將192個Arm核心集中在一個插槽上。現在瓶頸又回到了內存和內存帶寬的平衡,考慮到這192個核心,因為相比我們推測的“波塞冬”新宇宙V3核心,這個單一Graviton5插槽內的內存容量只有一半多一點,可能只有一半多一點。(有關Arm新宇宙核心和芯片路線圖的更多信息,請參見Arm Neoverse路線圖帶來CPU設計,但沒有大胖GPU。)

當然,我們認為沒有什么能阻止AWS開發雙套接字的Graviton5 NUMA版本,如果客戶需要這樣的配置,這可能最終實現。(我們認為有些人會這樣做。)

Brown在Graviton5的進給和轉速方面并未給出太多。我們知道Graviton5在單個插槽中有192個核心,是Graviton4 CPU核心的兩倍,但性能僅提升約25%。我們還知道Graviton5每個核心的L3緩存是Graviton4的2.67倍,每顆芯片的L3緩存是Graviton4的5.3倍。我們認為Graviton5采用了臺灣積電路制造有限公司的3納米工藝,與目前大量發貨的UltraServer集群中的Tranium3 XPU相同。

Brown還簡要展示了Graviton5的方框圖,我們很快拍下了,但由于攝像機距離舞臺背景屏幕很遠,畫面仍然模糊:

1765268796434273.png

如果你瞇著眼看,你會看到芯片中央有96對Arm核心,中間有網狀互連。芯片頂部有四個PCI-Express 6.0控制器,底部還有四個,總共應有96條通道,每顆PCI-Express控制器在十二條通道下實現2.84 TB/秒的全雙工速度。

在芯片左右兩側各有六個DDR5內存控制器,整個Graviton5插槽共有十二個DDR5內存控制器。如果AWS使用運行在6.4 GHz的DDR5-6400內存,單個Graviton5芯片將擁有614.4 GB/秒的內存帶寬,比Graviton4提升14.3%。這看起來不多,正如我們所期望的,AWS實際上使用了DDR5-7200內存配合Graviton5,插槽中帶寬為691.2 GB/秒,相比Graviton4的537.6 GB/秒提升了28.6%。然而,兩個Graviton4相比單個Graviton5的內存容量是兩倍,帶寬也多出55.6%,因此在將192個核心移回單一插槽時,有些東西會被放棄。

當我們幻想AWS如何利用Graviton5的主存時,我們希望它能在插槽上推送最多16個控制器,這樣在6.4 GHz時能提供819.2 GB/秒的速度。相反,AWS正在提升內存速度,Graviton5將支持運行8.4 GHz的DDR5-8400內存,單插槽實現806.4 GB/秒,占雙芯片Graviton4總計1,075.2 GB/秒的75%。

Brown 完全沒有提及 Graviton5 核心,但我們后來確認該核心基于 Poseidon Neoverse V3 核心,實現了 Arm-V9.2-A 的增強。由于Brown說Graviton5核心比Graviton4核心多25%,我們以為它是一個大幅降低齒輪的192核芯片,主頻僅有1.75 GHz。但事實證明,AWS談論的是兩插槽的Graviton4機器,而Graviton5的單插槽機器,現在很明顯,NUMA的Graviton4實現只是過渡方案,直到Graviton5芯片進入市場。

Poseidon V3核心每個核心允許2MB或3MB的L2緩存,我們選擇了表中較寬的那個;實際上是2MB。我們認為L1指令緩存和數據緩存在每個核心內將各自保持在64 KB內存。

以下是六種不同Graviton芯片在進給和轉速上的表現:

1765268826136665.png

在我們估算時,我們認為Graviton5復合體大約有1320億個晶體管,在我們最初假設的1.75 GHz頻率下消耗約180瓦,在我們推測的實際頻率3.1 GHz下大約消耗650瓦。

我們設想Graviton5不僅配備PCI-Express 6.0控制器,還有帶有NVLink Fusion和UALink接口的變體,可以直接連接GPU和XPU計算引擎以共享內存。

Brown表示,使用Graviton5并面向通用工作負載的M9g實例目前處于預覽階段。面向計算密集型作業的C9g實例和針對內存密集型作業的R9g實例預計將在2026年發布。


評論


技術專區

關閉