久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > Arm Axion領銜谷歌第八代TPU,云端算力全面轉向智能體AI

Arm Axion領銜谷歌第八代TPU,云端算力全面轉向智能體AI

作者: 時間:2026-05-07 來源: 收藏

在 Google Cloud Next 大會上發布第八代 ,分為 8t 與 8i 兩款獨立型號,并首次采用自研 Arm Axion CPU 作為整套 TPU 系統的主控處理器。同期,Arm 發布面向服務器端的免費性能分析工具 Performix。三項發布均指向同一行業趨勢:云端 AI 工作負載正從單次模型查詢,轉向持續運行的智能體系統,需要持續編排推理鏈、調用工具、執行檢索任務。

訓練與推理首次分拆為獨立芯片

從初代到第七代 Ironwood, TPU 均采用單一芯片同時承載訓練與推理任務。第八代產品打破這一慣例,訓練與推理對硬件的核心需求存在本質差異,訓練側重大規模互聯下的計算吞吐,推理更看重內存帶寬、片上緩存與能效表現,單一芯片無法兼顧兩類場景,長期存在性能妥協。

TPU 8t:面向大規模訓練的算力架構

TPU 8t 主打大規模預訓練與高嵌入負載場景,單芯片搭載 216GB HBM,帶寬 6528GB/s,片上 SRAM 128MB,FP4 峰值算力 12.6PFLOPs,超級 Pod 最大可擴展至 9600 顆芯片,采用 3D Torus 架構組網。芯片內置 SparseCore 單元,專項處理嵌入查找時的不規則內存訪問,避免主矩陣運算單元因數據依賴出現性能損耗,同時搭載 LLM 解碼器引擎,專項加速自回歸解碼流程。相較上一代 Ironwood,TPU 8t 訓練性價比提升 2.7 倍,能效比最高提升 2 倍。

image.png

TPU 8t ASIC block diagram.

TPU 8i:針對長上下文推理優化設計

TPU 8i 面向推理與長上下文解碼場景,單芯片 HBM 容量提升至 288GB,帶寬達 8601GB/s,約為 TPU 8t 的 1.3 倍,片上 SRAM 擴容至 384MB,為上一代產品的三倍,單 Pod 最大規模 1152 顆芯片。片上存儲大幅擴容可直接優化長上下文推理性能。產品采用全新 Boardfly 互聯拓撲,專項優化混合專家模型路由的全量通信,壓縮網絡傳輸直徑,片上搭載集合通信加速引擎,保障互聯同步效率。相較上一代產品,TPU 8i 推理性價比提升 80%,能效比最高同樣提升 2 倍。

 

image.png

TPU 8i ASIC block diagram.

 

Axion 首次成為 TPU 全系主控

兩款新一代 TPU 均統一采用 Axion 作為主控 CPU,Axion 基于 Arm Neoverse V2 架構,為谷歌自研定制芯片。選用該架構的核心邏輯,與智能體 AI 的負載特性高度契合。智能體系統包含大量 CPU 密集型任務,涵蓋數據預處理、工具調用、檢索邏輯與多步推理編排調度,這類任務的運行效率,直接決定 TPU 算力的實際利用率。

Axion 在谷歌云的產品布局同步拓展,C4A 虛擬機與全新 C4A Metal 裸金屬實例,面向低延遲敏感型 AI 推理場景,N4A 實例覆蓋高性價比橫向擴展負載,包括網頁服務、API 接口與數據管道業務。谷歌同時將 Axion 與全新 GKE 智能體沙箱深度綁定,該沙箱基于 gVisor 與 Kata 容器構建,可保障智能體生成代碼的安全運行,在限定延遲內完成臨時容器啟動、工具調用與容器銷毀,谷歌表示 x86 架構難以在高并發場景滿足該延遲要求。歐洲旅行平臺 Loveholidays 為該方案早期商用客戶,在 C4A 實例上運行 PB 級嵌入與推理負載,規避專用加速器的高額成本。

Arm 發布 Performix 工具,適配智能體優化場景

Performix 可直接從 Arm 服務器硬件讀取運行計數器、追蹤數據與微架構事件,通過預設方案輸出結構化分析結果,同時適配工程師人工調試與 AI 智能體自動化調優,輸出數據可直接接入自動化優化流程。該工具為 Arm 官方首款覆蓋全棧 Neoverse 架構的性能分析工具,兼容下一代 Arm AGI CPU。微軟、MongoDB、Redis、SAP 為首批合作廠商。Arm 公布數據顯示,2025 年全球頭部云廠商采購的 CPU 算力中,Arm 架構產品占比已達 50%。

這三項發布放在一起,呈現的是谷歌對下一階段云端AI基礎設施的整體判斷:單芯片通吃的時代結束了,訓練與推理需要針對性設計;CPU在智能體系統里不再是配角,編排、工具調用、沙箱執行這些任務對主控處理器提出了新的要求;性能分析工具也需要跟上自動化調優的節奏。Arm架構在這套體系里的角色,已經不只是"省電的替代方案",而是從主控CPU到開發工具鏈的全棧滲透。JAX、PyTorch和Keras在Ironwood上的代碼可以直接移植到第八代,遷移門檻不高,但這套新架構能否在生產環境中兌現其價格性能承諾,仍需時間驗證。


關鍵詞: 谷歌 TPU

評論


相關推薦

技術專區

關閉