久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > TPU v7:谷歌對AI王座發起挑戰

TPU v7:谷歌對AI王座發起挑戰

作者:EEPW編譯 時間:2025-12-08 來源:SemiAnalysis 收藏

可能是世界上最好的兩大模型,Anthropic的Claude 4.5 Opus和的Gemini 3,其大部分訓練和推理基礎設施都依賴于和亞馬遜的Trainium。現在正在向多家公司實體銷售。這是否意味著處理器統治地位結束?

人工智能時代的曙光已然降臨,我們必須認識到,人工智能驅動型軟件的成本結構與傳統軟件存在顯著差異。芯片微架構和系統架構在這類創新型新軟件的開發與規模化應用中,發揮著至關重要的作用。與早期以開發者成本為主要支出的軟件相比,支撐人工智能軟件運行的硬件基礎設施,對資本支出(Capex)和運營支出(Opex)乃至毛利率的影響要大得多。因此,為順利部署人工智能軟件,投入更多精力優化人工智能基礎設施就顯得尤為關鍵。在基礎設施領域占據優勢的企業,在人工智能應用的部署與規模化拓展能力上,同樣會具備領先優勢。

谷歌早在2006年就開始推銷構建專門基礎設施的想法,但問題在2013年達到了臨界點。他們意識到,如果想在任何規模上部署人工智能,就必須將現有的數據中心數量翻倍。因此,他們開始為芯片奠定基礎,并于2016年投入生產。與亞馬遜相比很有趣,亞馬遜同年意識到他們也需要制造定制硅片。2013年,他們啟動了Nitro項目,專注于開發硅片以優化通用CPU計算和存儲。兩家截然不同的公司針對不同時代的計算和軟件范式優化了基礎設施建設。

早在 2006 年,谷歌就開始宣揚打造人工智能專用基礎設施的理念,但相關問題在 2013 年徹底爆發。當時谷歌意識到,若要實現人工智能的規模化部署,就必須將其數據中心的數量擴充一倍。為此,谷歌啟動了張量處理單元(TPU)芯片的研發籌備工作,該芯片于 2016 年正式投產。有趣的是,同年亞馬遜也意識到自身需要研發定制化芯片。早在 2013 年,亞馬遜就啟動了Nitro 項目,該項目專注于研發芯片以優化通用型中央處理器(CPU)的計算性能與存儲能力。這兩家風格迥異的企業,針對不同計算時代與軟件范式的需求,在基礎設施領域各自展開了針對性的優化布局。

長期以來,我們一直認為張量處理單元(TPU) 是全球最頂尖的人工智能訓練與推理系統之一,與行業龍頭不相上下。兩年半前,我們曾撰文提出 “TPU 優勢論”,如今這一觀點已被證實是完全正確的。

張量處理單元(TPU)的實力不言而喻:雙子座 3(Gemini 3)作為全球性能頂尖的大模型之一,其訓練過程完全基于 TPU 平臺完成。本文我們將探討谷歌為推動 TPU 對外商業化所做出的重大戰略調整 —— 這家科技巨頭正借此轉型為在商用芯片領域最新、也最具威脅的競爭對手。

本文將圍繞以下內容展開:

1. 面向客戶與新讀者,重新解讀 TPU 對外商用的高速增長態勢,案例覆蓋從Anthropic(人工智能公司)起步,延伸至元宇宙(Meta)、SSI(半導體創新公司)、x 乃至潛在客戶OpenAI等一眾企業……

2. 論證核心觀點:采購的 TPU 越多,節省的英偉達 GPU 資本支出就越多!即便尚未部署 TPU,OpenAI 已借助市場競爭帶來的議價優勢,將其計算集群成本降低約 30%,實現了單位總擁有成本(TCO)下的性能提升。

3. 解析人工智能基礎設施領域的循環經濟合作模式。

4. 回溯我們此前發布的 TPU 深度分析報告,重新梳理從芯片底層到軟件層面的 TPU 硬件技術棧。

5. 闡述 TPU 在開放式軟件生態領域取得的積極進展,同時指出谷歌若想打破英偉達 CUDA 技術壁壘、構建具備競爭力的 TPU 生態,亟待補齊的關鍵短板 —— 即開源其 XLA:TPU 編譯器、運行時環境及多機柜集群 “MegaScaler”(大規模擴展)代碼。

此外,報告還將剖析谷歌 TPU 對英偉達構成的長期威脅。

首先,我們來談談這一消息對行業生態造成的影響。張量處理單元(TPU) 的性能顯然已經引起了競爭對手的密切關注。山姆?奧特曼坦言,隨著雙子座(Gemini) 模型搶占了 OpenAI 的風頭,公司未來的發展將面臨 “嚴峻挑戰”。英偉達甚至發布了一份安撫性的公關聲明,呼吁大家保持鎮定、繼續前行 —— 并稱其在競爭中仍遙遙領先。


image.png


來源:Nvidia

我們完全理解其中的緣由。過去數月,谷歌深度思維(Google DeepMind)、谷歌云平臺(GCP)與張量處理單元(TPU)業務聯合體捷報頻傳:TPU 的產能規模被大幅上調,Anthropic 公司的 TPU 算力部署規模突破 1 吉瓦,性能達業界頂尖水平(SOTA)的 Gemini 3 和 Opus 4.5 兩大模型均基于 TPU 完成訓練,如今其目標客戶名單還在持續擴容 ——Meta、SSI、xAI、OpenAI(OAI)等企業均在排隊采購 TPU。

這一系列動態推動了谷歌及 TPU 供應鏈的估值大幅上調,而這一變化的代價,則是此前聚焦英偉達 GPU 的供應鏈估值受到擠壓。盡管谷歌及 TPU 供應鏈的 “異軍突起” 令不少市場參與者猝不及防,但半導體分析公司(SemiAnalysis)機構產品的訂閱用戶,早在一年前就已預判到了這一趨勢。


image.png


來源:SemiAnalysis 和 Bloomberg

英偉達陷入守勢的另一個原因,是越來越多的質疑者齊聲指出:該公司正通過為燒錢的人工智能初創企業提供資金,構建一種 “循環經濟” 模式 —— 這本質上就是多繞幾道彎,把錢從一個口袋挪到另一個口袋。我們認為這種觀點有失偏頗,但它顯然觸動了英偉達的敏感神經。其財務團隊已發布一份詳細回應,內容轉載如下。


image.png


來源:英偉達2026財年第三季度財報報告,伯恩斯坦研究

我們認為一種更貼合實際的解釋是:英偉達意在通過股權投資而非降價的方式,鞏固其在基礎研發實驗室領域的主導地位 —— 降價不僅會拉低毛利率,還會引發投資者的普遍恐慌。下文將以 OpenAI 和 Anthropic 的合作協議為例,闡述前沿實驗室如何通過采購或威脅采購 TPU的手段,降低 GPU 的總擁有成本(TCO)。


image.png


來源:SemiAnalysis TCO 模型、Anthropic 和 OpenAI

OpenAI 甚至尚未部署張量處理單元(TPU),就已將其整個實驗室的英偉達 GPU 集群成本降低了約 30%。這一事實足以證明,TPU 所具備的單位總擁有成本(TCO)性能優勢十分顯著 —— 即便還未啟用哪怕一臺 TPU,企業僅憑借采購 TPU 的潛在意向,就能收獲成本優化的紅利。

谷歌大舉推進 TPU 對外商用及與 Anthropic 的合作協議

長期以來,TPU 技術棧的性能足以與英偉達的人工智能硬件相抗衡,但它此前主要服務于谷歌內部的工作負載。秉持谷歌一貫的風格,即便早在 2018 年就已向谷歌云平臺(GCP)客戶開放 TPU 的使用權限,該公司也始終未對這項技術進行全面商業化運作。如今,這一局面正開始發生轉變。

在過去數月間,谷歌調動全技術棧資源,通過兩種方式向外部客戶提供 TPU 產品:一是依托谷歌云平臺(GCP)進行交付,二是以商用芯片供應商的身份直接銷售完整的 TPU 系統。這家搜索巨頭正憑借其強大的自研芯片設計能力,轉型為一家具備獨特競爭優勢的云服務提供商。此外,這一戰略布局也與頭部客戶 Anthropic 的訴求相契合 —— 后者正持續推進供應鏈多元化,以降低對英偉達(NVDA)的依賴。


image.png


來源 :SemiAnalysis Tokenomics Model

與 Anthropic 的合作協議,是谷歌推進 TPU 對外商用進程中的一個重要里程碑。據悉,谷歌云(GCP)首席執行官托馬斯?庫里安在此次談判中發揮了核心作用。為推動 TPU 的應用場景突破谷歌內部范疇,谷歌很早就采取了積極行動,不僅在 Anthropic 的多輪融資中大手筆投資,甚至還同意放棄投票權,并將自身持股比例上限設定為 15%。得益于這家基礎研發實驗室中配備了原深度思維(DeepMind)的 TPU 技術團隊,這一戰略合作得以順利推進,最終促成 Anthropic 在包括 TPU 在內的多款硬件平臺上,完成了 Sonnet 與 Opus 4.5 兩大模型的訓練工作。正如我們這份人工智能實驗室建筑追蹤報告的截圖所示,谷歌已為 Anthropic 建成了一座規模可觀的專屬算力設施。


image.png


來源:SemiAnalysis Datacenter Industry Model

除了通過谷歌云平臺(GCP)租用谷歌數據中心的算力外,Anthropic 公司還將在自有設施內部署張量處理單元(TPU)。此舉將助力谷歌轉型為真正的商用硬件供應商,與英偉達展開正面競爭。

關于 100 萬個 TPU 的分配方案如下:

1.合作協議的第一階段涉及40 萬個 TPUv7(代號 “Ironwoods”),這批產品將以整機柜形態交付,總價值約 100 億美元,由博通公司直接銷售給 Anthropic。Anthropic 正是博通公司在最新財報電話會議中提及的第四大客戶。金牌級 ClusterMax 混合云服務提供商Fluidstack公司將負責現場安裝、布線、老化測試、驗收測試以及遠程協助運維等工作 —— 這是因為 Anthropic 將物理服務器的管理工作進行了外包。數據中心基礎設施則由泰拉沃爾夫公司(TeraWulf,股票代碼 WULF)與西弗礦業公司(Cipher Mining,股票代碼 CIFR)聯合提供。

2.剩余的60 萬個 TPUv7將通過谷歌云平臺(GCP)進行租賃,我們估算這筆訂單對應的長期未交付訂單金額(RPO)高達 420 億美元,占谷歌云平臺第三季度公布的 490 億美元未交付訂單增量的絕大部分。

3.我們認為,未來幾個季度,谷歌與 Meta、OpenAI(OAI)、SSI 及 xAI 等企業達成的新增合作,有望為谷歌云平臺帶來更多長期未交付訂單收入及硬件直售收入。

盡管目前對內、對外的 TPU 需求均十分旺盛,但谷歌仍未能按預期速度完成 TPU 的部署。相較于其他仍需仰仗黃仁勛的超大規模云服務商,谷歌對自身硬件供應鏈的掌控力本就更強,但其當前面臨的主要瓶頸是電力供應。

盡管其他超大規模云服務商早已擴張自有數據中心場地,并鎖定了大量主機托管算力資源,谷歌的行動卻相對遲緩。我們認為,核心問題出在合同流程與行政管理層面。每新增一家數據中心供應商,都需要簽訂一份《主服務協議》(Master Services Agreement,MSA);這類協議涉及數十億美元規模、長達數年的合作承諾,自然會伴隨繁瑣的行政流程。而谷歌的審批流程尤為拖沓,往往從初步接洽到最終簽署協議,耗時可長達三年。

谷歌采取的這一權宜之計,對那些尋求轉型人工智能數據中心基礎設施領域的混合云服務商與加密貨幣礦企,產生了重大影響。谷歌并未直接向數據中心供應商租賃場地,而是提供了信用擔保—— 這是一種表外 “欠條” 機制(off-balance sheet),一旦Fluidstack公司無力支付數據中心租金,谷歌將介入兜底。


image.png


來源:TeraWulf

Fluidstack這類混合云服務商靈活敏捷,能夠更便捷地與轉型后的加密貨幣礦企等新興數據中心供應商展開合作。加密貨幣礦企的轉型機遇,源于一個簡單的行業動態:數據中心行業正面臨嚴峻的電力資源瓶頸,而加密貨幣礦企早已憑借其電力購買協議(PPA)和現有電力基礎設施,牢牢掌握了充足的電力容量。我們預計,在未來數周至數個季度內,將會涌現出更多類似的合作協議。

谷歌如何重塑混合云市場

在谷歌/Fluidstack/TeraWulf的合作協議達成之前,混合云市場從未出現過僅憑表外 “欠條” 機制就敲定的合作案例。而在該協議落地后,我們認為這種模式已成為混合云領域事實上的全新融資標準模板。這一模式恰好解決了混合云服務商在獲取數據中心算力資源、拓展業務過程中面臨的一大痛點:

  • 一個 GPU 計算集群的預期使用壽命僅為 4-5 年;

  • 一份大型數據中心租賃合同的期限通常長達 15 年以上,項目投資回收期約為 8 年。

這種期限錯配問題,曾讓混合云服務商與數據中心供應商在為項目融資時面臨重重阻礙。但隨著超大規模云服務商兜底模式的興起,我們認為融資難題已迎刃而解。混合云行業有望迎來新一輪增長浪潮。以上便是 Anthropic 合作協議背后的運作邏輯與深層原因,接下來我們將聚焦硬件層面展開分析。

此外,對于那些有黃仁勛投資背景的混合云服務商 —— 例如 CoreWeave、Nebius、Crusoe、Together、Lambda、Firmus 及 Nscale 等企業而言,它們顯然存在強烈的動機,不會在自家數據中心采用任何競爭性技術:無論是 TPU、AMD 圖形處理器,甚至是 Arista 交換機,均被劃入禁止使用的范疇!這就給 TPU 托管業務留下了巨大的市場空白,而當前填補這一空白的主體,正是加密貨幣礦企與Fluidstack公司的聯合體。未來數月,我們預計會有更多混合云服務商面臨兩難抉擇:究竟是抓住蓬勃發展的 TPU 托管機遇,還是爭取獲得英偉達最新的Rubin系統配額。

TPUv7 Ironwood——為何 Anthropic 及其他客戶青睞 TPU?

答案很簡單:這款性能強勁的芯片,搭載于一套精良的系統之中,二者的組合為 Anthropic 帶來了極具吸引力的性能表現與總擁有成本優勢。兩年半前,我們就曾撰文探討谷歌在計算基礎設施領域的優勢。即便在紙面參數上,其芯片性能落后于英偉達,但谷歌憑借系統級工程優化,依然讓 TPU 技術棧在性能與成本效益兩方面,均能與英偉達的產品相匹敵。

彼時我們就提出過一個觀點 ——“系統的重要性遠超微架構”,而過去兩年的行業實踐,進一步印證了這一論斷的正確性。Anthropic 下達的巨額 TPU 訂單,便是對該平臺技術實力的直接佐證。與此同時,GPU 生態也在同步向前演進。英偉達的 GB200 芯片堪稱一次重大技術飛躍,推動英偉達朝著真正的系統級企業轉型 —— 其業務范疇不再局限于芯片封裝設計,而是延伸至完整服務器的研發生產。

談及 GB200 在機柜級互聯技術上的重大突破,有一個極易被忽視的事實:早在 2017 年推出第二代 TPU(TPU v2)時,谷歌就已實現了機柜內部及機柜之間的 TPU 算力擴展!在本報告的后續章節中,我們將深入剖析谷歌的ICI 擴展網絡技術—— 這項技術也是目前唯一能與英偉達 NVLink 互聯技術相抗衡的方案。

谷歌最新發布的 Gemini 3 大模型,如今已被公認為業界頂尖的前沿大語言模型。與此前所有版本的 Gemini 模型一樣,它的訓練過程完全基于 TPU 平臺完成。這一成果,為 TPU 的性能優勢以及谷歌在整體基礎設施領域的領先地位,提供了確鑿的實證。

當前市場的關注點往往集中在推理和訓練后階段的硬件技術上,但事實上,前沿大模型的預訓練環節,才是人工智能硬件領域難度最高、資源消耗最大的核心挑戰。TPU 平臺已憑借實力,穩穩通過了這一嚴苛考驗。反觀其競爭對手,二者的表現形成了鮮明反差:自 2024 年 5 月 GPT-4o 發布以來,OpenAI 的頂尖研發團隊始終未能成功完成一次全規模預訓練,并將其成果廣泛應用于新一代前沿大模型的部署。這一現狀,恰恰凸顯出谷歌的 TPU 算力集群已經攻克了何等艱巨的技術難關。

這款新模型的核心亮點之一,在于其在工具調用能力和智能體能力上實現了顯著提升,尤其在執行具有經濟價值的長周期任務時表現更為突出。“自動售貨機基準測試”(Vending Bench)是一項專門用于評估模型長期運營能力的測試 —— 該測試會將模型設定為模擬自動售貨機業務的經營者,以此衡量模型的長期業務管理水平。在這項測試中,Gemini 3 的表現遠超所有競品。


image.png


來源:Vending-Bench

此次發布不僅實現了功能升級,更推出了全新產品。Antigravity這款產品脫胎于谷歌對帆板科技(Windsurf)前首席執行官瓦倫?莫漢(Varun Mohan)及其團隊的收購式招聘,是谷歌對標 OpenAI 代碼生成模型 Codex 的重磅之作,標志著 Gemini 正式入局競爭激烈的交互式代碼生成算力消耗大戰。

對谷歌而言,其核心業務過去并非(或者說,原本并非)硬件領域,卻能低調發力,在硬件領域最具挑戰性的難題之一上建立性能領先優勢,這著實是一項令人贊嘆的成就。

微架構依然是個大問題:Ironwood接近Blackwell

“系統的重要性遠超微架構” 這一論斷的必然推論是:盡管谷歌一直在突破系統與網絡設計的邊界,但早期的 TPU 芯片本身并非具有顛覆性的創新。而自那時起,TPU 芯片不斷迭代升級,最新幾代產品已實現了跨越式發展。

從一開始,相較于英偉達,谷歌在芯片設計理念上就趨于保守。回顧歷史,同代 TPU 芯片的峰值理論浮點運算性能與內存規格,均顯著低于對應的英偉達 GPU。

背后存在三方面原因:第一,谷歌在內部高度重視基礎設施的可靠性、可用性與可維護性(RAS)。為了換取更高的硬件正常運行時間,谷歌寧愿犧牲一定的絕對性能。將硬件性能壓榨到極限,會導致硬件故障率升高 —— 這會直接影響總擁有成本(TCO),具體體現在系統停機時間增加、熱備份備件消耗增多等方面。畢竟,無法投入使用的硬件,其單位性能對應的總擁有成本相當于無限高。

第二,在 2023 年之前,谷歌的核心人工智能工作負載是支撐其搜索與廣告主營業務的推薦系統模型。與大語言模型(LLM)的工作負載相比,推薦系統的運算密度要低得多,這意味著每傳輸 1 比特數據,所需的浮點運算次數也更少。


image.png


來源:Meta

第三個原因,與廠商宣傳的 “峰值理論浮點運算性能”這一數據的實際效用及其可操控性有關。英偉達、AMD 這類商用 GPU 供應商,總是希望為自家芯片宣傳盡可能亮眼的性能參數,這就促使它們將對外宣傳的浮點運算性能數值拉升到極致。但在實際應用中,這些峰值性能根本無法長時間維持。反觀 TPU,由于其此前主要供谷歌內部使用,在對外夸大性能參數方面承受的壓力要小得多。這一點背后暗含著諸多重要影響,我們將在后續展開深入探討。往客觀的角度看,英偉達在動態電壓頻率調節(DVFS)** 技術上更為領先,因此它們也樂于只公布峰值性能參數。

隨著大語言模型時代的來臨,谷歌的 TPU 設計理念也發生了顯著轉變。這種轉變,在大語言模型時代之后研發的兩代最新 TPU 產品上體現得淋漓盡致 —— 分別是TPUv6Trillium (Ghostlite)與TPUv7Ironwood (Ghostfish)。從下方圖表中可以看出,TPUv4 與 v5 的計算吞吐量,遠低于同期英偉達的旗艦產品。TPUv6 的浮點運算性能已經非常接近 H100 與 H200,但它的推出時間比 H100 晚了兩年。而到了 TPUv7 這一代,其與英偉達旗艦產品的差距進一步縮小:不僅峰值理論浮點運算性能幾乎持平,服務器產品的上市時間也僅比競品晚了幾個季度。


image.png


來源:SemiAnalysis、Nvidia、Google

是什么推動了這些性能提升?部分原因在于,谷歌調整了 TPU 的發布策略 —— 如今它會在產品量產爬坡階段就對外公布,而非等到下一代產品已經部署后才披露相關信息。此外,TPUv6 Trillium與 TPUv5p 采用相同的N5 工藝節點制造,芯片面積也相近,但前者的峰值理論浮點運算性能卻實現了驚人的兩倍提升,同時功耗還顯著降低!針對 “延齡草”,谷歌將每個脈動陣列的規模從 128×128 核擴充至 256×256 核,整整擴大了三倍,而陣列規模的提升正是實現算力增長的關鍵所在。


image.png


來源:SemiAnalysis,谷歌

Trillium“延齡草” 同時也是最后一代 “E”(精簡版)型號產品,這意味著它僅配備了 2 組第三代高帶寬內存(HBM3)。盡管 “延齡草” 在算力上拉近了與 “霍珀” 架構產品的差距,但在內存容量與帶寬上,它卻遠不及 H100 與 H200—— 前者僅搭載 2 組 HBM3,而后兩者則分別配備了 5 組 HBM3 與 6 組第三代增強型高帶寬內存(HBM3E)。這一點讓新手用戶在使用時頗為棘手,但只要你能對模型進行合理分片,并充分利用這些成本低廉的浮點運算算力,Trillium “延齡草” 所能實現的單位總擁有成本(TCO)性能優勢便是無可匹敵的。


image.png


來源:SemiAnalysis

TPU v7 Ironwood “鐵木” 作為新一代產品,在浮點運算性能、內存及帶寬這三項核心指標上,幾乎已完全追平同期英偉達的旗艦級 GPU,只是其正式上市時間比 “布萊克韋爾” 架構產品晚了一年。相較于 GB200,TPUv7 “鐵木” 的浮點運算性能與內存帶寬僅存在小幅差距,二者的內存容量處于同一水平,均搭載 8 層高帶寬內存第三代增強版(8-Hi HBM3E);當然,與配備 12 層高帶寬內存第三代增強版(12-Hi HBM3E)、總容量達 288GB 的 GB300 相比,TPUv7 “鐵木” 的內存規格仍存在顯著差距。


image.png


來源:SemiAnalysis

理論絕對性能只是一方面,真正關鍵的是單位總擁有成本(TCO)下的實際性能表現。

盡管谷歌需通過博通采購 TPU,且需支付不菲的利潤分成,但這筆成本遠低于英偉達從相關業務中賺取的利潤 —— 英偉達的利潤來源不僅包括 GPU 芯片銷售,還涵蓋了CPU、交換機、網卡、系統內存、線纜及連接器在內的整套系統。從谷歌的視角來看,采用全三維環面網絡(3D Torus)配置的 “鐵木” 芯片,其全流程總擁有成本,相較 GB200 服務器低了約 44%。這一成本優勢,足以抵消其在峰值浮點運算性能與峰值內存帶寬上約 10% 的差距。上述結論,均基于谷歌的采購視角以及其 TPU 服務器的實際采購價格。


image.png


來源:SemiAnalysis AI TCO 模型

那么,當谷歌在成本基礎上疊加自身利潤、將 TPUv7 租賃給外部客戶時,情況又會如何呢?我們測算,即便谷歌在對外租賃 TPUv7 的定價中計入自身利潤,其每小時總擁有成本仍可比 GB200 低約 30%,較 GB300 低約 41%。我們認為,這一數據也恰好反映了 Anthropic 通過谷歌云平臺(GCP)采購 TPU 時的實際定價水平。


image.png


來源:SemiAnalysis AI TCO 模型

為什么Anthropic押注TPU

僅對比理論浮點運算性能,只能反映出部分情況。真正關鍵的是有效浮點運算性能,因為峰值性能數據在實際工作負載中幾乎從未被真正達到過。

在實際應用中,一旦計入通信開銷、內存延遲、功耗限制以及其他系統層面的影響因素,英偉達 GPU 通常只能發揮出其理論峰值性能的一小部分。對于模型訓練場景,一個普遍的經驗數值是30%,但實際利用率也會因工作負載的不同而產生巨大差異。而造成這一性能差距的很大一部分原因,要歸結于軟件與編譯器的效率差異。英偉達在這方面的優勢,源于其構建的 CUDA 生態壁壘,以及豐富的開箱即用開源庫 —— 這些工具能幫助各類工作負載高效運行,實現較高的實際浮點運算性能與內存帶寬利用率。

TPU 的軟件技術棧使用門檻原本相對較高,但這種情況如今已開始出現轉變。在谷歌內部,TPU 能夠依托完善的自研工具鏈發揮出優異性能,而這些工具并未向外部客戶開放,這就導致 TPU 面向外部用戶的開箱即用性能相對遜色。不過,這一問題僅對小型用戶或不愿投入精力優化的用戶構成困擾,而 Anthropic 顯然不屬于這兩類用戶。

Anthropic 不僅擁有強大的工程研發實力,還聘請了一批出身谷歌的編譯器專家 —— 這些專家既精通 TPU 技術棧,又對 Anthropic 自身的模型架構了如指掌。他們能夠通過開發定制化內核,大幅提升 TPU 的運行效率。因此,Anthropic 得以實現更高的模型浮點運算利用率(MFU),以及更為出色的每千萬億次浮點運算成本效益。

我們認為,盡管 TPU 對外宣傳的峰值浮點運算性能數值相對較低,但其實際達成的模型浮點運算利用率,反而能夠超過英偉達的 “布萊克韋爾” 架構產品 —— 這也意味著 TPUv7 “鐵木” 能夠實現更高的有效浮點運算性能。其中一個重要原因是,英偉達與 AMD 對外宣稱的 GPU 峰值浮點運算性能數值,存在明顯的夸大成分。即便在那些為最大化吞吐量而設計的測試中(測試所用的矩陣乘運算與真實工作負載相去甚遠),英偉達 “Blackwell” 架構產品也僅能達到峰值性能的約 80%,“布萊克韋爾” 架構產品在 70% 多的水平,而 AMD 的 MI300 系列產品則僅能達到 50% 至 60%。

造成這一現象的限制性因素是供電能力。這些芯片無法長時間維持峰值性能計算所需的時鐘頻率。英偉達與 AMD 均采用了動態電壓頻率調節技術(DVFS),這意味著芯片的時鐘頻率會根據功耗與溫度動態調整,而非維持在一個穩定可持續的固定頻率。但在計算理論峰值浮點運算性能時,英偉達與 AMD 會選取芯片所能達到的最高時鐘頻率 —— 哪怕這個頻率只能以極短暫的間隙性方式運行 —— 再通過公式(每運算周期每算術邏輯單元的操作數 × 算術邏輯單元數量 × 每秒運算周期數,即時鐘頻率)計算得出峰值數值。

除此之外,廠商還會采用其他一些 “技巧” 來美化數據,例如使用全零張量進行矩陣乘運算測試。由于 0 與 0 相乘結果仍為 0,晶體管無需進行 0 到 1 的狀態切換,因此能大幅降低單次運算的功耗。當然,在真實的應用場景中,是不會出現全零張量相乘這類情況的。

當我們將更低的總擁有成本與更高的有效浮點運算性能利用率相結合來看,站在谷歌的角度,每單位有效浮點運算性能的成本會大幅下降 —— 當 TPU 的模型浮點運算利用率達到約 15% 時,便能與模型浮點運算利用率為 30% 的 GB300 實現成本持平。這意味著,即便谷歌(或 Anthropic)只能將 TPU 的浮點運算利用率做到 GB300 的一半,二者的成本效益也不相上下。當然,憑借谷歌頂尖的編譯器工程師團隊,以及對自研模型的深度理解,TPU 的模型浮點運算利用率有望達到 40%。如此一來,每單位有效訓練浮點運算性能的成本將實現驚人的約 62% 降幅!


image.png


來源:SemiAnalysis AI TCO 模型

然而,在分析這 60 萬個租賃型 TPU 時,若將 Anthropic 需要承擔的更高總擁有成本(即計入谷歌疊加的利潤)納入考量,我們估算 Anthropic 通過谷歌云平臺(GCP)租用每個 TPU 的小時成本為 1.6 美元,這會縮小 TPU 的總擁有成本優勢。

我們認為,得益于 Anthropic 對性能優化的持續投入,以及 TPU 對外宣傳的浮點運算性能數值本身就更貼合實際水平,該公司能夠將 TPU 的模型浮點運算利用率(MFU)提升至 40%。這將使 Anthropic 在每單位有效千萬億次浮點運算性能的總擁有成本上,較英偉達 GB300 NVL72 系統實現驚人的約 52% 降幅。

而與 GB300 基準系統相比,二者每單位有效浮點運算性能的總擁有成本達到平衡的臨界點,對應的是 Anthropic 僅需實現 19% 的模型浮點運算利用率 —— 這一數值要低得多。這意味著,即便 Anthropic 的 TPU 在性能上較 GB300 基準系統存在顯著差距,其訓練場景下的浮點運算性能成本比最終仍能與英偉達基準系統持平。


image.png


來源:SemiAnalysis

浮點運算性能并非決定性能的唯一關鍵因素,內存帶寬對于推理環節至關重要,尤其是在對帶寬要求極高的解碼階段。因此,TPU 的每單位內存帶寬成本最終遠低于 GB300,也就不足為奇了。大量證據表明,在處理 16MB 至 64MB 的小數據量任務(例如加載單層網絡的專家模塊)時,TPU 的內存帶寬利用率甚至要高于 GPU。


image.png


來源:SemiAnalysis AI TCO 模型

所有這些因素,最終轉化為更高效率的模型訓練與推理算力方案。Anthropic 發布的 Opus 4.5 模型延續了其一貫對代碼生成能力的側重,創下了 SWE-Bench 基準測試的全新紀錄。最令人意外的是,該模型的 API 調用價格直接下調了約 67%。

此次降價,再加上與 Sonnet 模型相比,Opus 4.5 不僅冗余度更低,Token 使用效率也大幅提升—— 要達到 Sonnet 的最佳得分,Opus 4.5 所需的 Token 數量減少 76%;而要實現比 Sonnet 高出 4 分的成績,Token 用量也能減少 45%。這一系列優勢意味著,Opus 4.5 已成為代碼生成場景下的最優模型。考慮到目前 Anthropic 的 Token 消耗構成中,Sonnet 占比超過 90%,Opus 4.5 的推出有望切實提高 Anthropic 的實際 Token 計價收益。


image.png


來源: SemiAnalysis Tokenomics Model, Anthropic as of 11/24/25


image.png


來源:Anthropic and SemiAnalysis Tokenomics Model, 50:1 ISL:OSL

谷歌的利潤率平衡術

在面向外部客戶的定價策略上,谷歌需要精準拿捏尺度,在保障自身盈利空間的同時,為客戶提供具備競爭力的方案。我們對 Anthropic 合作定價的估算值,處于市場傳聞的外部定價區間下限。對于 Anthropic 這類旗艦級客戶 —— 其不僅會為谷歌的軟硬件路線圖提供寶貴反饋,還會下達海量采購訂單 —— 我們認為谷歌極有可能給出優惠協議價。

英偉達憑借高達 4 倍的加價幅度(對應約 75% 的毛利率),擁有極大的定價操作空間,但這一空間很大程度上被博通壓縮。作為 TPU 的聯合設計方,博通在芯片這一系統物料清單(BOM)中占比最大的核心部件上,賺取了豐厚的利潤。即便如此,谷歌仍有充足空間,實現可觀且合理的利潤率。

這一點,我們只需對比谷歌云平臺(GCP)與 Anthropic 的合作,以及其他大型 GPU 云服務合作項目的經濟效益便可明晰。需要說明的是,本分析聚焦的是 Anthropic 通過 GCP 租賃的 60 萬個 TPU,剩余 40 萬個 TPUv7 芯片則由 Anthropic 直接預付采購。

基于上述假設條件,TPUv7 相關業務展現出的息稅前利潤(EBIT)率,優于我們觀察到的其他大型 GPU 云服務合作項目,僅有甲骨文云基礎設施(OCI)與 OpenAI 的合作能與之接近。即便芯片層面的物料清單中疊加了博通的利潤分成,谷歌仍能實現遠超同質化 GPU 業務的利潤率與投資回報率。這正是 TPU 技術棧的價值所在 —— 助力谷歌云平臺成為一家真正具備差異化競爭力的云服務提供商(CSP)。

反觀微軟 Azure 等企業,其自研專用集成電路(ASIC)項目進展不順,只能局限于商用硬件租賃這一業務領域,賺取相對微薄的回報。


image.png


來源:SemiAnalysis

TPU 系統與網絡架構

截至目前,我們圍繞 TPU 與英偉達 GPU 的對比展開了討論,重點聚焦于芯片級參數及二者的短板。接下來,我們回歸到系統層面的探討 —— 這正是 TPU 的性能優勢真正拉開差距的領域。TPU 最具辨識度的特性之一,便是通過ICI 協議實現了超大規模的算力擴展規模。一個 TPU 算力集群(Pod)可集成多達 9216 顆 “鐵木”(Ironwood)TPU 芯片;事實上,早在 2017 年推出的第二代 TPU(TPUv2)就已具備大規模集群部署的能力,當時其集群規模便已擴展至完整的 256 組、每組 1024 顆芯片的配置。我們不妨從機架層面切入 —— 機架正是每個 TPU 超級算力集群(Superpod)的基本組成單元。

Ironwood的機架架構


image.png


來源:Google 2025 Hot Chips


image.png


來源:Google 2025 Hot Chips

過去幾代 TPU 機架的設計均較為相似。每個機架由16 個 TPU 托盤、16 個或 8 個主機 CPU 托盤(具體數量取決于散熱配置)、1 臺機架頂交換機(ToR Switch)、若干電源供應單元以及電池備用單元(BBU)組成。


image.png


來源:SemiAnalysis

每個TPU 托盤包含 1 塊TPU 板卡,板卡上搭載有 4 個TPU 芯片封裝組件。每顆 “鐵木” TPU 均配備 4 個OSFP 光模塊插槽,用于實現 ICI 協議互聯;同時配備 1 個CDFP 標準 PCIe 插槽,用于與主機 CPU 建立連接。


image.png


來源:SemiAnalysis


image.png


來源:Google

谷歌自 2018 年推出第三代張量處理單元(TPU v3)起,便開始采用液冷式 TPU 機架方案,但在此后的數代 TPU 產品中,仍有部分機型采用風冷式設計。

液冷機架與風冷機架的核心區別在于TPU 托盤和主機 CPU 托盤的配比:風冷機架的配比為2:1(即 2 個 TPU 托盤對應 1 個主機 CPU 托盤),而液冷機架的配比則為1:1。


image.png


來源:SemiAnalysis,谷歌

TPU 液冷系統的創新設計在于,冷卻液的流速可通過閥門實現主動控制。這樣一來,系統便能根據任意時刻各芯片的工作負載量調節流速,從而實現遠高效的散熱效果。谷歌的 TPU 還很早就采用了垂直供電架構,即將 TPU 的電壓調節模塊(VRM)布置在印刷電路板(PCB)的另一側。這些電壓調節模塊同樣需要配備冷板來輔助散熱。

總體而言,TPU 機架的設計要比英偉達的Oberon NVL72 架構簡潔得多。后者的硬件密度要高得多,并且需要借助背板來連接 GPU 與擴展交換機。TPU 托盤之間的擴展互聯則完全通過外置銅纜或光纜實現,這一點將在下文的 ICI 協議部分展開說明。而 TPU 托盤與 CPU 托盤之間的連接,則是通過 PCIe 直連銅纜(DAC)完成的。

芯片間互聯技術(ICI)—— 實現算力規模擴展的核心關鍵

谷歌 TPUv7 芯片間互聯(ICI)擴展網絡的基本組成單元,是一個由 64 顆 TPU 構成的 4×4×4 三維環面拓撲結構。每組含 64 顆 TPU 的 4×4×4 立方體拓撲,均對應一個可容納 64 顆 TPU 的物理機架。這是一種非常理想的結構尺寸設計,既能讓機架內的 64 顆 TPU 實現全電連接,又能完整適配物理機架的空間布局。


image.png


來源:谷歌,SemiAnalysis

這些 TPU 以三維環面拓撲結構互聯,每顆 TPU 共與 6 個相鄰節點建立連接 —— 在 X、Y、Z 三個坐標軸上,每個軸向上均連接 2 個邏輯相鄰的 TPU。

在計算托盤內部,每顆 TPU 都會通過印刷電路板(PCB)走線與另外 2 顆 TPU 相連;而根據該 TPU 在 4×4×4 立方體拓撲中的具體位置,它還會通過直連銅纜(DAC)或光模塊,與另外 4 個相鄰節點實現互聯。

4×4×4 立方體拓撲內部的互聯采用銅纜;而拓撲外部的互聯(既包括環回連接至立方體另一相對側的鏈路,也包括與相鄰 4×4×4 立方體拓撲的互聯),則需采用光模塊及光電路交換機(OCS)。從下方示意圖中可以看到,作為一個三維環面網絡,位于 Z + 平面的 TPU(2,3,4)會通過一個 800G 光模塊建立環回連接,并經由光電路交換機(OCS)完成路由,最終與位于 Z - 平面的 TPU(2,3,1)互聯。


image.png


來源:谷歌,SemiAnalysis

如上所述,除了始終通過印刷電路板(PCB)走線連接的 2 個相鄰 TPU 外,其余 4 個相鄰節點的連接方式需根據該 TPU 在 4×4×4 立方體拓撲中的具體位置而定,可單獨采用直連銅纜(DAC)、光模塊,或二者混用。

位于 4×4×4 立方體拓撲內部的 TPU,與其余 4 個相鄰節點的連接全部采用直連銅纜;位于立方體表面的 TPU,采用3 根直連銅纜 + 1 個光模塊的組合方式互聯;位于立方體棱邊的 TPU,采用2 個光模塊 + 2 根直連銅纜互聯;而位于立方體頂角的 TPU,則采用1 根直連銅纜 + 3 個光模塊互聯。你可以通過觀察某一 TPU 有多少個側面朝向立方體的外部,來判斷它需要使用多少個光模塊。


image.png


來源:SemiAnalysis

上圖及下表匯總了不同位置類型的 TPU 數量,據此可推算出每顆 TPUv7 的光模塊配置比例為 1.5 個。這些光模塊均與 ** 光電路交換機(OCS)** 相連,而光電路交換機的作用是實現不同 4×4×4 立方體拓撲之間的互聯 —— 關于這一點,下一節會展開詳述。


image.png


來源:SemiAnalysis,谷歌

ICI 光互聯技術

谷歌采用軟件定義網絡的方式,通過光電路交換機(OCS)對網絡路由進行管理。一臺 N×N 規格的光電路交換機,本質上就像一座大型火車站,配有 N 條輸入線路與 N 條輸出線路。任何輸入線路接入的信號,都可以被轉接至任意一條輸出線路,但這一轉接操作需要在交換機上重新配置路由。需要注意的是,信號無法實現 “環路回傳”,也不能被發送至另一路輸入線路,只能被路由至 N 條輸出線路中的其中一條。

這種技術方案的優勢在于,網絡能夠基于 ICI 網絡層中理論上最大支持的 9216 顆芯片規模,為不同的工作負載劃分出更小的邏輯 TPU 切片。通過對大型集群進行切片劃分,并圍繞網絡故障點重新規劃 ICI 傳輸路徑,集群的可用性能夠得到有效提升。

與電子分組交換機(EPS)(例如 Arista Tomahawk 5 系列交換機)不同,電子分組交換機的總帶寬是固定的,且需要被進一步分配至多個小帶寬端口;而光電路交換機允許任意帶寬的光纖直接接入其端口。此外,光電路交換機的延遲顯著低于電子分組交換機 —— 原因在于進入光電路交換機的光信號,僅需從輸入端口直接傳輸至輸出端口即可;而光信號進入電子分組交換機時,必須先完成光電信號轉換,這也是光電路交換機通常比電子分組交換機能效更高的關鍵原因。二者的另一區別在于:電子分組交換機支持數據包在任意端口間自由路由,而光電路交換機僅支持將信號從某一 “輸入” 端口路由至任意一個 “輸出” 端口。


image.png


來源:Google

光電路交換機(OCS)的端口僅能傳輸單股光纖信號。這對標準雙工光模塊而言是一項技術挑戰 —— 因為雙工光模塊的帶寬需通過多股光纖傳輸,這會降低光電路交換機的有效端口數與帶寬。

為解決這一問題,谷歌采用FR 光模塊,將所有波長的信號整合到單股光纖中,再接入光電路交換機的單個端口。阿波羅項目通過兩步創新方案實現了這一目標:

1. 借助粗波分復用技術(CWDM8),將 8 個波長的信號(每個 100G 通道對應 1 個波長)進行復用,僅用1 對光纖即可傳輸 800G 帶寬,而無需傳統方案中的 8 對光纖;

2. 在波分復用(WDM)光模塊中集成光環行器,實現全雙工數據傳輸,從而將光纖需求從 1 對進一步縮減至單股光纖。


image.png


來源:Google

光環行器通過在光模塊端將發射(Tx)和接收(Rx)光纖合并為單股光纖并接入光電路交換機(OCS),以此構建一條雙向鏈路。


image.png


來源:Google

多組 64 顆 TPU 立方體(Cube)的互聯方案

谷歌的 ICI 擴展網絡具有獨特性,其能夠將多組由 64 顆 TPU 組成的 4×4×4 立方體,以三維環面拓撲結構進行互聯,從而構建出超大規模的算力集群。TPUv7 標稱的最大算力集群規模可達 9216 顆 TPU,但目前谷歌支持的 TPU 集群切片配置靈活多樣,規模范圍覆蓋從 4 顆 TPU 到 2048 顆 TPU 不等。


image.png


來源:Google

盡管谷歌憑借技術創新,能夠搭建起規模達 9216 顆 TPU 的超大型算力集群,但在實際運行訓練任務時,將單次運算的集群塊規模逐步提升至 8000 顆 TPU 左右后,其性能收益會呈現遞減趨勢。這是因為集群塊規模越大,發生故障和運行中斷的概率就越高,進而導致切片可用性下降。切片可用性的定義為:ICI 集群能夠組建出完整三維環面拓撲切片的時間占比。


image.png


來源:Google

對于可完全容納在單個 4×4×4 立方體拓撲內的算力切片,我們只需借助機架內的銅纜互聯,以及立方體表面 / 棱邊 / 頂角處的光模塊,即可從該立方體中劃分出這類切片;必要時,還可通過環回連接完成三維環面拓撲的構建。

要理解環回連接與跨立方體連接的實現方式,我們不妨先從如何在 4×4×4 拓撲中構建一個 64 顆 TPU 的算力切片說起。我們可以直接采用一個對應單臺 64 顆 TPU 物理機架的 4×4×4 立方體拓撲單元來搭建該結構。

4×4×4 立方體拓撲內部的全部 8 顆 TPU,均可通過銅纜實現與 6 個相鄰節點的全互聯。若某顆 TPU 在某一坐標軸方向上沒有內部相鄰節點,則會通過環回連接與立方體相對側的另一顆 TPU 互聯。

例如,TPU(4,1,4)在 Z 軸正方向(Z+)上沒有內部相鄰節點,因此它會通過一個 800G 光模塊接入分配給 Z 軸的光電路交換機(OCS);經該光電路交換機(OCS)配置路由后,這條鏈路會被導向立方體的 Z 軸負方向(Z-)側,最終與 TPU(4,1,1)建立連接。同理,TPU(1,1,1)會在 Y 軸負方向(Y-)上通過光模塊接入 Y 軸對應的光電路交換機(OCS),進而與位于 Y 軸正方向(Y+)側的 TPU(1,4,1)實現互聯。


image.png


來源:SemiAnalysis,谷歌

4×4×4 立方體的每個表面,都會通過16 臺獨立的光電路交換機(OCS)實現互聯 —— 即表面上的每顆 TPU 對應一臺光電路交換機。

舉個例子,如下圖所示:在 X 軸正方向(X+)表面,TPU(4,3,2)會接入光電路交換機 X,3,2 的輸入端。這臺光電路交換機 X,3,2 的輸入端,還會與 9216 顆 TPU 集群中全部 144 個 4×4×4 立方體的 X 軸正方向(X+)表面上,同一編號(4,3,2)的 TPU相連。隨后,該光電路交換機 X,3,2 的輸出端,會與集群內所有立方體上同一編號的 TPU建立連接,但這一次連接的是這些立方體的X 軸負方向(X-)表面—— 也就是說,它會與集群內 144 個立方體上的 TPU(1,3,2)互聯。下圖展示了立方體 A 的 X 軸正方向(X+)表面上的全部 16 顆 TPU,如何通過 16 臺光電路交換機,與立方體 B 的 X 軸負方向(X-)表面上的16 顆 TPU實現互聯。

這類連接使得任意立方體的任意 “+” 方向表面,都能與其他任意立方體的 “-” 方向表面互聯,從而在劃分算力切片時,實現立方體資源的完全靈活調度。

這里需要簡要說明兩個限制條件:

第一,同一表面上同一編號的 TPU,無法直接與不同編號的 TPU建立連接 —— 例如,TPU(4,3,2)永遠不能被配置為與 TPU(1,2,3)互聯。

第二,由于光電路交換機本質上相當于一個配線架,接入其輸入端的 TPU,無法 “環路回傳” 至同樣接入該光電路交換機輸入端的其他任何 TPU—— 舉例來說,TPU(4,3,2)永遠不能與 TPU(4,3,3)互聯。

因此,任意立方體 “+” 方向表面上的 TPU,都無法與其他任意立方體 “+” 方向表面的 TPU 互聯;同理,任意立方體 “-” 方向表面上的 TPU,也無法與其他任意立方體 “-” 方向表面的 TPU 互聯。


image.png


來源:SemiAnalysis,谷歌

接下來我們進一步擴大規模,看看4×4×8 拓撲結構該如何搭建。在這種配置下,我們通過沿Z 軸互聯兩個包含 64 顆 TPU 的 4×4×4 立方體,來擴展算力切片的規模。此時,光電路交換機(OCS)會對 TPU(4,1,4)所連接的光端口進行重新配置,使其轉而連接 TPU(4,1,5),而非像在獨立的 4×4×4 拓撲中那樣,環回連接至 TPU(4,1,1)。以此類推,這兩個 4×4×4 TPU 立方體的 Z 軸負方向(Z-)和 Z 軸正方向(Z+)表面,各自會延伸出 16 條光連接鏈路,最終總計 64 股光纖會接入 16 臺 Z 軸對應的光電路交換機(OCS)。

需要提醒讀者的是,下圖所示的立方體 A 和立方體 B,不一定在物理位置上彼此相鄰。二者是通過光電路交換機(OCS)實現互聯的,實際上它們可以分別部署在數據中心內完全不同的區域。


image.png


來源:SemiAnalysis,谷歌

接下來,我們將進一步拓展至更大規模的拓撲結構 ——16×16×16 拓撲,該結構的算力規模可達4096 顆 TPU。在這一拓撲中,我們共需使用48 臺光電路交換機(OCS),來實現對64 組 4×4×4 立方體的互聯(每組立方體包含 64 顆 TPU)。如下圖所示,每個彩色立方體均代表一組由 64 顆 TPU 構成的 4×4×4 立方體。以位于右下角的這組 4×4×4 立方體為例 —— 它正是通過光電路交換機,實現了與 Y 軸方向相鄰立方體的互聯。

而9216 顆 TPU 的最大算力集群規模,則是由144 組 4×4×4 立方體搭建而成。每組立方體需要占用96 個光端口,整個集群的端口總需求量因此達到13824 個。若將這一總端口需求量除以288(即每臺光電路交換機配備 144 個輸入端口和 144 個輸出端口),便可得出:要支撐這一最大算力集群規模,我們共需部署48 臺 144×144 規格的光電路交換機。


image.png


來源:SemiAnalysis,谷歌

為何選擇谷歌的 ICI 3D環面架構?

谷歌這套獨特的 ICI 擴展網絡,除了能畫出各種復雜精美的立方體拓撲圖、讓人花費數小時鉆研之外,究竟還有哪些突出優勢?

算力集群規模:最顯而易見的優勢,是 TPUv7 “鐵木” 所支持的9216 顆 TPU超大算力集群規模。盡管受有效吞吐量下降的弊端影響,9216 顆 TPU 的最大切片規模可能極少被實際啟用,但數千顆 TPU 級別的切片不僅具備可行性,且已得到廣泛應用。這一規模遠超商用加速芯片市場及其他定制芯片廠商普遍采用的 64 顆或 72 顆 GPU 集群配置。

可重構性與靈活調度性:光電路交換機(OCS)的采用,使得該網絡拓撲天然具備網絡連接重構能力,可支持多達數千種拓撲結構(理論上)。谷歌官方文檔僅列出了 10 種不同的拓撲組合(即本節前文出現的拓撲圖),但這些只是最常用的三維切片形態,實際可配置的拓撲方案遠不止于此。

即便是相同規模的算力切片,也能通過不同方式完成重構。以下方的扭轉二維環面拓撲這一簡單案例來說明:我們可以看到,將鏈路環回至不同 X 坐標編號的節點,而非相同 X 坐標編號的節點,能夠減少網絡的最壞情況跳數與最壞情況對分帶寬。這一優化有助于提升集群的全對全集合通信吞吐量。TPUv7 集群的拓撲扭轉操作,正是在 4×4×4 立方體層級上完成的。


image.png


來源:SemiAnalysis,谷歌

可重構性還為多樣化的并行計算模式開辟了廣闊空間。在 64 顆或 72 顆 GPU 的集群規模下,不同并行計算模式的組合方式通常局限于 64 的因數范圍。而在 ICI 擴展網絡中,能夠實現與目標數據并行、張量并行及流水線并行組合精準匹配的拓撲方案不勝枚舉。

光電路交換機(OCS)支持將任意立方體的任意 “+” 方向表面與其他任意立方體的 “-” 方向表面互聯,這一特性意味著立方體資源具備完全靈活調度的能力。算力切片可由任意一組立方體構成。因此,即便出現硬件故障、用戶需求或使用情況發生變化,也不會阻礙新拓撲算力切片的構建。


image.png


來源:Google

成本更低:谷歌的 ICI 網絡相比大多數交換式擴展網絡,具備更低的部署成本。盡管因集成光環行器,所使用的 FR 光模塊成本略高,但這種網狀網絡架構減少了所需交換機與端口的總數量,同時省去了交換機之間互聯產生的相關成本。


image.png


來源:SemiAnalysis

低延遲與更優數據局部性:TPU 之間采用直連鏈路的設計,使得物理位置鄰近或被重新配置為直連狀態的 TPU,能夠實現更低的傳輸延遲。位置相互鄰近的 TPU,還會具備更優的數據局部性。

數據中心網絡(DCN)—— 突破 9216 顆 TPU 的規模限制

數據中心網絡(DCN)是一套獨立于 ICI 的專用網絡,兼具傳統后臺網絡與前臺網絡的雙重功能。它能夠覆蓋更龐大的算力域 —— 以 TPUv7 集群為例,其可實現對14.7 萬顆 TPU的互聯。

正如我們在先前關于阿波羅計劃的文章中所闡述的,谷歌提出用帕洛瑪光電路交換機(OCS),替代傳統 “胖樹(Clos)” 架構中包含電子分組交換機(EPS)的核心層。基于這一理念,谷歌的數據中心網絡由一個光交換式數據中心網絡互聯層(DCNI)構成,該互聯層整合了多個聚合塊,每個聚合塊又分別與多個 9216 顆 TPU 規模的 ICI 集群相連。

2022 年,谷歌阿波羅計劃曾提出一套數據中心網絡架構,其中提到為 4096 顆 TPU 規模的 TPUv4 計算單元,配備 136×136 規格的光電路交換機。當時,數據中心網絡互聯層的光電路交換機被劃分為 4 個阿波羅區域,每個區域最多部署 8 個機架,每個機架配備 8 臺光電路交換機,總計 256 臺。而針對 “鐵木”(TPUv7),為了在同一網絡中支撐多達 14.7 萬顆 TPUv7,我們推測谷歌會選擇將光電路交換機的端口數量提升近一倍,而非單純增加光電路交換機的最大部署數量。

下圖展示了一個可行的“鐵木”數據中心網絡架構方案:該方案采用 32 個機架,共部署 256 臺 300×300 規格的光電路交換機。假設每個聚合塊的核心層之間不存在帶寬超配,那么該數據中心網絡最多可連接 16 個 ICI 計算單元 —— 具體為 4 個聚合塊,每個聚合塊連接 4 個 ICI 計算單元,對應的 TPU 總數達147456 顆。

數據中心網絡互聯層承擔著連接 4 個聚合塊的作用,在下圖中表現為最頂層的架構。與 ICI 網絡一致,該層同樣采用FR 光模塊與光電路交換機相連,以此最大化每臺光電路交換機的單端口帶寬。


image.png


來源:SemiAnalysis

盡管當前的 “鐵木”(Ironwood)集群可能僅配備 1 至 2 個聚合塊,但谷歌數據中心網絡(DCN)獨特的架構設計,允許在無需大規模重新布線的前提下,向網絡中新增 TPU 聚合塊。

通過在數據中心網絡互聯層(DCNI)部署光電路交換機(OCS),數據中心網絡架構的規模可實現增量擴展,同時網絡可重新配置鏈路,以適配新增的聚合塊。此外,聚合塊的帶寬能夠獨立升級,而不必改動數據中心網絡層的整體架構。這意味著,現有聚合塊的鏈路速率可進行更新迭代,且不會改變網絡本身的核心架構。當然,網絡架構的擴展并非無上限 —— 當規模達到一定量級后,重新布線的操作將變得難以管控。


image.png


來源:SemiAnalysis,谷歌

TPU 軟件戰略 —— 又一次重大變革

傳統上,TPU 的軟件與硬件團隊均以對內服務為導向。這種模式具備一定優勢,例如不會受到營銷團隊的壓力,去夸大標稱的理論浮點運算性能(FLOPs)。

僅聚焦對內服務的另一大優勢在于,TPU 團隊能夠將工作重心高度放在響應內部功能需求與優化內部負載任務上。但相應的弊端也十分明顯:團隊對外部客戶及外部負載的關注度極低。這直接導致 TPU 生態中的外部開發者數量,遠低于 CUDA 生態系統。而這一點,也是 TPU 與其他所有非英偉達(Nvidia)加速器共同存在的核心短板。

此后,谷歌調整了面向外部客戶的軟件戰略,并對 TPU 團隊的關鍵績效指標(KPIs)以及其參與人工智能 / 機器學習(AI/ML)生態建設的方式,做出了重大調整。我們將重點探討其中兩項核心變革:

1. 投入大量工程資源,實現 PyTorch 框架對 TPU 的原生支持

2. 投入大量工程資源,為 vLLM 與 SGLang 大模型推理框架提供 TPU 支持

觀察谷歌在各 TPU 軟件代碼倉庫的貢獻量,其對外開放戰略的推進路徑清晰可見。我們能夠發現,自 3 月起,谷歌針對 vLLM 的代碼貢獻量出現顯著增長。隨后在 5 月,官方推出了 “tpu-inference” 代碼倉庫,作為 vLLM 框架的 TPU 統一后端;自此之后,該倉庫的開發活躍度便進入了高速增長階段。


image.png


來源:GitHub,SemiAnalysis

傳統上,谷歌僅為 Jax/XLA:TPU 技術棧(以及已淘汰的 TensorFlow/TF-Mesh)提供一等支持,而將 TPU 上的 PyTorch 視為二等角色。其實現方式依賴于通過 PyTorch/XLA 進行惰性張量圖捕獲,而非提供原生的一等即時執行模式。此外,該方案既不支持 PyTorch 原生分布式編程接口(torch.distributed.*),也不兼容 PyTorch 原生并行計算編程接口(如 DTensor、FSDP2、DDP 等),只能依靠一套非主流的獨立 XLA SPMD 編程接口(如torch_xla.experimental.spmd_fsdp、torch_xla.distributed.spmd 等)。

這就導致了一個問題:對于那些習慣在 GPU 上使用 PyTorch CUDA 原生后端、如今嘗試切換到 TPU 的外部用戶而言,他們需要面對體驗欠佳的非原生開發環境。


image.png


來源:XLA

10 月,谷歌 “王牌技術帶頭人” 羅伯特?亨特在 XLA 代碼倉庫中低調宣布,團隊將摒棄非原生的惰性張量后端,轉而開發一款原生 TPU PyTorch 后端。該后端默認支持即時執行模式,同時可與torch.compile、DTensor 以及torch.distributed等編程接口實現集成。這項技術將基于PrivateUse1 TorchDispatch 功能鍵來構建。

開發該原生后端的首要目標客戶是元宇宙公司(Meta)—— 該公司近期重新燃起了采購 TPU 的興趣,但并不打算遷移至 JAX 框架。此外,這一舉措也能讓那些偏好 PyTorch、卻不適應 JAX 的開發者,順利用上 TPU。

早在 2020 年至 2023 年間,元宇宙公司旗下的 FAIR 實驗室已有多個團隊重度使用基于 TPU 的 PyTorch XLA 方案,但該方案始終未能實現廣泛推廣。最終,元宇宙公司管理層于 2023 年終止了相關合作協議。究其原因,基于 TPU 的 PyTorch XLA 使用體驗確實不盡如人意。更值得一提的是,當時元宇宙 FAIR 團隊在谷歌云平臺(GCP)上運行 TPU 時,采用的是 SLURM 調度系統,而非 TPU 技術棧中常見的 GKE、Xmanager 或 Borg 等工具。


image.png


來源:GitHub

這款全新的 PyTorch-TPU 原生適配方案,將為習慣在 GPU 上使用 PyTorch 的機器學習科學家們,提供更順暢的遷移路徑,助力他們切換至 TPU 平臺運行 PyTorch 代碼,并充分發揮 TPU 更高的單位總擁有成本性能優勢。

Pallas 是一門專用于為 TPU 編寫自定義算子的內核開發語言(功能類似 cuTile、Triton 或 CuTe-DSL)。元宇宙公司(Meta)與谷歌也已啟動相關合作,致力于將 Pallas 算子納入 Torch Dynamo/Inductor 編譯棧的代碼生成目標范疇。這一舉措將實現 TPU 與 PyTorch 原生 torch.compile 接口的深度集成,同時允許終端用戶將自定義的 Pallas 算子注冊到 PyTorch 框架中使用。


image.png


來源:GitHub

除了核心的 PyTorch 原生內置編程接口外,相關團隊還在幕后推進一項工作 —— 將 TPU Pallas 算子語言整合為Helion 的代碼生成目標。你可以將 Helion 理解為一種高級編程語言,能夠用高級語法編寫性能優良的算子。由于其設計與 PyTorch 原生 Aten 算子的契合度極高,用戶可以將 Helion 視作底層 Aten 算子,而非 Triton、Pallas 這類高級算子開發工具。


image.png


來源:PyTorch基金會


image.png


來源:PyTorch 馬克·薩魯菲姆

CUDA 生態系統的另一項絕對優勢領域,在于開源生態推理場景。從歷史來看,vLLM 與 SGLang 均將 CUDA 列為一等支持對象(而將 ROCm 視作二等支持對象)。如今,谷歌也希望入局 vLLM 與 SGLang 開源推理生態,并已宣布通過一種極具 “獨特性” 的集成方案,推出面向 vLLM 與 SGLang 的 TPU v5p/v6e 測試版支持。


image.png


來源:vLLM

目前,vLLM 與 SGLang 通過將 PyTorch 模型代碼轉換為 JAX 代碼,并借助現有成熟的 JAX TPU 編譯流程來實現 TPU 支持。未來,一旦 PyTorch XLA 提案 #9684(即 TPU PyTorch 原生后端)完成落地,vLLM 與 SGLang 計劃評估是否轉而采用該方案,以替代通過 TorchAX 將 PyTorch 模型代碼轉換為 JAX 代碼的現有方式。

谷歌與 vLLM 聲稱,這種向 JAX 轉換的實現路徑無需對 PyTorch 模型代碼進行任何修改,但考慮到目前 vLLM TPU 支持的模型數量寥寥無幾,我們對此說法存疑。

此外,谷歌已將部分自研 TPU 算子開源并集成至 vLLM 中,例如經過 TPU 優化的分頁注意力算子、支持計算 - 通信重疊的矩陣乘法算子,以及若干量化矩陣乘法算子。不過,其暫未推出適配機器學習加速器(MLA)的 TPU 算子。值得關注的是,待 Inductor Pallas TPU 代碼生成集成方案更為成熟后,能否將算子融合與模式匹配功能整合進 vLLM 現有的Pass 管理器中。與此同時,SGLang 也在研究實現一個基于torch.compile的 Pass 管理器,以更便捷地管理多模型場景下的算子融合流程。

在非規整分頁注意力 V3的實現上,TPU 的處理方式與 vLLM GPU 版本截然不同。vLLM GPU 版本采用類虛擬內存與分頁的技術來管理鍵值緩存(KV Cache),但該技術需要獲取動態地址并執行散亂操作,而這兩項操作恰好是 TPU 的短板。為此,TPU 算子轉而采用細粒度操作流水線的設計思路。具體而言,TPU 的分頁注意力算子會預先抓取下一個序列的查詢(Query)與鍵值(KV)數據塊,從而實現內存加載與計算過程的并行執行。

在現有的 vLLM 混合專家模型(MoE)算子中,其執行流程為:先按專家 ID 對令牌(Token)進行排序,再將令牌分發至搭載對應專家網絡的設備,執行分組矩陣乘法運算,最后將各專家網絡的計算結果匯總回原設備。然而,該算子性能表現不佳,原因主要有兩點:一是 TPU 的排序操作效率低下;二是該算子無法實現計算與通信的并行化。

為解決這一問題,谷歌研發人員設計了全融合混合專家模型(All-fused MoE)。該方案采用 “單設備單次調度單個專家網絡令牌” 的策略,同時實現了混合專家模型調度與結果匯總階段的通信并行化,并規避了按專家 ID 排序令牌的操作。谷歌工程師透露,相比現有算子,全融合混合專家模型算子的性能提升了 3 至 4 倍。


image.png


來源:SemiAnalysis

此外,TPU 中還搭載了另一款硬件單元 ——稀疏計算核心(SparseCore,簡稱 SC),其作用是加速嵌入層的查找與更新操作。稀疏計算核心包含一個標量子核心稀疏計算核心序列器(SparseCore Sequencer,簡稱 SCS),以及多個矢量子核心稀疏計算核心運算單元(SparseCore Tiles,簡稱 SCT)。

與 TPU 張量核心(TensorCore)512 字節的加載粒度相比,SCT 支持以 4 字節或 32 字節的更精細粒度執行本地及遠程直接內存訪問。這一特性使得稀疏計算核心能夠在與張量核心運算并行執行的同時,完成聚合 / 分散(gather/scatter)操作以及 ICI 通信。

在 JAX 開發者實驗室(JAX DevLabs)的交流中我們了解到,稀疏計算核心的可編程性目前仍處于開發完善階段。我們可以期待 TPU 自定義算子編譯器 Mosaic 未來將以 ** 多程序多數據(MPMD)** 模式完成編譯工作 —— 在該模式下,SCS 與 SCT 可執行不同的算子,不同的稀疏計算核心也能夠運行各自獨立的程序。我們推測,一旦稀疏計算核心的可編程性達到成熟水平,TPU 的混合專家模型(MoE)算子將有望實現與 GPU 類似的調度和結果匯總操作,而無需再通過專家 ID 來分發令牌數據。


image.png


來源:Google

在解耦式預填充 - 解碼技術方面(我們已在《AMD 2.0》一文中進行過深入闡述),谷歌目前在 vLLM 框架上僅實現了單主機解耦式預填充 - 解碼的實驗性支持,尚未支持多主機級的寬彈性處理器(wideEP)解耦式預填充或多張量處理(MTP)技術。這些推理優化手段對于降低每百萬令牌的總擁有成本(TCO)、提升每美元算力性能及每瓦算力性能至關重要。此外,谷歌還未將 TPU 的 vLLM 推理支持整合至 VERL 等主流強化學習框架中。總體而言,在布局開放式人工智能 / 機器學習生態,尤其是打造 TPU “原生” 后端的戰略方向上,谷歌正緩步推進并走在正確的道路上。

TPU vLLM 基準測試暫不具備參考價值

本周有一項針對 TPUv6e 的全新推理基準測試結果公布,該結果宣稱 TPUv6e 的每美元性能較英偉達 GPU 低 5 倍。我們對此結論持反對意見,主要原因有兩點:

其一,該測試基于剛推出僅數月的 TPU 版 vLLM,其性能尚未經過充分優化。而谷歌內部的 Gemini 模型負載以及 Anthropic 公司的模型負載,均運行在自研的定制推理棧之上,該推理棧的每總擁有成本性能表現優于英偉達 GPU。

其二,該分析機構(Aritifical Analysis)在計算每百萬令牌成本時,采用的是TPUv6e 每小時每芯片 2.7 美元的標價。但考慮到 TPUv6e 的物料清單成本(BOM)僅為 H100 芯片的極小一部分,沒有任何一家 TPU 大客戶會以接近該標價的價格采購 TPUv6e。眾所周知,大多數云服務供應商都會刻意抬高公開標價,這樣其銷售負責人就能采用類似 “汽車銷售” 的策略,為客戶提供大幅折扣,讓客戶產生 “占了大便宜” 的錯覺。而半導體行業分析機構(SemiAnalysis)的人工智能總擁有成本模型,追蹤的是不同合同周期(1 個月、1 年、3 年等)內 TPU 在市場上的實際租賃價格。


image.png


來源:artifialanalysis

TPU 軟件戰略的關鍵缺失環節

谷歌在軟件戰略上仍存在一大失誤:其 XLA 圖編譯器、網絡庫以及 TPU 運行時環境既未開源,相關文檔也不完善。這導致從資深開發者到普通用戶的各類群體都倍感困擾,無法對代碼中出現的問題進行調試。此外,谷歌用于多計算單元訓練的MegaScale 代碼庫同樣沒有開源。我們堅信,若要加速 TPU 的普及進程,谷歌應當將上述組件開源。用戶滲透率的提升所帶來的收益,將遠超這些軟件知識產權公開免費所產生的成本。正如 PyTorch 與 Linux 的開源極大推動了自身的普及一樣,XLA:TPU、TPU 運行時環境及網絡庫的開源,也必將快速促進 TPU 生態的發展。

這對英偉達意味著什么?

如今谷歌已理順 TPU 相關業務,并開始對外銷售 TPU,允許客戶將其部署在自有數據中心。這會對英偉達的業務造成何種影響?英偉達是否終于迎來了一個能真正威脅其市場份額與利潤率的正當競爭對手?



關鍵詞: TPU 谷歌 AI 英偉達

評論


相關推薦

技術專區

關閉