谷歌TPU:為AI推理時代打造的芯片
TPU的歷史以及這一切的起源?
谷歌張量處理單元(TPU)的故事并非始于芯片制造的突破,而是始于對數學和物流的認識。大約在2013年,谷歌的領導層——特別是杰夫·迪恩、喬納森·羅斯(Groq的CEO)和谷歌大腦團隊——發布了一個令他們震驚的預測。他們計算出,如果每個安卓用戶每天只使用谷歌的語音搜索功能三分鐘,谷歌就需要將全球數據中心容量翻倍以應對計算負載。
當時,谷歌依賴標準CPU和GPU完成這些任務。雖然功能強大,但這些通用芯片在深度學習所需的特殊繁重任務——大規模矩陣乘法方面效率低下。用現有硬件進行擴展將是財務和后勤上的噩夢。
這激發了一個新項目。谷歌決定做一件軟件公司罕見的事:打造自己的定制硅片。目標是創建一個僅用于運行 TensorFlow 神經網絡的 ASIC(專用集成電路)。
關鍵歷史里程碑:
2013-2014年:項目進展非常迅速,谷歌不僅聘請了一支非常有能力的團隊,而且坦白說,他們在第一步也取得了一些運氣。團隊從設計概念到在數據中心部署硅片僅用了15個月——對硬件工程來說是一個非常短的周期。
2015年:在世界還未意識到它們存在之前,TPU已經為谷歌最受歡迎的產品提供動力。它們默默加速了谷歌地圖導航、谷歌相冊和谷歌翻譯。
2016年:谷歌在Google I/O 2016上正式發布了TPU。
解決“數據中心雙重”問題的緊迫性正是TPU存在的原因。它不是為賣給玩家或渲染視頻而設計的;它的誕生是為了拯救谷歌免于自身的人工智能成功。考慮到這一點,谷歌已經思考“代價高昂”的人工智能推理問題十多年了。這也是TPU相較于其他ASIC項目表現優異的主要原因之一。
TPU和GPU的區別是什么?
要理解它們的區別,最好看看每個芯片最初的設計目的。GPU是一種“通用”并行處理器,而TPU則是“域專用”架構。
這些GPU是為圖形設計的。它們擅長并行處理(同時處理多項任務),這對人工智能非常有利。然而,由于它們設計用于處理從電子游戲紋理到科學模擬的各種內容,因此背負著“建筑包袱”。他們在緩存、分支預測和管理獨立線程等復雜任務上花費大量能量和芯片空間。
而TPU則剝離了所有這些包袱。它沒有光柵化或紋理映射的硬件。相反,它采用了一種獨特的架構,稱為收縮陣列。
“收縮陣列”是關鍵的區別。在標準的CPU或GPU中,芯片在每次計算時都會在內存和計算單元之間來回傳遞數據。這種持續的洗牌造成瓶頸(馮·諾依曼瓶頸)。
在TPU的收縮陣列中,數據像血液流經心臟一樣流經芯片(因此得名“收縮壓”)。
它只加載一次數據(權重)。
它通過一個龐大的乘數網格傳遞輸入。
數據直接傳遞到數組中的下一個單元,無需寫回內存。
本質上,這意味著由于TPU的systolic陣列,大幅減少了從HBM讀取和寫入所需的內存數量。因此,TPU可以花周期進行計算,而不必等待數據。
谷歌的新TPU設計,也稱為Ironwood,也解決了TPU缺乏的一些關鍵方面:
他們增強了 SparseCore 以高效處理大型嵌入(適合推薦系統和大型語言模型)
它提升了 HBM 的容量和帶寬(每顆芯片最高可達 192 GB)。為了更好地理解,英偉達的Blackwell B200每顆芯片有192GB,而Blackwell Ultra(也稱為B300)每顆芯片有288GB。
改進了芯片間互聯(ICI),將數千顆芯片連接成大型集群,也稱為TPU Pods(用于AI訓練及部分時間測試計算推理工作負載)。關于 ICI,需要注意的是,它的性能非常出色,峰值帶寬為 1.2 TB/s,而 Blackwell NVLink 5 僅為 1.8 TB/s。但谷歌的ICI及其專業編譯器和軟件堆棧,在某些特定AI任務上仍能提供更優的性能。
關鍵是,由于TPU不需要解碼復雜指令或不斷訪問內存,它能提供顯著更高的焦耳運算。

在擴展方面,谷歌使用光電路交換機(OCS)及其3D環面網絡,這些網絡與英偉達的InfiniBand和Spectrum-X以太網競爭。主要區別在于OCS極具成本效益和節能性,因為它省去了電氣開關和O-E-O轉換,但因此靈活性不如另外兩種。所以,谷歌技術棧在當前任務上極為專業化,缺乏GPU那樣的靈活性。
性能數據 TPU 與 GPU 的區別?
既然我們定義了差異,接下來來看TPU與GPU性能的實際數據。由于谷歌沒有公布這些數據,想要獲得性能細節非常困難。我研究了許多文章和替代數據來源,包括業內人士的訪談,以下是一些關鍵要點。
首先,關于谷歌最新的TPUv7(Ironwood)的信息非常有限,谷歌于2025年4月推出,現在才開始向外部客戶開放(內部據說谷歌自4月起就開始使用Ironwood,甚至可能用于Gemini 3.0)。如果我們以半分析數據比較TPUv7與較舊但仍廣泛使用的TPUv5p版本,這為何重要:
TPUv7 產生 4,614 TFLOPS(BF16),而 TPUv5p 的 459 TFLOPS。
TPUv7 擁有 192GB 內存容量,而 TPUv5p 擁有 96GB
TPUv7內存帶寬為7,370 GB/s,而v5p為2,765
我們可以看到,v5 到 v7 之間的性能飛躍非常顯著。為了說明背景,我們要看的大多數評論更側重于TPUv6或TPUv5,而不是v7。
基于對大量前谷歌員工、客戶和競爭對手(AMD、NVDA等公司的人員)的訪談分析,結果總結如下。
大多數人同意TPU比Nvidia顯卡更具成本效益,且大多數人認為TPU的每瓦性能更好。不過,這種觀點并不適用于所有使用場景。
一位前谷歌云員工:
“如果這是合適的應用,那么它們的每美元性能遠優于顯卡。它們所需的能量更少,產生的熱量也比GPU少得多。它們也更節能,環境足跡更小,這也是它們成為理想結果的原因。
使用場景略有限制于顯卡,雖然不那么通用,但對于特定應用,每美元性能可提升多達1.4倍,對于想使用GPU而非TPU的客戶來說,這是相當顯著的節省。“——來源:AlphaSense
同樣,谷歌一位前單位主管關于TPU相比GPU在AI搜索每次查詢成本上顯著降低的見解:
“TPU v6 比 GPU 高效 60-65%,前幾代高出 40-45%”
這次采訪是在2024年11月進行的,所以專家很可能是在比較v6的TPU和Nvidia Hopper。如今,我們已經有了Blackwell對V7的對決。
許多專家還提到TPU的速度優勢,一位前谷歌負責人表示,TPU在訓練動態模型(如搜索類工作負載)時比GPU快5倍。
還有一位客戶的采訪非常令人震驚,他同時使用了Nvidia GPU和Google TPU,詳細描述了經濟效益:
“如果我用八個H100,而不是用一個v5e艙,我會花在一個v5e艙身上少得多。從價格和性能值來看,TPU的性價比會更高。如果我已經有代碼,無論是因為谷歌的幫助還是我們自己的工作,知道它能在TPU上運行,那么對我來說,繼續用TPU是有益的。
從長遠來看,如果我覺得需要寫一個新的代碼庫,我需要做更多的工作,那就取決于我要訓練多久。我認為,比如說,未來還有一些我們已經在TPU上完成的工作,因為谷歌會推出新一代TPU,舊TPU的成本會大幅降低。
比如,當他們發布 v4 時,我記得 v2 的價格降得非常低,以至于相比任何 NVIDIA 顯卡,它幾乎免費使用。谷歌有不錯的承諾,所以他們繼續支持老款TPU,而且價格也大幅降低。如果你不需要馬上訓練模型,愿意說“我可以等一周”,即使培訓只有三天,那么你可以把成本降低五分之一。“——來源:AlphaSense
另一場有價值的采訪是與一位現任AMD員工的采訪,他認可了ASIC的優勢:
“我預計AI加速器大概能做到我們在行業里看到的效果。我利用我在FPGA方面的經驗。相比GPU,我能看到體積能縮小30%,功耗可能降低50%。”
我們還從一位曾在芯片領域工作的谷歌前員工那里獲得了一些數據:
“當我看公布的數據時,它們(TPU)在使用場景中比英偉達提升了25%-30%到接近2倍不等。本質上,非常定制化的設計完美完成某項任務,與更通用的設計之間存在區別。”
同時也知道,TPU的真正優勢不在于硬件,而在于軟件以及谷歌對其TPU生態系統的優化。
很多人提到每個像TPU這樣的Nvidia“競爭對手”都面臨的問題,那就是Nvidia快速的發展和不斷“追趕”Nvidia的問題。本月,一位前谷歌云員工正面回應了這一擔憂,他認為TPU的提升速度比英偉達更快:
“TPU每美元性能提升的比例,與新一代相比,遠遠超過了英偉達。”
此外,谷歌在2025年熱芯片活動上的最新發布會數據也支持了這一點,谷歌表示TPUv7在每瓦性能方面比他們的TPUv6e(Trillium)高出100%。
即使是堅定的英偉達支持者,TPU也不能輕易忽視,因為即使是詹森也非常看好谷歌的TPU。在與Brad Gerstner的一檔播客中,他提到ASIC方面,谷歌的TPU是“特殊情況”。幾個月前,我們還收到了《華爾街日報》的一篇文章,稱在新聞媒體《The Information》發布報道稱OpenAI開始為ChatGPT租用谷歌TPU后,詹森打電話給奧特曼,詢問是否屬實,并表示愿意讓談判重回正軌(投資談判)。值得一提的是,英偉達官方X賬號發布了一篇文章截圖,內容是OpenAI否認計劃使用谷歌自家芯片的計劃。至少可以說,英偉達對TPU的關注非常密切。
好吧,但看了這些數據后,有人可能會想,為什么沒有更多客戶端使用TPU?
TPU的更廣泛采用面臨哪些問題
TPU采用的主要問題在于生態系統。英偉達的CUDA深深印在大多數AI工程師腦海中,因為他們一直在大學學習CUDA。 谷歌在內部開發了生態系統,但沒有外部發展,因為直到現在它只用TPU來處理內部工作負載。TPU結合使用JAX和TensorFlow,而行業主要采用CUDA和PyTorch(盡管TPU現在也支持PyTorch)。雖然谷歌正努力使其生態系統更具支持性,并使其能夠與其他棧轉換,但這也是一個需要多年發展的庫和生態系統形成問題。
同樣需要注意的是,直到最近,生成式人工智能行業的重點主要集中在訓練工作負載上。在訓練工作負載中,CUDA非常重要,但在推理甚至推理推斷方面,CUDA并不那么重要,因此TPU在推理中擴展占比訓練中更大的可能性(盡管TPU在訓練中表現也非常好——Gemini 3是最典型的例子)。
大多數客戶采用多云服務也對TPU的采用構成挑戰,因為AI工作負載與數據及其位置緊密相關(云數據傳輸成本高昂)。Nvidia 可以通過這三個超大規模平臺訪問,而 TPU 目前僅在 GCP 上提供。一位使用 TPU 和 Nvidia 顯卡的客戶解釋得很好:
“目前,NVIDIA 最大的優勢——這在過去我工作過的三家公司中一直如此——因為 AWS、Google Cloud 和 Microsoft Azure 是三大云公司。
每家公司、每家企業、每一個客戶的數據都會在這三者中的一個。這三塊云都搭載了NVIDIA GPU。有時候數據太大且存在不同的云,使用客戶數據的云計算成本要低得多。
我不知道你是否了解數據從一個云端遷移出云端的成本,這其中一個成本比較大。在這種情況下,如果你用的是NVIDIA工作負載,或者CUDA工作負載,我們可以直接去Microsoft Azure,找一個帶NVIDIA GPU的虛擬機,實際上是同一款GPU,不需要修改代碼,直接運行就行。
有了TPU,一旦你都依賴TPU,而谷歌說,“你知道嗎?現在你得多付10倍的錢”,那我們就完了,因為那樣我們就得回頭重寫一切。這就是原因。這也是人們害怕在TPU上投入過多的唯一原因。亞馬遜的Trainium和Inferentia也是同樣的原因。“——來源:AlphaSense
這些問題在谷歌內部眾所周知,因此內部關于將TPU保留在谷歌內部還是開始對外銷售的爭論持續不斷也就不足為奇了。將TPU保留在內部,會加深GCP的護城河,但與此同時,許多前谷歌員工相信,谷歌遲早會開始在外部提供TPU,可能通過一些新云技術,而不一定是與最大的兩大競爭對手——Microsoft和亞馬遜。開放生態系統、提供支持等,并使其更廣泛可用,是實現這一目標的第一步。
一位前谷歌員工還提到,谷歌去年組建了一個更偏銷售的團隊來推銷和銷售TPU,所以他們并不是多年來一直大力推銷TPU;這是組織內部相當新的動態。
谷歌的TPU是其云業務未來十年最大的競爭優勢
對我來說,TPU最有價值的是它們對GCP的影響。隨著云業務從AI出現前時代向AI時代的轉變,最大的收獲是行業已從AWS、Azure和GCP的寡頭壟斷轉變為更加商品化的格局,甲骨文、Coreweave及許多其他新云在爭奪AI工作負載。AI工作負載的問題在于競爭和英偉達75%的毛利率,這也導致AI工作負載的利潤率偏低。云行業正從50-70%的毛利率行業轉變為20-35%的毛利率。對于云投資者來說,這應該令人擔憂,因為這些公司的未來形象更像是公用事業公司,而非有吸引力的高利潤率企業。但有一個解決方案可以避免這種未來,回歸正常利潤率:ASIC。
能夠控制硬件且不受Nvidia及其75%毛利率約束的云服務提供商,將能夠回歸50%毛利率的時代。毫不意外,三大AWS、Azure和GCP都在開發自己的ASIC。最成熟的無疑是谷歌的TPU,其次是亞馬遜的Trainum,最后是Microsoft的MAIA(盡管Microsoft擁有OpenAI定制ASIC的全部知識產權,這可能在未來有所幫助)。
即使使用ASIC,你也不能百分之百獨立,因為你仍然需要與像博通或Marvell這樣的公司合作,他們的利潤率低于英偉達但仍不可忽視,谷歌依然處于非常有利的位置。多年來,谷歌在開發TPU的過程中,成功控制了芯片設計的大部分流程。據一位現任AMD員工透露,博通已不再對芯片的全部了解。目前,谷歌是前端設計師(設計的實際RTL),而博通只是后端的物理設計合作伙伴。此外,谷歌當然還擁有芯片的全部軟件優化堆棧,這使得芯片性能如此出色。據這位AMD員工說,基于這項工作分工,他認為博通能獲得50個百分點的毛利率已經算幸運了。
在不向Nvidia支付加速器費用的情況下,云服務提供商可以選擇與他人類似定價以保持更好的利潤率,或者降低成本并擴大市場份額。當然,這一切都取決于擁有一款能夠與Nvidia競爭的強大ASIC。不幸的是,看起來只有谷歌實現了這一點,因為表現最好的型號是基于TPU訓練的Gemini 3。據一些前谷歌員工透露,谷歌內部也在整個AI架構中使用TPU進行推斷,包括Gemini和Veo等模型。谷歌購買Nvidia GPU用于GCP,因為客戶需要,因為他們熟悉這些產品和生態系統,但在內部,谷歌則全力投入TPU。
隨著每一代ASIC的復雜度提升,類似于Nvidia的復雜度和速度,我預測并非所有ASIC項目都能成功。我認為除了TPU之外,目前唯一真正的超大規模市場機會是AWS Trainium,但即便如此,它也面臨比TPU更大的不確定性。考慮到這一點,谷歌及其云業務有望成為AI時代的主要受益者和市場份額增長者。
最近,我們甚至收到了SemiAnalysis團隊對TPU的贊揚:
“谷歌在超大規模開發者中的硅芯片優勢無人能及,他們的第七代TPU可以說與英偉達Blackwell不相上下。TPU驅動了Gemini系列模型,這些模型的能力正在提升,在某些任務中接近每智能價值的帕累托邊界”——來源:SemiAnalysis
谷歌目前生產多少TPU,規模會更大?








評論