久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > Microsoft通過“Braga” Maia 200 AI 計算引擎挑戰(zhàn)其他云端

Microsoft通過“Braga” Maia 200 AI 計算引擎挑戰(zhàn)其他云端

作者: 時間:2026-01-29 來源: 收藏

1769664899461150.png

微軟不僅是 OpenAI 模型的全球最大用戶,同時仍是為 OpenAI 提供計算、網(wǎng)絡(luò)和存儲資源的最大合作伙伴 ——OpenAI 正是依靠這些資源構(gòu)建其最新 GPT 模型。這一特殊地位讓微軟有兩大理由打造更出色的 Maia AI 加速器,而該公司剛剛宣布,他們已成功推出新一代產(chǎn)品。

如今,所有超大規(guī)模云廠商、四大生成式人工智能(GenAI)模型開發(fā)商中的三家(OpenAI、Anthropic 和 Meta 平臺)都在全力打造自定義 AI XPU(專用處理器),以期降低生成式 AI 推理工作負(fù)載的每令牌成本。第四家獨立模型開發(fā)商 xAI 則似乎傾向于采用特斯拉 Dojo 平臺(若其具備足夠的擴展性且能適配生成式 AI 訓(xùn)練與推理任務(wù)),但目前仍滿足于使用英偉達 GPU。

仍有少數(shù)廠商對 AI 訓(xùn)練領(lǐng)域感興趣,但事實上,英偉達已基本壟斷該市場。目前,全球企業(yè)和政府已開始部署 AI 推理業(yè)務(wù)(部分直接部署,部分通過云廠商間接部署),其所需的計算資源預(yù)計可能是 AI 訓(xùn)練的一個數(shù)量級以上,這為超過百家 初創(chuàng)公司提供了搶占細(xì)分市場、盈利的機會。

與所有超大規(guī)模云廠商一樣,微軟在部署 AI 驅(qū)動的副駕(copilot)功能時,希望掌控自身硬件供應(yīng)鏈,但作為云服務(wù)提供商,它仍需保留通用 X86 CPU 和英偉達 GPU(AMD GPU 的占比也在不斷提升),以滿足偏好這類架構(gòu)的客戶的租賃需求。和其他云廠商類似,微軟對選擇 AMD 或英偉達 GPU、英特爾 / AMD / 英偉達 CPU 的客戶收取高額溢價,但同時也希望通過自研計算引擎,以低于第三方產(chǎn)品的價格吸引用戶。這樣一來,當(dāng)用戶租賃 Cobalt CPU 或 Maia XPU 時,實際上是在支持微軟擺脫對這些芯片供應(yīng)商的依賴。

亞馬遜云科技(AWS)、谷歌、百度、阿里巴巴、騰訊等少數(shù)廠商也遵循著相同邏輯,紛紛投身自研 CPU 和 XPU。Meta 平臺雖并非傳統(tǒng)基礎(chǔ)設(shè)施云廠商,但它正像 OpenAI 和 Anthropic 對外提供 GPT、Claude 生成式 AI 模型 API 那樣,向各類主權(quán)實體開放其硬件資源以運行 Llama 模型 API,逐漸成為專注于生成式 AI 的平臺型云廠商 —— 并希望通過獲取這些客戶的資金,搭建支撐其 “超級智能” 愿景的基礎(chǔ)設(shè)施。

谷歌早在十多年前就啟動了張量處理單元(TPU)項目,因為當(dāng)時該公司意識到,若要在安卓設(shè)備上推出 AI 輔助語音搜索功能(即便用戶每天僅使用 3 分鐘),其數(shù)據(jù)中心的容量也需翻倍。而微軟的 “頓悟時刻” 則出現(xiàn)在幾年前:與 OpenAI 的合作迅猛推進,GPT 模型的使用量呈指數(shù)級飆升,幾乎沒有上限。正因如此,微軟于 2023 年 11 月披露了 “雅典娜”(Athena)Maia 100 XPU,但僅公布了少量細(xì)節(jié)和部分機架照片。

Maia 100 芯片旨在同時支持 AI 訓(xùn)練和推理任務(wù),且明確為運行 OpenAI 的 GPT 模型而設(shè)計,作為微軟 OpenAI API 服務(wù)及副駕功能的后端支撐。曾有傳言稱該芯片并未實現(xiàn)這一目標(biāo),且在運行 GPT 模型時表現(xiàn)不佳,但我們對此并不認(rèn)同。不過,令人疑惑的是, 云平臺從未推出搭載 Maia 100 加速器的虛擬機實例供用戶租賃。或許是 OpenAI 不愿將其訓(xùn)練或推理工作負(fù)載部署在雅典娜芯片上,導(dǎo)致微軟未能擴大該芯片的量產(chǎn)規(guī)模。

但 “布拉加”(Braga) 的情況似乎不會如此 —— 這款雅典娜芯片的繼任者專為 AI 推理任務(wù)設(shè)計,這在一定程度上簡化了產(chǎn)品架構(gòu)。

要理解 的性能表現(xiàn),我們需要回顧并梳理 Maia 100 的相關(guān)信息(該產(chǎn)品發(fā)布時未披露詳細(xì)參數(shù),后續(xù)才斷斷續(xù)續(xù)公布)。

以下是雅典娜 Maia 100 芯片的核心架構(gòu):

1769665096463580.png

從封裝圖中可清晰看到四組 HBM 堆疊內(nèi)存。

每個雅典娜核心均配備張量單元和向量單元,分別命名為瓦片張量單元(TTU)和瓦片向量處理器(TVP,非 “組織化植物蛋白” 的縮寫)。核心內(nèi)設(shè)有控制處理器,負(fù)責(zé)管理工作負(fù)載的流轉(zhuǎn);另有瓦片數(shù)據(jù)移動引擎(TDMA),協(xié)調(diào)各瓦片上 L1 緩存間的數(shù)據(jù)傳輸。這些瓦片聚合形成微軟所稱的 “集群”(按行業(yè)常規(guī)命名方式,我們更傾向于將其稱為 “核心” 和 “流處理器”,而多個集群則構(gòu)成一個計算引擎)。

1769665148886955.png

如上所示,每個集群包含 4 個瓦片,且配備專屬的集群控制處理器(CCP)和集群數(shù)據(jù)移動引擎(CDMA),負(fù)責(zé)管理對 L2 緩存 SRAM 的訪問。

微軟從未披露每個瓦片的具體 L1 SRAM 容量,以及一個集群中 4 個瓦片共享的 L2 SRAM 容量,但曾暗示,整個雅典娜計算引擎的 L1 和 L2 緩存總?cè)萘考s為 500MB。該計算引擎共有 16 個集群,通過二維網(wǎng)格互聯(lián),總計包含 64 個核心(按行業(yè)常規(guī)命名)。

1769665212767540.png

我們認(rèn)為雅典娜芯片確實包含 64 個核心,但不確定這些核心的良率,因此無法得知 Maia 100 的實際有效性能。我們很難相信其核心良率能達到 100%,結(jié)合微軟公布的性能數(shù)據(jù)(推測基于完美良率芯片),實際可用核心數(shù)量可能在 52 至 56 個之間。

雅典娜芯片的面積為 820 平方毫米,接近臺積電 5 納米工藝的掩膜版極限。微軟最終透露,該芯片復(fù)合體包含 1050 億個晶體管,且看似采用單芯片設(shè)計(尚未得到官方確認(rèn))。我們推測 Maia 100 的主頻約為 2.86 吉赫茲,芯片上約 500MB 的聚合 SRAM 總帶寬可達 132 太字節(jié) / 秒。四組 HBM2E 內(nèi)存的總?cè)萘繛?64GB,帶寬為 1.8 太字節(jié) / 秒 —— 即便在兩年前,這一內(nèi)存性能也算不上突出。

每個雅典娜核心的張量單元支持微軟自研的 MX6 6 位和 MX9 9 位數(shù)據(jù)格式,這些格式采用微指數(shù)設(shè)計,精度略高于 FP4 和 FP8 格式,且借助 Maia 核心的硬件輔助功能,不會顯著影響吞吐量。其中 MX9 格式計劃用于訓(xùn)練任務(wù)(以更低的硬件開銷替代 BF16 和 FP32 格式),MX6 格式則針對推理任務(wù) —— 這也印證了微軟最初希望雅典娜芯片同時適配兩類 AI 工作負(fù)載的設(shè)計目標(biāo)。

盡管微軟與 Meta 聯(lián)合研發(fā)的 MX9 和 MX6 格式頗具創(chuàng)新性,但唯一實現(xiàn)這些格式的芯片僅有 Maia 100。目前尚不清楚 OpenAI 是否對這些格式滿意,但可以肯定的是,新一代布拉加 芯片的張量單元僅支持 FP4 和 FP8 格式,向量單元則支持 BF16 和 FP32 格式。

Maia 100 不僅具備高 SRAM 帶寬和較大 SRAM 容量,其互聯(lián) I/O 帶寬也相當(dāng)可觀 —— 至少對于采用以太網(wǎng)作為底層互聯(lián)傳輸協(xié)議的芯片而言是如此。Maia 100 配備 12 個 400Gb / 秒端口,單個雅典娜計算引擎的聚合輸入帶寬可達 4800Gb / 秒(600GB / 秒),相當(dāng)于英偉達 “霍珀”(Hopper)H100/H200 GPU 或 “布萊克韋爾”(Blackwell)B200/B300 芯片組單個插槽 NVLink 端口帶寬的三分之二。

1769665288412268.png

不過,這些帶寬并非通過單一聚合端口實現(xiàn):12 個通道中,9 個用于四芯片組(一個四芯片組構(gòu)成雅典娜系統(tǒng)的基板)內(nèi)的芯片間互聯(lián),剩余 3 個通道則分配給三條獨立互聯(lián)鏈路,每條鏈路向系統(tǒng)中其他四芯片組提供 150GB / 秒的帶寬。數(shù)據(jù)包通過這三條鏈路分發(fā)傳輸,以減少網(wǎng)絡(luò)擁堵。根據(jù)我們的測算,Maia 100 的一致性集群域可支持 576 個節(jié)點,總計 2304 個計算引擎 —— 對于基于以太網(wǎng)的網(wǎng)絡(luò)架構(gòu)而言,這一規(guī)模相當(dāng)可觀。

Maia 200 的核心升級

如下表所示,Maia 200 對這一增強型 RoCE 以太網(wǎng)架構(gòu)進行了進一步優(yōu)化,將其重新命名為 AI 傳輸層(ATL),并集成在網(wǎng)絡(luò)接口中(與 Maia 100 的設(shè)計一致)。不同之處在于,ATL 網(wǎng)絡(luò)配備 8 條傳輸鏈路,支持更高效的數(shù)據(jù)包分發(fā),且一致性集群域規(guī)模擴大至 1536 個節(jié)點、6144 個計算引擎。

1769665339117862.png

我們認(rèn)為,Maia 200 的集成網(wǎng)卡配備 56 個 400Gb / 秒串并轉(zhuǎn)換通道,芯片的雙向聚合帶寬可達 2.8 太字節(jié) / 秒。與前代類似,其中 9 個通道可能用于布拉加四芯片組系統(tǒng)板的全互聯(lián)鏈路,剩余 47 個通道則用于實現(xiàn) 8 條 ATL 互聯(lián)鏈路。目前尚不清楚這些鏈路如何通過數(shù)據(jù)包分發(fā)實現(xiàn)與兩層以太網(wǎng)網(wǎng)絡(luò)的對接,從而構(gòu)建內(nèi)存擴展域,但我們將后續(xù)進一步分析。

工藝方面,Maia 200 采用臺積電 3 納米性能增強版(N3P)工藝制造。得益于制程升級,微軟將芯片主頻提升 8% 至 3.1 吉赫茲,芯片面積增加 2% 至 836 平方毫米,更接近當(dāng)前光刻工藝 858 平方毫米的掩膜版極限。不過,制程升級的主要收益在于晶體管數(shù)量的提升 ——Maia 200 的晶體管總數(shù)達到 1440 億個,這也是其相較于雅典娜芯片性能提升的核心驅(qū)動力。

盡管 Maia 200 的 I/O 帶寬較前代提升 2.33 倍,但每個計算引擎的 SRAM 容量減少了一半以上;我們估算,即便核心數(shù)量增加 50%(達到 96 個),聚合 SRAM 帶寬仍下降了 61%。此外,布拉加芯片的核心良率約為 92%,因此主流版本的實際可用核心數(shù)量約為 88 個。

晶體管數(shù)量增長 1.5 倍的同時,HBM 內(nèi)存容量提升 3.4 倍至 216GB(采用 6 組 12 層堆疊的 3GB 芯片,每組容量 36GB),內(nèi)存帶寬提升 3.9 倍至 7 太字節(jié) / 秒 —— 這一提升得益于內(nèi)存堆疊組數(shù)的增加以及 HBM3E 內(nèi)存的采用(實際由 SK 海力士供應(yīng))。

1769665406132910.png

微軟尚未公布 Maia 200 的詳細(xì)技術(shù)規(guī)格和框圖,但已披露其關(guān)鍵性能參數(shù):張量單元在 FP4 精度下的算力為 10.15 拍字節(jié) / 秒,F(xiàn)P8 精度下為 5.07 拍字節(jié) / 秒;向量單元在 BF16 精度下的算力為 1.27 拍字節(jié) / 秒,整體熱設(shè)計功耗(TDP)為 750 瓦。

硬件形態(tài)與部署進展

Maia 200 刀片服務(wù)器的設(shè)計如下:右側(cè)配備 4 個 AI XPU,左側(cè)則搭載一顆 CPU—— 極有可能是微軟去年 11 月發(fā)布的 Cobalt 200(相較于前代 Cobalt 100,性能提升約 50%)。

1769665470494595.png

以下是 Maia 200 的機架形態(tài):

1769665606465897.png

左側(cè)為一對空的 Maia 200 機架,左側(cè)配有冷卻液分配機架;

右側(cè)為微軟 數(shù)據(jù)中心內(nèi)部分部署的 Maia 200 機架。

1769665553460278.png

目前,位于愛荷華州得梅因市郊外的 美國中部區(qū)域已部署 Maia 200 機架,亞利桑那州鳳凰城郊外的美國西部 3 區(qū)將緊隨其后。微軟表示,Maia 200 計算引擎將用于為 OpenAI GPT-5.2 大型語言模型提供推理令牌服務(wù),支撐微軟 Foundry AI 平臺及 Office 365 副駕功能;同時,微軟的 AI 研究人員也將利用該引擎生成合成數(shù)據(jù),用于內(nèi)部模型的訓(xùn)練。

關(guān)于 Azure 何時將推出基于 Maia 200 的虛擬機實例(供技術(shù)人員在各類 AI 模型上進行測試),微軟暫未公布具體時間表。


關(guān)鍵詞: Microsoft Maia 200 AI 計算引擎 Azure

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉