Microsoft通過“Braga” Maia 200 AI 計算引擎挑戰(zhàn)其他云端

作者：時間：2026-01-29 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

微軟不僅是 OpenAI 模型的全球最大用戶，同時仍是為 OpenAI 提供計算、網(wǎng)絡(luò)和存儲資源的最大合作伙伴 ——OpenAI 正是依靠這些資源構(gòu)建其最新 GPT 模型。這一特殊地位讓微軟有兩大理由打造更出色的 Maia AI 加速器，而該公司剛剛宣布，他們已成功推出新一代產(chǎn)品。

如今，所有超大規(guī)模云廠商、四大生成式人工智能（GenAI）模型開發(fā)商中的三家（OpenAI、Anthropic 和 Meta 平臺）都在全力打造自定義 AI XPU（專用處理器），以期降低生成式 AI 推理工作負(fù)載的每令牌成本。第四家獨立模型開發(fā)商 xAI 則似乎傾向于采用特斯拉 Dojo 平臺（若其具備足夠的擴展性且能適配生成式 AI 訓(xùn)練與推理任務(wù)），但目前仍滿足于使用英偉達 GPU。

仍有少數(shù)廠商對 AI 訓(xùn)練領(lǐng)域感興趣，但事實上，英偉達已基本壟斷該市場。目前，全球企業(yè)和政府已開始部署 AI 推理業(yè)務(wù)（部分直接部署，部分通過云廠商間接部署），其所需的計算資源預(yù)計可能是 AI 訓(xùn)練的一個數(shù)量級以上，這為超過百家 AI 計算引擎初創(chuàng)公司提供了搶占細(xì)分市場、盈利的機會。

與所有超大規(guī)模云廠商一樣，微軟在部署 AI 驅(qū)動的副駕（copilot）功能時，希望掌控自身硬件供應(yīng)鏈，但作為云服務(wù)提供商，它仍需保留通用 X86 CPU 和英偉達 GPU（AMD GPU 的占比也在不斷提升），以滿足偏好這類架構(gòu)的客戶的租賃需求。和其他云廠商類似，微軟對選擇 AMD 或英偉達 GPU、英特爾 / AMD / 英偉達 CPU 的客戶收取高額溢價，但同時也希望通過自研計算引擎，以低于第三方產(chǎn)品的價格吸引用戶。這樣一來，當(dāng)用戶租賃 Cobalt CPU 或 Maia XPU 時，實際上是在支持微軟擺脫對這些芯片供應(yīng)商的依賴。

亞馬遜云科技（AWS）、谷歌、百度、阿里巴巴、騰訊等少數(shù)廠商也遵循著相同邏輯，紛紛投身自研 CPU 和 XPU。Meta 平臺雖并非傳統(tǒng)基礎(chǔ)設(shè)施云廠商，但它正像 OpenAI 和 Anthropic 對外提供 GPT、Claude 生成式 AI 模型 API 那樣，向各類主權(quán)實體開放其硬件資源以運行 Llama 模型 API，逐漸成為專注于生成式 AI 的平臺型云廠商 —— 并希望通過獲取這些客戶的資金，搭建支撐其 “超級智能” 愿景的基礎(chǔ)設(shè)施。

谷歌早在十多年前就啟動了張量處理單元（TPU）項目，因為當(dāng)時該公司意識到，若要在安卓設(shè)備上推出 AI 輔助語音搜索功能（即便用戶每天僅使用 3 分鐘），其數(shù)據(jù)中心的容量也需翻倍。而微軟的 “頓悟時刻” 則出現(xiàn)在幾年前：與 OpenAI 的合作迅猛推進，GPT 模型的使用量呈指數(shù)級飆升，幾乎沒有上限。正因如此，微軟于 2023 年 11 月披露了 “雅典娜”（Athena）Maia 100 XPU，但僅公布了少量細(xì)節(jié)和部分機架照片。

Maia 100 芯片旨在同時支持 AI 訓(xùn)練和推理任務(wù)，且明確為運行 OpenAI 的 GPT 模型而設(shè)計，作為微軟 OpenAI API 服務(wù)及副駕功能的后端支撐。曾有傳言稱該芯片并未實現(xiàn)這一目標(biāo)，且在運行 GPT 模型時表現(xiàn)不佳，但我們對此并不認(rèn)同。不過，令人疑惑的是，Azure 云平臺從未推出搭載 Maia 100 加速器的虛擬機實例供用戶租賃。或許是 OpenAI 不愿將其訓(xùn)練或推理工作負(fù)載部署在雅典娜芯片上，導(dǎo)致微軟未能擴大該芯片的量產(chǎn)規(guī)模。

但 “布拉加”（Braga）Maia 200 的情況似乎不會如此 —— 這款雅典娜芯片的繼任者專為 AI 推理任務(wù)設(shè)計，這在一定程度上簡化了產(chǎn)品架構(gòu)。

要理解 Maia 200 的性能表現(xiàn)，我們需要回顧并梳理 Maia 100 的相關(guān)信息（該產(chǎn)品發(fā)布時未披露詳細(xì)參數(shù)，后續(xù)才斷斷續(xù)續(xù)公布）。

以下是雅典娜 Maia 100 芯片的核心架構(gòu)：

從封裝圖中可清晰看到四組 HBM 堆疊內(nèi)存。

每個雅典娜核心均配備張量單元和向量單元，分別命名為瓦片張量單元（TTU）和瓦片向量處理器（TVP，非 “組織化植物蛋白” 的縮寫）。核心內(nèi)設(shè)有控制處理器，負(fù)責(zé)管理工作負(fù)載的流轉(zhuǎn)；另有瓦片數(shù)據(jù)移動引擎（TDMA），協(xié)調(diào)各瓦片上 L1 緩存間的數(shù)據(jù)傳輸。這些瓦片聚合形成微軟所稱的 “集群”（按行業(yè)常規(guī)命名方式，我們更傾向于將其稱為 “核心” 和 “流處理器”，而多個集群則構(gòu)成一個計算引擎）。

如上所示，每個集群包含 4 個瓦片，且配備專屬的集群控制處理器（CCP）和集群數(shù)據(jù)移動引擎（CDMA），負(fù)責(zé)管理對 L2 緩存 SRAM 的訪問。

微軟從未披露每個瓦片的具體 L1 SRAM 容量，以及一個集群中 4 個瓦片共享的 L2 SRAM 容量，但曾暗示，整個雅典娜計算引擎的 L1 和 L2 緩存總?cè)萘考s為 500MB。該計算引擎共有 16 個集群，通過二維網(wǎng)格互聯(lián)，總計包含 64 個核心（按行業(yè)常規(guī)命名）。

我們認(rèn)為雅典娜芯片確實包含 64 個核心，但不確定這些核心的良率，因此無法得知 Maia 100 的實際有效性能。我們很難相信其核心良率能達到 100%，結(jié)合微軟公布的性能數(shù)據(jù)（推測基于完美良率芯片），實際可用核心數(shù)量可能在 52 至 56 個之間。

雅典娜芯片的面積為 820 平方毫米，接近臺積電 5 納米工藝的掩膜版極限。微軟最終透露，該芯片復(fù)合體包含 1050 億個晶體管，且看似采用單芯片設(shè)計（尚未得到官方確認(rèn)）。我們推測 Maia 100 的主頻約為 2.86 吉赫茲，芯片上約 500MB 的聚合 SRAM 總帶寬可達 132 太字節(jié) / 秒。四組 HBM2E 內(nèi)存的總?cè)萘繛?64GB，帶寬為 1.8 太字節(jié) / 秒 —— 即便在兩年前，這一內(nèi)存性能也算不上突出。

每個雅典娜核心的張量單元支持微軟自研的 MX6 6 位和 MX9 9 位數(shù)據(jù)格式，這些格式采用微指數(shù)設(shè)計，精度略高于 FP4 和 FP8 格式，且借助 Maia 核心的硬件輔助功能，不會顯著影響吞吐量。其中 MX9 格式計劃用于訓(xùn)練任務(wù)（以更低的硬件開銷替代 BF16 和 FP32 格式），MX6 格式則針對推理任務(wù) —— 這也印證了微軟最初希望雅典娜芯片同時適配兩類 AI 工作負(fù)載的設(shè)計目標(biāo)。

盡管微軟與 Meta 聯(lián)合研發(fā)的 MX9 和 MX6 格式頗具創(chuàng)新性，但唯一實現(xiàn)這些格式的芯片僅有 Maia 100。目前尚不清楚 OpenAI 是否對這些格式滿意，但可以肯定的是，新一代布拉加 Maia 200 芯片的張量單元僅支持 FP4 和 FP8 格式，向量單元則支持 BF16 和 FP32 格式。

Maia 100 不僅具備高 SRAM 帶寬和較大 SRAM 容量，其互聯(lián) I/O 帶寬也相當(dāng)可觀 —— 至少對于采用以太網(wǎng)作為底層互聯(lián)傳輸協(xié)議的芯片而言是如此。Maia 100 配備 12 個 400Gb / 秒端口，單個雅典娜計算引擎的聚合輸入帶寬可達 4800Gb / 秒（600GB / 秒），相當(dāng)于英偉達 “霍珀”（Hopper）H100/H200 GPU 或 “布萊克韋爾”（Blackwell）B200/B300 芯片組單個插槽 NVLink 端口帶寬的三分之二。

不過，這些帶寬并非通過單一聚合端口實現(xiàn)：12 個通道中，9 個用于四芯片組（一個四芯片組構(gòu)成雅典娜系統(tǒng)的基板）內(nèi)的芯片間互聯(lián)，剩余 3 個通道則分配給三條獨立互聯(lián)鏈路，每條鏈路向系統(tǒng)中其他四芯片組提供 150GB / 秒的帶寬。數(shù)據(jù)包通過這三條鏈路分發(fā)傳輸，以減少網(wǎng)絡(luò)擁堵。根據(jù)我們的測算，Maia 100 的一致性集群域可支持 576 個節(jié)點，總計 2304 個計算引擎 —— 對于基于以太網(wǎng)的網(wǎng)絡(luò)架構(gòu)而言，這一規(guī)模相當(dāng)可觀。

Maia 200 的核心升級

如下表所示，Maia 200 對這一增強型 RoCE 以太網(wǎng)架構(gòu)進行了進一步優(yōu)化，將其重新命名為 AI 傳輸層（ATL），并集成在網(wǎng)絡(luò)接口中（與 Maia 100 的設(shè)計一致）。不同之處在于，ATL 網(wǎng)絡(luò)配備 8 條傳輸鏈路，支持更高效的數(shù)據(jù)包分發(fā)，且一致性集群域規(guī)模擴大至 1536 個節(jié)點、6144 個計算引擎。

我們認(rèn)為，Maia 200 的集成網(wǎng)卡配備 56 個 400Gb / 秒串并轉(zhuǎn)換通道，芯片的雙向聚合帶寬可達 2.8 太字節(jié) / 秒。與前代類似，其中 9 個通道可能用于布拉加四芯片組系統(tǒng)板的全互聯(lián)鏈路，剩余 47 個通道則用于實現(xiàn) 8 條 ATL 互聯(lián)鏈路。目前尚不清楚這些鏈路如何通過數(shù)據(jù)包分發(fā)實現(xiàn)與兩層以太網(wǎng)網(wǎng)絡(luò)的對接，從而構(gòu)建內(nèi)存擴展域，但我們將后續(xù)進一步分析。

工藝方面，Maia 200 采用臺積電 3 納米性能增強版（N3P）工藝制造。得益于制程升級，微軟將芯片主頻提升 8% 至 3.1 吉赫茲，芯片面積增加 2% 至 836 平方毫米，更接近當(dāng)前光刻工藝 858 平方毫米的掩膜版極限。不過，制程升級的主要收益在于晶體管數(shù)量的提升 ——Maia 200 的晶體管總數(shù)達到 1440 億個，這也是其相較于雅典娜芯片性能提升的核心驅(qū)動力。

盡管 Maia 200 的 I/O 帶寬較前代提升 2.33 倍，但每個計算引擎的 SRAM 容量減少了一半以上；我們估算，即便核心數(shù)量增加 50%（達到 96 個），聚合 SRAM 帶寬仍下降了 61%。此外，布拉加芯片的核心良率約為 92%，因此主流版本的實際可用核心數(shù)量約為 88 個。

晶體管數(shù)量增長 1.5 倍的同時，HBM 內(nèi)存容量提升 3.4 倍至 216GB（采用 6 組 12 層堆疊的 3GB 芯片，每組容量 36GB），內(nèi)存帶寬提升 3.9 倍至 7 太字節(jié) / 秒 —— 這一提升得益于內(nèi)存堆疊組數(shù)的增加以及 HBM3E 內(nèi)存的采用（實際由 SK 海力士供應(yīng)）。

微軟尚未公布 Maia 200 的詳細(xì)技術(shù)規(guī)格和框圖，但已披露其關(guān)鍵性能參數(shù)：張量單元在 FP4 精度下的算力為 10.15 拍字節(jié) / 秒，F(xiàn)P8 精度下為 5.07 拍字節(jié) / 秒；向量單元在 BF16 精度下的算力為 1.27 拍字節(jié) / 秒，整體熱設(shè)計功耗（TDP）為 750 瓦。

硬件形態(tài)與部署進展

Maia 200 刀片服務(wù)器的設(shè)計如下：右側(cè)配備 4 個 AI XPU，左側(cè)則搭載一顆 CPU—— 極有可能是微軟去年 11 月發(fā)布的 Cobalt 200（相較于前代 Cobalt 100，性能提升約 50%）。

以下是 Maia 200 的機架形態(tài)：

左側(cè)為一對空的 Maia 200 機架，左側(cè)配有冷卻液分配機架；

右側(cè)為微軟 Azure 數(shù)據(jù)中心內(nèi)部分部署的 Maia 200 機架。

目前，位于愛荷華州得梅因市郊外的 Azure 美國中部區(qū)域已部署 Maia 200 機架，亞利桑那州鳳凰城郊外的美國西部 3 區(qū)將緊隨其后。微軟表示，Maia 200 計算引擎將用于為 OpenAI GPT-5.2 大型語言模型提供推理令牌服務(wù)，支撐微軟 Foundry AI 平臺及 Office 365 副駕功能；同時，微軟的 AI 研究人員也將利用該引擎生成合成數(shù)據(jù)，用于內(nèi)部模型的訓(xùn)練。

關(guān)于 Azure 何時將推出基于 Maia 200 的虛擬機實例（供技術(shù)人員在各類 AI 模型上進行測試），微軟暫未公布具體時間表。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

Microsoft通過“Braga” Maia 200 AI 計算引擎挑戰(zhàn)其他云端

評論

相關(guān)推薦

技術(shù)專區(qū)