800V 進(jìn)入 AI 數(shù)據(jù)中心,電源要從機柜到板級重新設(shè)計
AI 數(shù)據(jù)中心最先被看見的,還是 GPU。
但 GPU、加速卡和電源模塊被裝進(jìn)同一個機柜后,單柜輸入功率會增加。電流變大,線纜、連接器、母線、電源模塊和散熱系統(tǒng)都會先感受到壓力。算力芯片還能繼續(xù)增加,供電不能只靠加粗線纜、增加電源模塊和堆散熱片來硬撐。
800V 進(jìn)入 AI 數(shù)據(jù)中心討論,就是在解決這個問題。這個數(shù)字背后是一段很具體的供電路徑:電從機柜入口進(jìn)來,先經(jīng)過熱插拔和保護(hù),再進(jìn)入中間母線和電源模塊,最后由板級電源送到 GPU、CPU 和加速器附近。每一段都要重新計算電流、損耗、發(fā)熱、隔離和保護(hù)。
單柜耗電增加,低壓大電流先卡在線纜、連接器和散熱上
過去數(shù)據(jù)中心也在做電源升級,但這一輪壓力更集中。AI 服務(wù)器的單機功耗增加以后,一個機柜里要承載的輸入功率更高。電壓不變時,要送同樣多的功率,就需要更大的電流。
電流一大,問題會很直接。線纜要更粗,連接器和母線要承受更高電流,電源模塊的導(dǎo)通損耗和溫升會上來,機柜里的布線和風(fēng)道也會變難。機柜空間有限,線纜不能無限加粗,散熱風(fēng)量也不能無限增加。
提高機柜側(cè)供電電壓,可以在同等功率下降低電流。電流降下來,線纜、連接器、銅排和部分電源模塊的損耗會減輕,布線和散熱壓力也會下降。但電壓抬高以后,高壓隔離、輸入保護(hù)、熱插拔、故障檢測和維護(hù)安全都要一起重新設(shè)計。
提高電壓只是第一步。800V 進(jìn)入系統(tǒng)后,機柜輸入、中間母線、板級電源、熱插拔、遙測和保護(hù)這些環(huán)節(jié)的設(shè)計要求都會跟著變化。
高壓電進(jìn)入機柜后,還要一路降到 GPU 附近
AI 數(shù)據(jù)中心討論 800V,不能只看機柜入口。高壓電進(jìn)入機柜后,通常還要經(jīng)過熱插拔控制、隔離母線轉(zhuǎn)換、中間電壓分配和板級多相降壓,最后才到 GPU、CPU、內(nèi)存和加速器附近。
越靠近負(fù)載,電壓越低,電流越大。GPU 負(fù)載變化很快,板級電源需要快速響應(yīng);響應(yīng)慢了,電壓波動、紋波、溫升和保護(hù)動作都會變得難處理。
機柜側(cè)要處理高壓輸入、連接器、浪涌電流、熱插拔和安全保護(hù)。中間母線要把高壓轉(zhuǎn)換到服務(wù)器內(nèi)部更容易使用的電壓。板級電源要靠近 GPU、CPU 和加速器,把電壓繼續(xù)降到芯片需要的范圍。
熱插拔、遙測、保護(hù)和隔離驅(qū)動也要一起算進(jìn)設(shè)計。AI 服務(wù)器功耗高,停機成本高,電源模塊能不能安全插拔,電壓、電流和溫度能不能被準(zhǔn)確監(jiān)測,過流、過溫和短路能不能快速切斷,都會影響整機可靠性。
TI 想占住的,是從機柜入口到算力芯片的供電設(shè)計
TI 這次把 800V 放進(jìn)了 AI 數(shù)據(jù)中心的完整供電路徑里。高壓電進(jìn)入機柜后,要經(jīng)過隔離、中間轉(zhuǎn)換和板級供電,最后送到 GPU、CPU 和加速器附近。轉(zhuǎn)換級數(shù)、模塊位置、遙測和保護(hù)設(shè)計,都會影響整柜效率和長期可靠性。
TI 在 800V DC 電源架構(gòu)中,把 800V 熱插拔控制器、800V 到 6V 隔離母線轉(zhuǎn)換、6V 到低于 1V 的多相降壓、遙測和保護(hù)放在一起展示。公開資料顯示,這套架構(gòu)把 800V 到處理器供電壓縮到兩級轉(zhuǎn)換:先從 800V 轉(zhuǎn)到 6V,再從 6V 降到 GPU 核心所需的低電壓。
這和 TI 近幾年在應(yīng)用市場上的表達(dá)方向是一致的。它希望市場在談一個具體應(yīng)用時,能把單顆器件和實際工程問題聯(lián)系起來。放到 AI 數(shù)據(jù)中心這條線里,TI 想讓市場記住的是:電要從機柜入口穩(wěn)定、高效地送到算力芯片附近。
這件事對 TI 很關(guān)鍵。AI 數(shù)據(jù)中心的注意力仍然在 GPU 和算力平臺上,但 GPU 的供電電流、板級熱設(shè)計、電源轉(zhuǎn)換效率和故障保護(hù)會影響整機密度和運行穩(wěn)定性。TI 要爭取的是這個工程問題:當(dāng)行業(yè)討論 AI 基礎(chǔ)設(shè)施時,不只討論算力,也討論電能不能穩(wěn)定送到算力芯片附近。
客戶最后會看工程落地。高壓輸入能不能保護(hù)住,中間電壓能不能高效轉(zhuǎn)換,板級電源能不能貼近 GPU 和加速器,遙測數(shù)據(jù)能不能及時暴露異常,保護(hù)動作能不能在故障擴大前切斷,這些都會影響 AI 集群能不能長期運行。
onsemi 對應(yīng)高功率轉(zhuǎn)換和功率器件
onsemi 這類公司主要對應(yīng)高功率轉(zhuǎn)換和功率器件。
AI 服務(wù)器和機柜的輸入功率增加以后,中間 DC/DC 轉(zhuǎn)換、高功率電源模塊和功率級器件會更吃力。這里要同時處理耐壓、電流、開關(guān)損耗、導(dǎo)通損耗、溫升和長期可靠性。器件損耗高,熱就壓不住;開關(guān)速度和驅(qū)動配合不好,轉(zhuǎn)換效率和體積都會受影響;可靠性不足,長時間滿負(fù)載運行就有風(fēng)險。
SiC、GaN 等功率器件在這個時候被更多討論,原因也在這里。AI 數(shù)據(jù)中心要完成電壓轉(zhuǎn)換,還要在更小空間里完成更高功率輸出,并把損耗、發(fā)熱和體積控制住。
onsemi 的機會更容易落在這些具體問題上:高功率轉(zhuǎn)換環(huán)節(jié)用什么功率器件,開關(guān)損耗怎么降,封裝和散熱怎么處理,高溫和長時間運行下的可靠性怎么保證。這些問題會直接影響單柜能不能裝得更密,電源效率能不能提高,散熱能不能壓住。
ADI 和 Allegro 對應(yīng)板級監(jiān)測、保護(hù)和驅(qū)動
電從機柜一路走到板級以后,問題會變得更細(xì),也更接近整機穩(wěn)定性。
板級電源要給 GPU、CPU、內(nèi)存和加速器供電。負(fù)載變化快,電流大,板上空間有限。這里需要更準(zhǔn)確的電流檢測、更快的保護(hù)響應(yīng)、更可靠的熱插拔、更完整的電壓、電流、溫度和功耗數(shù)據(jù),也需要穩(wěn)定的驅(qū)動和隔離。
ADI 更容易出現(xiàn)在熱插拔、遙測、多相控制、電源監(jiān)測和保護(hù)這些環(huán)節(jié)。AI 服務(wù)器運行時,整機需要知道每個電源模塊的電壓、電流、溫度和故障狀態(tài)。數(shù)據(jù)看不準(zhǔn),保護(hù)動作就可能不及時;狀態(tài)看不全,運維和調(diào)試也會變難。
Allegro 主要對應(yīng)高電流檢測和隔離柵極驅(qū)動。電流檢測會影響過流保護(hù)、功率控制和效率判斷。隔離驅(qū)動要在高壓、高噪聲環(huán)境里穩(wěn)定驅(qū)動功率器件,同時保證高壓側(cè)和低壓控制側(cè)之間的安全隔離。
這些環(huán)節(jié)看起來沒有 GPU 顯眼,但在高功率 AI 服務(wù)器里,電流檢測不準(zhǔn)、驅(qū)動不穩(wěn)、保護(hù)動作慢,都會影響整機效率、故障處理和長期可靠性。
800V 改變的是電源設(shè)計里的壓力分布
800V 不會讓電源設(shè)計變簡單,它只是改變了壓力分布:機柜側(cè)電流下降,高壓保護(hù)、隔離、中間轉(zhuǎn)換和板級供電的要求同時提高。
電一路降到板級以后,低壓大電流的問題仍然存在。GPU 核心附近仍然需要多相降壓,仍然要處理大電流、快速負(fù)載變化、發(fā)熱、紋波、布局和保護(hù)響應(yīng)。
這也解釋了為什么 TI、onsemi、ADI、Allegro 這類公司會重新進(jìn)入 AI 數(shù)據(jù)中心討論。算力芯片決定 AI 服務(wù)器的計算上限,但電能不能穩(wěn)定送到 GPU 和加速器附近,會影響單柜部署密度、電源效率、散熱設(shè)計和整機可靠性。
客戶最后會看供電路徑能不能長期穩(wěn)定運行
GPU 還會繼續(xù)是 AI 數(shù)據(jù)中心里最受關(guān)注的器件。
但 AI 服務(wù)器越裝越密,單柜輸入功率增加以后,電源設(shè)計會越來越影響整機方案。高壓輸入怎么接入機柜,中間母線怎么降壓,板級電源怎么靠近 GPU,熱插拔和保護(hù)怎么保證維護(hù)安全,遙測數(shù)據(jù)怎么幫助發(fā)現(xiàn)異常,這些都會進(jìn)入客戶評估。
后面拉開差距的,會是整套供電路徑能不能長期穩(wěn)定運行,單個器件參數(shù)已經(jīng)不夠。
單柜能不能裝進(jìn)更多計算板卡,電源轉(zhuǎn)換效率能不能提高,發(fā)熱能不能壓住,故障能不能快速定位和隔離,電源模塊能不能安全維護(hù),都會影響 AI 集群的建設(shè)成本和運維成本。
800V 進(jìn)入討論,說明 AI 數(shù)據(jù)中心的競爭已經(jīng)不只停在算力芯片上。電源模塊、功率器件、隔離驅(qū)動、電流檢測、熱插拔、遙測、保護(hù)和散熱這些環(huán)節(jié),會決定 AI 基礎(chǔ)設(shè)施能不能承載更多 GPU、更高單柜耗電和更長時間運行。
FAQ
問:800V 為什么會進(jìn)入 AI 數(shù)據(jù)中心供電討論?
答:因為 AI 服務(wù)器單機功耗和單柜輸入功率增加,低電壓、大電流供電會帶來更高線損、更大熱壓力和更復(fù)雜的布線。提高機柜側(cè)供電電壓,可以在同等功率下降低電流,減輕線纜、銅排、連接器、電源模塊和散熱系統(tǒng)的壓力。
問:800V 會影響哪些供電環(huán)節(jié)?
答:它會影響機柜輸入、熱插拔保護(hù)、中間母線、DC/DC 轉(zhuǎn)換、板級供電、PoL 供電、電流檢測、遙測、隔離驅(qū)動、故障保護(hù)和散熱。電壓提高后,低壓側(cè)一部分電流壓力會下降,高壓側(cè)的隔離、保護(hù)和故障處理要求會提高。
問:TI 在這篇文章里對應(yīng)哪些供電環(huán)節(jié)?
答:TI 對應(yīng)的是從 800V 輸入到 GPU 核心供電的電源設(shè)計,包括高壓輸入保護(hù)、隔離母線轉(zhuǎn)換、板級多相降壓、遙測和保護(hù)。它希望市場在討論 AI 數(shù)據(jù)中心時,不只想到 GPU 和算力,也能想到電怎么從機柜入口穩(wěn)定、高效地送到 GPU 和處理器附近。
問:onsemi、ADI 和 Allegro 分別對應(yīng)哪些環(huán)節(jié)?
答:onsemi 對應(yīng)高功率轉(zhuǎn)換和 SiC、GaN 等功率器件;ADI 對應(yīng)熱插拔、遙測、多相控制、電源監(jiān)測和保護(hù);Allegro 對應(yīng)高電流檢測和隔離柵極驅(qū)動。
問:800V 會讓電源設(shè)計更簡單嗎?
答:不會。800V 可以降低機柜側(cè)電流,減輕線纜、連接器和部分電源模塊的壓力,但高壓安全、隔離、保護(hù)、熱插拔、故障檢測和板級響應(yīng)要求都會提高。工程問題沒有消失,只是壓力分布變了。
關(guān)鍵術(shù)語解釋
800V DC:這里指 AI 數(shù)據(jù)中心供電中更高電壓等級的直流配電思路,用于在高功率場景下降低機柜側(cè)電流,減少線損和布線壓力。
中間母線:位于高壓輸入和板級低壓供電之間的電壓層級,負(fù)責(zé)把高壓轉(zhuǎn)換成服務(wù)器內(nèi)部更容易使用的中間電壓,并向后級電源模塊分配功率。
板級供電 / PDN:靠近服務(wù)器主板、加速卡和處理器的供電網(wǎng)絡(luò),需要處理大電流、快速負(fù)載變化、紋波、效率、發(fā)熱和可靠性。
PoL 供電:Point of Load,負(fù)載點供電,指在靠近 GPU、CPU、內(nèi)存或加速器的位置完成最后一級降壓。
熱插拔:整機在不斷電或不停機條件下接入或移除電源模塊時,需要用電源管理和保護(hù)電路控制浪涌電流、異常電壓和安全風(fēng)險。
遙測:對電壓、電流、溫度、功耗和故障狀態(tài)進(jìn)行實時監(jiān)測,幫助整機做功率管理、故障預(yù)警和運維判斷。
隔離柵極驅(qū)動:用于驅(qū)動功率器件,同時在高壓側(cè)和低壓控制側(cè)之間提供安全隔離,常見于高壓、高功率電源系統(tǒng)。
SiC / GaN:面向高壓、高效率和高功率密度場景的功率器件技術(shù)路線,可用于降低轉(zhuǎn)換損耗、提高開關(guān)頻率和減小電源體積。
本文首發(fā)于電子產(chǎn)品世界(EEPW)。后續(xù) EEPW 將繼續(xù)圍繞汽車電子底層能力、智駕芯片、智控平臺、800V 高壓系統(tǒng)、車載傳感和方案交付等方向持續(xù)更新。














評論