久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 電源與新能源 > 設(shè)計應(yīng)用 > 打造高效可擴展AI工廠的800VDC 生態(tài)系統(tǒng)

打造高效可擴展AI工廠的800VDC 生態(tài)系統(tǒng)

作者: 時間:2026-02-05 來源:EEPW 收藏

幾十年來,傳統(tǒng)數(shù)據(jù)中心一直是擺放服務(wù)器的龐大空間,功耗與散熱問題往往被置于次要位置。然而,生成式人工智能的興起已將這些設(shè)施轉(zhuǎn)變?yōu)閷iT的AI 工廠,徹底改變了原有的建設(shè)模式。過去,電力基礎(chǔ)設(shè)施是決定新部署規(guī)模、選址及可行性的關(guān)鍵因素。

我們正處在一個關(guān)鍵的轉(zhuǎn)折點,行業(yè)已無法僅靠漸進式改進持續(xù)發(fā)展,必須轉(zhuǎn)向根本性的架構(gòu)變革。這一新的藍(lán)圖需要具備更高的效率、更強的可擴展性,并能有效應(yīng)對現(xiàn)代人工智能帶來的電力需求挑戰(zhàn)。

該解決方案采用雙管齊下的策略:一方面部署800伏直流(VDC)配電系統(tǒng),另一方面整合多時間尺度的能源存儲。這不僅是為了保障電力供應(yīng),更是為未來計算的發(fā)展奠定堅實基礎(chǔ)。

1   AI工作負(fù)載的功率需求持續(xù)攀升

多年來,處理器技術(shù)的持續(xù)進步使得功耗大約上升了20%。然而,如今這一可預(yù)測的趨勢已被打破。推動這一變化的核心是對性能的不斷追求,借助NVIDIA NVLink 等高帶寬互連技術(shù),成千上萬的GPU 能夠協(xié)同工作,如同一個統(tǒng)一的整體處理器。

為了實現(xiàn)所需的低延遲和高帶寬,這些連接依賴于銅纜。然而,銅纜的有效傳輸距離有限,由此形成了所謂的性能密度瓶頸。要構(gòu)建更強大的AI 系統(tǒng),就需要將更多GPU 集成到更小的物理空間中。這種架構(gòu)需求使得性能與功率密度緊密關(guān)聯(lián)。

從NVIDIA Hopper 架構(gòu)到NVIDIA Blackwell 架構(gòu)的演進便是一個典型例證。盡管單個GPU 的熱設(shè)計功耗(TDP)上升了75%,但當(dāng)NVLink 域擴展至包含72個GPU 的系統(tǒng)時,機架的功率密度提升了3.4 倍。由此帶來的性能增益高達50 倍,令人矚目。然而,這也使得單機架的功耗從數(shù)十千瓦攀升至超過100 千瓦,未來打造高效可擴展AI 工廠的 生態(tài)系統(tǒng)甚至將達到1 兆瓦。在傳統(tǒng)的低壓環(huán)境(例如54 VDC)下實現(xiàn)如此高的功率輸送,在物理實現(xiàn)和經(jīng)濟成本上均面臨巨大挑戰(zhàn)。所需電流極為龐大,不僅會引發(fā)顯著的電阻損耗,還要求使用數(shù)量難以承受的銅纜,顯然不可持續(xù)。

2   應(yīng)對工作負(fù)載波動性的挑戰(zhàn)

除了絕對密度之外,AI工作負(fù)載還帶來另一項同樣嚴(yán)峻的挑戰(zhàn):波動性。與傳統(tǒng)數(shù)據(jù)中心運行數(shù)千個互不相關(guān)的任務(wù)不同,AI 工廠以單一同步系統(tǒng)的模式運作。在訓(xùn)練大語言模型(LLM)時,數(shù)千個GPU 會同時以近乎一致的節(jié)奏執(zhí)行高強度計算,隨后進入數(shù)據(jù)交換階段。

這將在整個設(shè)施范圍內(nèi)形成具有大幅且快速負(fù)載波動特征的功率曲線。NVIDIA、微軟和OpenAI 關(guān)于AI訓(xùn)練數(shù)據(jù)中心功率穩(wěn)定性的聯(lián)合研究記錄了此類波動帶來的挑戰(zhàn)。該研究揭示了同步GPU 工作負(fù)載可能引發(fā)大規(guī)模電網(wǎng)波動的現(xiàn)象。

機架的功耗可能在幾毫秒內(nèi)從約30% 的“空閑”狀態(tài)迅速上升至100%,隨后又快速回落。這種瞬時的功率波動迫使工程師必須按照峰值電流而非平均值來設(shè)計和選型關(guān)鍵組件,導(dǎo)致成本上升和設(shè)備占用空間增加。當(dāng)這種波動在整座數(shù)據(jù)大廳范圍內(nèi)疊加時,可能表現(xiàn)為數(shù)百兆瓦功率在數(shù)秒內(nèi)的劇烈起伏,對公共電網(wǎng)的穩(wěn)定性構(gòu)成顯著挑戰(zhàn),從而使電網(wǎng)互聯(lián)成為AI 規(guī)模擴展中的關(guān)鍵瓶頸之一。

3 新型供電架構(gòu)

解決這一多方面危機需要采取相應(yīng)的綜合性方案。所提出的架構(gòu)藍(lán)圖采用雙管齊下的策略,通過轉(zhuǎn)向 配電系統(tǒng),并深度整合能源存儲,以應(yīng)對規(guī)模擴大和波動性帶來的挑戰(zhàn)。

4   的優(yōu)勢

提高電壓是應(yīng)對高功率配電挑戰(zhàn)的有效途徑。從傳統(tǒng)的415 V 或480 V 交流三相系統(tǒng)轉(zhuǎn)向800 V 直流架構(gòu),具有諸多優(yōu)勢,包括:

5   原生端到端集成架構(gòu)

可在設(shè)施層面直接生成 電力,并將其直接輸送至800 VDC 計算機柜,從而消除冗余的電力轉(zhuǎn)換環(huán)節(jié),顯著提升整體能效。該架構(gòu)支持高密度GPU集群部署,充分發(fā)揮每顆GPU 的性能潛力,使每個可容納更多GPU,為合作伙伴帶來更高的計算吞吐能力和收益空間。同時,該設(shè)計具備良好的可擴展性,未來可支持單機柜功率超過1 MW,并實現(xiàn)AI 工廠電力生態(tài)系統(tǒng)的無縫互操作與協(xié)同運行。

6   在采用800 VDC 時,相同線規(guī)可傳輸?shù)墓β时?15 VAC 高出15.7%,從而減少銅纜的使用并降低成本。

相比交流電所需的四線配置,直流系統(tǒng)采用更簡潔的三線結(jié)構(gòu)(POS、RTN、PE),減少了導(dǎo)體數(shù)量和連接器尺寸。這不僅降低了材料與安裝成本,還簡化了線纜管理,對于機架電源向兆瓦級擴展的應(yīng)用場景尤為重要。

7   原生直流(DC)架構(gòu)

通過消除傳統(tǒng)系統(tǒng)中多個低效的交流(AC)到直流(DC)轉(zhuǎn)換環(huán)節(jié),顯著提升了效率。在傳統(tǒng)系統(tǒng)中,端到端效率往往不足90%,而這種簡化的功率傳輸路徑不僅提高了整體能效,還有效減少了余熱產(chǎn)生。

8   直流配電系統(tǒng)結(jié)構(gòu)更為簡潔,減少了變壓器和相位平衡裝置等組件的使用

結(jié)構(gòu)的簡化降低了潛在故障點的數(shù)量,從而提升了系統(tǒng)的整體可靠性。

這一領(lǐng)域并非陌生。電動汽車和公用事業(yè)規(guī)模的太陽能行業(yè)早已采用800 VDC 甚至更高的電壓,以提升效率與功率密度,由此形成了一個成熟的組件體系和實踐積累,可為數(shù)據(jù)中心所借鑒。

9   利用多時間尺度的能源存儲平抑波動

盡管800 VDC 解決了大規(guī)模能效問題,卻無法應(yīng)對工作負(fù)載的波動。為此,必須將能源存儲視為電力架構(gòu)中的關(guān)鍵主動組件,而不僅僅是備用系統(tǒng)。其目標(biāo)是構(gòu)建一個緩沖區(qū)(相當(dāng)于低通濾波器),將GPU 的瞬變功率需求與電網(wǎng)的穩(wěn)定性要求分離開來。

由于功率波動可能在多個時間尺度上發(fā)生,因此需要采用多層次的應(yīng)對策略。

●   短時存儲(毫秒到秒級):在靠近計算機機架的位置部署高功率電容器和超級電容器。這類器件響應(yīng)速度快,可有效吸收高頻功率尖峰,并彌補大語言模型(LLM)工作負(fù)載在空閑階段產(chǎn)生的短暫功率低谷。

●   長時存儲(秒到分鐘級):在公用設(shè)施互聯(lián)側(cè)配置大型設(shè)施級電池儲能系統(tǒng)(BESS)。該系統(tǒng)適用于調(diào)節(jié)規(guī)模較大、變化較慢的電力需求波動,例如整體工作負(fù)載的升降,并可在切換至備用發(fā)電機時提供持續(xù)供電支持。

800 VDC 架構(gòu)是推動該策略落地的關(guān)鍵因素。目前,數(shù)據(jù)中心的能源存儲通常基于交流電源供電連接;而采用800 VDC 后,能夠更靈活地將儲能設(shè)備部署在適宜的位置。

10   新一代中的800 VDC配電系統(tǒng)

新一代AI 工廠將從當(dāng)前的交流配電模式逐步轉(zhuǎn)向800 VDC 直流配電模式。現(xiàn)有的架構(gòu)包含多個功率轉(zhuǎn)換環(huán)節(jié):首先,來自電網(wǎng)的中壓電能(例如35kVAC)被降壓至低壓水平(例如415 VAC);隨后,該電能經(jīng)由交流不間斷電源(UPS)調(diào)節(jié)后,通過配電單元(PDU)和母線槽系統(tǒng)傳輸至各個計算機柜。在每個機柜內(nèi)部,多個電源單元(PSU)將415 VAC 轉(zhuǎn)換為54 VDC,并將直流電輸送至計算托架,再通過板級DC-DC 轉(zhuǎn)換器完成最終的電壓調(diào)節(jié)。

1770299164135566.png

圖1 從415 VAC(上)到800 VDC配電(下)的轉(zhuǎn)換示意圖

未來愿景是在設(shè)施層面集中完成所有交流到直流的轉(zhuǎn)換,構(gòu)建一個原生直流數(shù)據(jù)中心。在該架構(gòu)中,中壓交流電通過大型高容量電源轉(zhuǎn)換系統(tǒng)直接轉(zhuǎn)變?yōu)?00 VDC,隨后將該800 VDC 配電至數(shù)據(jù)中心內(nèi)的各個機架。這一設(shè)計通過去除交流開關(guān)設(shè)備、轉(zhuǎn)換器和PDU層級,大幅簡化了電力系統(tǒng)結(jié)構(gòu)。不僅提升了可用于創(chuàng)收計算設(shè)備的空間利用率,還實現(xiàn)了系統(tǒng)整體的簡化,并提供了一條清潔高效的高壓直流主干,便于在設(shè)施層面直接集成儲能系統(tǒng)。

向完全實現(xiàn)的800 VDC 架構(gòu)的過渡將分階段推進,為行業(yè)提供充足的適應(yīng)時間,同時促進組件生態(tài)系統(tǒng)的逐步成熟。

架構(gòu)將隨著即將推出的NVIDIA Kyber 機架架構(gòu)的演進而持續(xù)發(fā)展,該架構(gòu)采用新型800 VDC 設(shè)計(參見圖2)。電力以高壓形式直接輸送至各個計算節(jié)點,在后續(xù)階段通過高比率64∶1 LLC 轉(zhuǎn)換器高效地將電壓降至靠近GPU 所需的12 VDC。這種單級轉(zhuǎn)換方式相比傳統(tǒng)的多級轉(zhuǎn)換方法更加高效,且占用面積減少26%,從而釋放出處理器周邊寶貴的布局空間。

1770299212996311.png

圖2 NVIDIA Kyber機架供電示意圖

11   未來之路:呼吁各方攜手合作

這一轉(zhuǎn)變無法孤立完成,亟需全行業(yè)迅速而集中的協(xié)同合作。像開放計算項目(OCP)這樣的組織為制定開放標(biāo)準(zhǔn)提供了重要平臺,有助于確保互操作性、加快創(chuàng)新步伐,并降低整個生態(tài)系統(tǒng)的成本。業(yè)界必須在800 VDC環(huán)境下統(tǒng)一通用的電壓范圍、連接器接口以及安全規(guī)范。

為加快技術(shù)應(yīng)用,NVIDIA 正與數(shù)據(jù)中心電氣生態(tài)系統(tǒng)中的多家主要行業(yè)合作伙伴展開合作。

●   芯片供應(yīng)商:AOS、ADI、Efficient Power Conversion、Infineon Technologies、Innoscience、MPS、Navitas、ONsemi、Power Integrations、Renesas、Richtek、ROHM、STMicroelectronics、Texas Instruments。

●   動力系統(tǒng)組件供應(yīng)商:Bizlink、Delta、Flex、LeadWealth、LITEON、Megmeet。

●   數(shù)據(jù)中心電源系統(tǒng)供應(yīng)商:ABB、Eaton、GE Vernova、Heron Power、Hitachi Energy、Mitsubishi Electric、Schneider Electric、Siemens、Vertiv。

(本文來源于《EEPW》


關(guān)鍵詞: 202601 AI工廠 800VDC NVIDIA MGX 800 VDC

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉