數據中心提高電壓以提高效率
當今 HPC 和 AI 數據中心中使用的電源架構即將發生重大變化,以提高能效。雖然芯片級的電壓將保持不變,但通向這些芯片的電壓將在更遠的距離內保持較高。
這一變化對DC-DC轉換器具有廣泛的影響。現有架構將交流電帶到每個機架上,將其轉換為直流電,然后分兩級將電壓降至必要的芯片電壓。新方法以為電動汽車 (EV) 市場制定的協議為藍本,將交流轉換轉移到建筑物的邊緣或一排機架的末端,并為該排中的所有機架提供比目前采用的更高的直流電壓。其結果是電流更低、損耗更低、銅更少。
這一變化發生之際,數據中心正在努力應對不斷增長的能源需求,而且看不到盡頭。“人工智能、GPU和數據中心驅動的力量正在極大地改變人們處理事物的方式,”Ansys電子和半導體業務部總監Rich Goldman說,Ansys(現為新思科技的一部分)。“你已經看到人們將數據中心放置在靠近能源的地步。”
今天的數據中心電源設置將交流電分配到所有機架。每個機架底部的托盤包含一個電源單元 (PSU),可將交流電轉換為標稱 48 VDC。如有必要,一些系統在 54 VDC 下實施,以將電池充電至 48 V。
“電源被轉換為直流電,經過多次轉換以降低到高性能芯片的可用電壓,”Amkor Technology 計算產品營銷總監 John Dinh 說。
該 48 V 為所有上層服務器以及架頂式 (ToR) 交換機供電。在每塊板上,電壓分兩級下降,驅動 MOS (DrMOS) 芯片將最終電壓帶到被供電的芯片。“第一級有一個電源模塊,它們從 48 V 轉換為 12 V,有時轉換為 6 V,”Dinh 解釋道。“第二階段,他們將有一個額外的控制器和 DrMOS 芯片,將進一步轉換為 1 V、3 V、0.8 V 或芯片所需的任何電壓。”
由于不同的芯片可能有不同的電源電壓要求,因此第二級需要多次復制。除了必要的電壓外,DrMOS 芯片還必須提供足夠的電流。每個電源線都有一個電流限制,因此可能需要并聯多個電源線才能達到指定的電流。

圖 1:當前高階數據中心電源架構。交流電為每個機架底部的電源單元 (PSU) 供電,其中交流電轉換為 48 VDC(標稱值)。每個服務器或主板上都會發生進一步的電壓降。資料來源:Bryon Moyer/Semiconductor Engineering
例如,NVIDIA 在其 Grace/Hopper 和 Grace/Blackwell 板上有許多此類芯片。“第二階段使用了大量的 DrMOS 芯片,”Dinh 說。“GH200 使用 19 個 DrMOS 用于 Grace,56 個 DrMOS 用于 Hopper,而 GB200 使用 19 個 DrMOS 用于 Grace,130 個 DrMOS 用于 Blackwell。”
這說明了現有設置的挑戰。“他們必須改變架構,”他說。“它不再只是在 GPU 周圍填充更多的 DrMOS。這是不可持續的。
這在精神上類似于最近幾代 DRAM 的變化,其中模塊現在托管自己的 PMIC,這絕非偶然。“這個概念就像他們在數據中心所做的那樣,”Rambus 內存接口芯片產品營銷副總裁 John Eble 說。讓我們向使用點(在本例中為存儲器)提供更高的電壓和更低的電流,然后讓我們有一個電源管理 IC,它可以吸收這些電壓,然后產生所有必要的電壓。
1 不是第一個電壓提升
數據中心的電源架構只有一個目的——獲取交付的交流電源,并將盡可能多的電力輸送到芯片和其他組件上。這談到了電源效率,但這種效率是相對的。早期,數據中心機架使用 12 VDC,但隨著機架功率增長到 15 kW 以上,該行業轉向 48 V。
當時的原因與下一組擬議的更改相同。由于功率計算為 VI,因此對于給定的功率量,增加電壓會導致電流成比例地減少。電流量對數據中心有幾個影響。
首先,電流決定了連接電源所需的電線尺寸。今天的設置預計每個機架需要大約 200 公斤的銅來支持人工智能和其他計算密集型工作負載所需的巨大功率。通過降低電流,數據中心可以使用更少的銅布線,這是一項不小的投資。
第二個影響與給定電線中交流電線與直流電線的載流能力差異有關。集膚效應意味著對于交流電,大部分電流在電線表面附近移動,內部流動的電流較少。
“在系統層面,使用相同數量的交流銅,您可以使用直流電流提供更高的功率,”Dinh 說。僅此一項就可以通過現有電線提供更多電力。
但減少交流電量也可能意味著給定的電流可以在更小的電線中傳播——整根電線,而不僅僅是外邊緣。這也會導致更少的銅。
最后,導通損耗與電流成正比。這意味著減少電流可以減少損耗,從而提高效率。在盡可能多的布線中保持較高的電壓意味著將電壓降至盡可能靠近芯片的位置。這樣可以節省電力,并保持較高的電源完整性。
2 新的數據中心電源配置
現在,擬議的電源架構將 PSU 移出到數據中心的外圍,或者至少移動到一排機架末端的自己的機架(有時稱為 sidecar 機架)中。
“下一代機架級計算引入了集中式電源架構,”Dinh 解釋道。“Power 正在擁有自己的機架。它不再只是機架底部的托盤。在這種架構中,數千伏的交流電在數據中心外圍轉換為直流電。輸出的電壓為 800 VDC,將輸送到大廳或一排機架。
這移除了現在為每個機架供電的空調。相反,機架接收到高直流電壓,然后在負載附近的板上分多個階段將其降至芯片所需的電壓。

圖2:新的數據中心電源架構。交流電轉換為 800 VDC,要么在建筑物邊緣附近,要么在機架末端。然后,高壓會下降到它供電的芯片附近,從而減少沿途的損耗。資料來源:Bryon Moyer/Semiconductor Engineering
這種設置稱為高壓直流電 (HVDC),并利用了電動汽車充電器所做的一些工作。“由于電動汽車充電技術,這種設置更便宜并且可以部署,”Dinh 指出。“數據中心向高壓直流輸電的過渡恰好與電動汽車充電基礎設施的增長相交。”
800 V 并不是神圣不可侵犯的,有些人認為 400 V 是一個更容易實現的數字。但 NVIDIA 已經公開表示,其 Kyber 機架架構將于 2027 年上市,將采用 800 V 設置和邊車機架來容納 PSU 和冷卻基礎設施。
當然,這將導致每個建筑物或每行一次交流到直流轉換,而不是每個機架一次。在現有設置中,如果一個 PSU 出現故障,它只會關閉一個機架。如果新的 PSU 出現故障,它會關閉更多。“更少的組件可能會造成單點故障。為了解決這個問題,他們必須提供冗余,“Dinh 補充道。
3 功率 FET 和電源完整性
今天的安排意味著從 PSU 降低電壓的半導體必須能夠支持超過 50 V 的電壓。這與即將推出的 800 V 電壓相去甚遠,后者將需要高壓半導體。這應該會增加對 SiC 晶體管的需求,SiC 晶體管可以比硅和 GaN 更好地處理高電壓。實際上,現在針對電動汽車的一些設計應該具有適應性,從而簡化過渡。
“我們看到對功率器件的要求激增,”Ansys產品營銷總監Marc Swinnen說。“功率 FET 無處不在。需要切換的功率如此之大,以至于需要一個功率 FET。
對于此類芯片,對電源完整性驗證的需求變得更加強烈,因為設計參數的微小變化可能會產生很大的不同。
“有一些專門設計的特定工具可以非常詳細地分析功率晶體管,”Swinnen 說。“他們使用 2D 網格劃分,因為它們承載的功率太大,以至于電阻 RDSon,是最重要的參數。The RDSon必須非常準確地計算,并且您希望準確確定電壓降的位置,這樣就沒有熱點,過多的電壓下降在拐角或其他地方并導致局部發熱。這不是僅使用 RC 的傳統電源完整性分析。
溫度在這里起著重要作用,因為它可以激發正反饋循環。“功率通常是熱能的代表,”Swinnen 繼續說道。“當人們說,'我擔心電力'時,他們真正擔心的是它會變得太熱。還有反饋,因為芯片產生的功率取決于其溫度。因此,較熱的芯片會消耗更多功率。當然,更大的功率意味著更熱的芯片。這是先有雞還是先有蛋的事情。
并非每個數據中心都出現考慮到目前正在運行的數據中心的數量,將它們全部轉換為這種新架構是令人望而卻步的。這既不切實際又沒有必要。很少有工作負載需要這種架構提供的那種能力。相反,由于推斷了未來 AI 工作負載預計需要的那種能力,它已成為一個問題。人工智能和高性能計算 (HPC) 以外的應用程序可以在當前基礎設施上繼續使用。
與此同時,供電基礎設施(電氣和機械)的制造商正在準備支持這種架構。NVIDIA 的承諾消除了一些風險,預計將在幾年內安裝。
(本文登于《EEPW》202511期)











評論