關于液冷技術的11個誤區
隨著50至100兆瓦的AI工廠迅速涌現,以支持龐大的AI工作負載,液冷已成為全球幾乎所有數據中心最關鍵的需求之一。這些設施已經面臨控制熱量和占地面積的挑戰。現在他們必須想辦法引入下一代2800瓦及以上的AI超級芯片。
毫無疑問,處理這些新型AI芯片熱量的唯一方法是使用液冷技術。因此,預計該市場將從2024年的41億美元激增至2031年的194億美元。
無論你是芯片制造商、服務器制造商、OEM、超大規模開發者,還是數據中心或超大規模運營商,他們都知道自己需要這些資源。但他們并不總是了解不同液冷選項的具體情況,以及如何在保持成本低廉和可持續性的同時最大化效益。
本文旨在通過梳理液冷技術中最常見的11個誤區,來揭開所有這些問題的神秘面紗。
1. 浸入式和直達芯片液冷基本上是一樣的。
這是最大的誤區之一——而且是錯誤的。所有液冷技術均屬于浸入式或直達芯片式(見圖1)。直達芯片冷卻通常被稱為“冷板”冷卻,因為它使用放置在GPU或CPU頂部的冷板。而浸沒冷卻則是將服務器、芯片和其他設備浸入大型、沉重的液體罐中。

圖1. 液冷類別包括浸入式和直達芯片式,每種選項均提供單相或兩相。
2. 液冷在服務器內部使用水。
這句話是正確的,但前提是你使用單相直達芯片液冷。冷板中使用水或乙二醇混合物作為冷卻液。水保持液態,這種方法帶走熱量的能力取決于水流。需要冷卻的芯片功率越高,所需的水流越大。這需要投資更大的管道、水桶和連接器,以及耗電高的泵來持續輸送水流。
相比之下,浸入式和兩相直達芯片的水冷都不使用水來帶走CPU或GPU的熱量(它們連接到設施水環,將蒸汽冷凝回液態或冷卻液體)。單相浸沒使用油性流體,而兩相浸入使用介質流體。然而,在這兩種情況下,服務器和IT設備都浸泡在裝有這種液體的重型罐中。
兩相直達芯片技術使用放置在GPU頂部的緊湊型冷板。冷板內部的熱傳導流體將部件的熱量帶走,并被封存于冷板內。這種液體從不與芯片或其他服務器組件接觸,這與浸沒冷卻不同(見圖2)。

圖2. 左圖展示了浸沒式冷卻,服務器被放置在充滿液體的大罐中。右圖展示了兩相直達芯片冷板直接安裝在GPU之上。
3. 如果我想要AI性能,就必須拋棄可持續性。
只要選擇可持續的液冷解決方案,情況絕非如此。為了確保你在為可持續發展而建,你需要提出以下問題:
液冷技術是用水嗎?這是一個重要問題,因為采用單相直達芯片冷卻的100兆瓦數據中心每天可消耗約110萬加侖水。水資源在全球已經很稀缺,因此最好的方法是使用無水系統。
系統的電力使用效率(PUE)是多少?你需要確保PUE盡可能低,以實現高效運行。
我需要重建嗎,還是可以改造現有的數據中心以適應下一代AI GPU?
液冷技術需要哪些基礎設施投資?如果你需要大型重型罐體、泵和管道,這既需要資金,也占用寶貴空間。
長期維護費用是多少?液體需要更換嗎?
接觸液體的設備的使用壽命是多久的?
4. 介電液的使用對環境有害。
過去,全氟烷基和多氟烷基物質(PFAS)被認為是危險的,但某些PFAS選項現在被認為是安全的。然而,處理任何PFAS時,最佳做法是在封閉系統中使用,比如閉環。
如果你把這些液體存放在需要在維護時打開的儲罐里,總會有一些液體排出到大氣中。詢問液冷制造商,他們的液體是否需要更換,是否會暴露在外部空氣中,更重要的是,他們未來如何朝向“零PFAS”邁進。
5. GPU產生的熱量無法重復利用。
沒有理由不能利用AIGPU產生的熱量來加熱附近的房間或建筑物,尤其是在各種設施都非常接近的城市中。液冷解決方案如兩相直達芯片技術,不僅允許設施重復利用這些熱能,還能將其轉化為可重復利用的能源。
6. 冷板液冷會產生熱點。
雖然在冷板內的泳池沸騰一直是液冷的圣杯,但直到現在,還沒有人能找到防止沸騰氣泡產生熱點的方法。為解決這個問題,ZutaCore 開發了一種由鰭片和芯材組成的結構,采用多孔材料,類似位于鰭之間的海綿(見圖3)。

圖3. 通過在冷板內部使用吸芯和散片來消除熱點。
液體浸泡在海綿內,氣泡發生在燈芯、液體和散熱片之間。這種方法防止氣泡在表面形成,并保持均勻冷卻。
7. 我只用風冷就能應付。
傳統的空氣冷卻因驅動風扇和冷卻器所需的巨大能量以及為它們提供寶貴的空間而被廣泛認為已經過時。從風冷轉向液冷的優勢顯著——這些優勢隨著每增加一瓦計算功率而累積。
例如,一個僅使用空氣冷卻的數據中心,每瓦計算需要1瓦的冷卻。這意味著50%的電力只用于冷卻系統!相比之下,通過先進的液冷技術,每瓦的冷卻功率突然支持10瓦的計算。
8. 漏水不會造成損害。
超大規模企業不愿冒險,而AI服務器接近35萬美元,使用水資源的風險很大。泄漏還可能顯著延誤或停止生產。
就在去年,Tweaktown報道稱NVIDIA下一代GB200超級芯片即將發貨,但隨后發現AI服務器機柜內的液冷系統泄漏,導致延誤。除了漏水,使用水還可能導致腐蝕和侵蝕。因此,由于生物生長,需要持續的過濾和水處理。
9. 液冷受限于芯片未來加熱的溫度(芯片最大功率)。
部分液冷選項確實存在限制,隨著芯片工作功率提升,未來無法實現擴展。這就是為什么使用面向未來的方法,比如兩相冷板中使用的池水煮沸法非常重要。冷板內部有一池熱傳導流體;當芯片產生熱量時,液體開始沸騰,熱量轉化為蒸汽。
無論芯片功率如何,液體始終保持在恒定的沸點,確保熱性能可預測。因此,這種冷卻方法具有可擴展性,能夠隨著芯片越來越熱的出現而冷卻。就像在爐子上煮水一樣,即使火力調高三倍也沒關系,因為液體始終保持在沸點,避免了更換設備或更換基礎設施的需求。
10. 液冷需要大量維護。
維護成本取決于液冷方式。例如,如果你使用大型重型罐體,需要叉車才能將服務器從罐中抬出,那么這顯然會很昂貴。要確定持續的維護成本,重要的是要全面檢查系統,識別任何可能出現故障的地方,如果有,如何修復。這些包括管道、泵、罐體以及更換液體的需求。
11. 如果我沒有設施水循環,我就不能在設施中使用液冷。
雖然一些數據中心配備了設施水循環,但也可以部署沒有水冷的水冷系統。這可以通過依賴環境空氣而非設施水的液態回路將蒸汽冷凝回液態來實現。這種方法使得液冷基礎設施能夠獨立于建筑現有的供水系統部署。
結論:液冷與可持續性
希望我上面提到的常見誤區能幫助解釋一些關于液冷的神秘感。現在是一個令人興奮的時代,參與人工智能的發展速度遠超任何人的想象。雖然確實經歷了學習曲線,但行業現在可以清楚地看到一條繼續聚焦可持續發展的路徑,同時獲得AI未來所需的計算能力。



評論