明天的數據中心將不再像昨天——原因如下

組織規劃、設計和運營數據中心的方式已經面臨壓力。人工智能將這種壓力轉化為一代難得的壓力測試,激勵人們從頭到尾重新思考數據中心的功能、運作方式以及在哪里。
惠普企業UKIMEA咨詢與專業服務總監戴夫·斯特朗說:“我們現在看到的情況是地震級的。”“這是我們在數據中心整體上見過的最大變化。”
多年來,組織一直把數據中心的管理視為一項需要付出汗水的資產。雖然高效、安全、高性能的數據中心資產對業務至關重要,但大多數數據中心運行的工作負載相對可預測。現在,引入動態且要求高的AI工作負載。AI驅動的商業創新檢驗數據中心基礎設施是否具備卓越表現。
惠普對這個問題的回答基于三個方面:人工智能準備度、連接性和能源。為支持這三大支柱,公司開發了能夠徹底改造數據中心以實現人工智能的解決方案。
一個創收資產
運行AI工作負載的能力決定了你是否按時發布新的數字產品并成功實現業務流程自動化,還是被數據淹沒,落后于更敏捷的競爭對手。因此,HPE聲稱我們應將一個面向未來的數據中心視為一種可投資的創收資產,而非一個需要降低成本的中心。
這種收入影響可能以多種方式體現:
更快的變價時間: 更高效的基礎設施、軟件和服務流程加速了組織的生產力曲線。
全棧優化: 軟件在最佳硬件上運行更高效,可以快速提升AI為業務帶來的服務。
新型高性能服務:AI新穎應用的創新潛力更大。
能源和熱能再利用:過去的廢棄物可以抵消成本。
斯特朗警告說:“如果客戶不考慮如何從將數據中心視為商品,轉向改變其盈利方式的做法,他們將陷入困境。”
AI工作負載的全棧設計
對于希望在自有數據中心運行人工智能的組織,HPE提供了AI工廠。這是一種端到端的方法,將數據中心視為生產系統。在動力、數據和計算中。代幣以洞察、決策和新的數字服務的形式出現。
人工智能工廠需要不同的工程學科。HPE的AI Factory產品組合是作為全棧構建的。將它作為一個連貫的堆棧,使IT領導者能夠優化整體成本和風險,而不是在每一層單獨應對。基礎設施、軟件和服務共同設計,用惠普的術語來說,是“從邊緣到百億次”驅動人工智能工廠。
強力的分解層疊成熟悉的層次:
基礎設施:電力、制冷以及新容量的建立能力。
計算與存儲:在傳統CPU與加速GPU平臺之間實現AI工作負載的最佳平衡。
軟件棧:提供數據質量、模型開發和平臺訪問。
運營工具:自動化和AIOp,確保系統運行,幾乎無需人工干預。
“惠普企業處于一個很好的狀態,因為我們確實擁有端到端的能力,”斯特朗說。“我們制造數據中心,擁有你與人工智能工作負載相關的計算和存儲,我們擁有用于生成用例和提升數據質量的軟件棧,以及為組織提供平臺可訪問性,幫助組織實現他們想要的成果。”
TELUS在加拿大采用HPE設計理念建設的基礎設施,是該國首個完全主權的人工智能工廠的典范,位于魁北克里穆斯基,旨在服務包括公共服務、醫療、關鍵基礎設施和金融服務等高度監管領域的客戶。人工智能工廠100%由加拿大控制,99%采用可再生能源供電,基礎設施由惠普提供。在大西洋彼岸,布里斯托爾超級計算中心的IsambardAI超級計算機基于HPE的ModPod架構構建。HPE還提供英國國家人工智能倡議 Carbon3.ai 的AI工廠基礎設施、軟件棧和合規準備架構。
位置、電力與模塊化數據中心的理由
傳統的數據中心規劃始于房地產:尋找場地,獲得規劃許可,建造大型設施,并逐步填充。AI工作負載破壞了這種商業模式。
斯特朗指出,傳統IT機架的功率可能為6到8千瓦,而最新路線圖上的AI機架可接近600千瓦。這是一個數量級的偏移,使位置問題不僅僅是空間問題,而是能源和網格的問題。僅憑性能配置,數據中心經理就可能推翻現有的開發計劃。
HPE對此問題有多種解決方案。快速部署靠近能源源或社交便利場所的AI原生數據中心的一種方式是部署AI ModPod:這些集裝箱體積小,密度高,快速部署,靠近合適的電源,包括可再生能源。Strong指出,在英國及類似地區,獲得許可和建設傳統數據中心的過程可能只需18到24個月。預制設計可以將這一時間縮短到六個月或更短,這正是保持AI創新領先所需的時間尺度。
模塊化概念意味著能源、地理位置和主權可以共同處理。企業可以在有清潔電力的地方部署高密度AI集群,這樣可以讓延遲敏感的應用更靠近終端用戶或數據源,并讓企業通過更多模塊擴展,而不是把所有資源都押在一個大型站點上。
擁有現有數據大廳空間的企業必須考慮盡可能提高效率。其中一種方法是實現直接液冷,HPE現在可以在整個機架實現。
能源優先設計與熱能再利用
人工智能工廠天生就注定是耗電欲高。能源戰略——始終重要——成為一級建筑決策。斯特朗將這一決定分為兩個階段。
“如果我們談論的是巨大的電力,首先要考慮的是你將從哪里獲得這些電力,”他說。“第二個是你打算如何利用這些平臺產生的熱量——以及你如何再利用它們。”
HPE與丹福斯的合作正是針對第二個問題。兩家公司將惠普的模塊化數據中心與Danfoss熱能再利用技術結合起來,降低數據中心能耗,并將多余熱量導入本地供暖系統。HPE的模塊化設施采用直接液冷,整體能耗降低20%,而Danfoss的熱能再利用模塊則可收集這些“廢熱”能量,并將其輸送到區域供熱網絡或工業應用中。
這意味著,AI工廠可以通過提高冷卻效率來降低其電力使用效率(PUE)。HPE的模塊化數據中心PUE為1.1。通過向附近建筑或加熱應用輸送熱量來提升能源再利用率(ERF),并支持本地可持續發展目標。它甚至可能通過熱量取用協議產生收入。
網絡作為循環系統
AI工作負載涉及在邊緣位置、訓練集群和下游應用之間傳輸大量數據,且在近實時應用中具有嚴格的延遲限制。即使是最優雅的人工智能工廠設計,如果網絡成為瓶頸,也會失敗。安全、具備AI支持的數據中心網絡簡化并自動化了織體。他們使用AIOps和基于意圖的網絡技術來保持大規模性能。這意味著數據中心內的高速互聯,支持GPU豐富的集群,以及邊緣站點與中央資源之間的智能路由。此外,假設這些敏感AI工作負載的安全控制將分布在多個地點。
斯特朗認為,關鍵不僅是投入帶寬解決問題,而是通過平衡哪些決策在邊緣做出,哪些決策需要轉移到中央AI集群來實現性能。舉個例子:當與運營衛星的客戶合作時,先將所有數據推送到中繼站再傳到數據中心是不可行的;HPE創建了一種架構,處理靠近中繼站的數據,只移動所需的數據。
利用人工智能自動化運營
你不能用昨天的運行手冊來運營人工智能工廠。變革的復雜性和速度使得傳統的手動作變得不可持續。斯特朗直言不諱地表達了目標:日常運營應“從人類工程角度盡可能輕描淡寫”。
這需要可觀測性和AIOps平臺,這些平臺能夠持續監控應用、網絡和硬件,然后自動做出決策。它們能檢測應用是否正常,提前預測硬件故障,并在出現故障可能時將工作負載轉移到其他節點。
“根本上,關鍵在于主動維護,”斯特朗說。“我們希望這些工程師去做高度智能的事情,創造人工智能的應用場景,讓組織能夠在未來最佳狀態下消費人工智能,而不是把時間花在基礎設施上。”








評論