英偉達介紹了支持AI GPU位置追蹤的新軟件——遠程數據中心GPU集群管理包括功耗和熱監測

在有報道稱英偉達開發了一款能夠追蹤其GPU物理位置的數據車隊管理軟件后,英偉達周四詳細介紹了其GPU車隊監控軟件。該軟件確實使數據中心運營商能夠監控AIGPU群的各個方面。其中一項功能是能夠檢測這些處理器的物理位置,可能對芯片走私起到威懾作用。然而,有個問題:該軟件是選擇加入的,而非強制,這可能限制其作為打擊走私者(無論是國家還是其他國家)工具的有效性。
該軟件收集大量遙測數據,然后匯總到托管在英偉達NGC平臺上的中央儀表盤中。該界面允許客戶可視化整個車隊的GPU狀態,無論是全球范圍還是代表特定物理或云端位置的計算區,這意味著軟件能夠檢測Nvidia硬件的物理位置。運營商可以查看全艦隊的匯總,深入分析單個集群,并生成包含庫存數據和系統整體健康信息的結構化報告。
英偉達強調,該軟件完全是觀察性的:它能洞察GPU行為,但不能作為后門或殺機開關。因此,即使英偉達通過NGC平臺發現部分GPU被走私到中國,也無法關閉這些GPU。不過,公司很可能利用這些數據來推斷GPU是如何到達該位置的。英偉達表示,該軟件是一個客戶安裝的開源客戶端代理,透明且可審計。

英偉達的新車隊管理軟件為數據中心運營商提供了詳細且實時的GPU基礎設施在負載下的表現視圖。它持續收集功率行為的遙測數據——包括短暫的峰值——使操作員能夠控制在功率限制內。除了電力數據外,系統還監控車隊間的利用率、內存帶寬使用情況和互聯健康狀況,幫助運營商最大化每瓦的利用率和性能。這些指標有助于揭示負載不平衡、帶寬飽和和鏈路層面問題,這些問題可能悄然降低大型AI集群的性能。
軟件的另一個重點是熱量和氣流條件,以避免熱節流和元件過早老化。通過及早發現熱點和氣流不足,操作員可以避免高密度計算環境通常伴隨的性能下降,并在許多情況下防止AI加速器的過早老化。
系統還會驗證節點間是否共享一致的軟件棧和作參數,這對于可重復的數據集和可預測的訓練行為至關重要。任何配置差異,如驅動程序或設置不匹配,都會在平臺上顯現出來。
值得注意的是,英偉達新的車隊管理服務并非公司唯一用于遠程診斷和控制GPU行為的工具,盡管它是最先進的。例如,DCGM是一個本地診斷和監控工具包,提供原始GPU健康數據,但運營商需要自行構建儀表盤和聚合流水線,這大大降低了其可用性,但使運營商能夠自行構建所需工具。還有Base Command,這是一個為人工智能開發、作業調度、數據集管理和協作設計的工作流程和編排環境,而非深入的硬件監控。
與此同時,這三款工具對數據中心運營者來說構成了強大的難題。DCGM提供節點級探針,Base Command處理工作負載,新服務將其集成到一個可擴展到地理分布GPU部署的全艦隊可視化平臺中。









評論