英偉達幾乎完成了通過收購Slurm的控制狂潮

作者：時間：2026-01-23 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

我們一直覺得很有趣的是，任何人都可以控制開源項目。但這確實會發生，因為歸根結底，人們需要靠工資生活，而某個公司必須開除這些支票。

有時，開源項目的支持源于利他主義和開明的自利，比如Linux內核需要加固和擴展，成為現代計算中事實上的類Unix作系統。但企業和其他類型的計算組織通常不愿意為這類開源項目做自我支持，這也是為什么通常有商業實體在項目背后，將所有內容整合成產品并為其提供技術支持。紅帽企業Linux，以及在一定程度上的SUSE Linux、CoreOS（現為紅帽的一部分，并成為其OpenShift Kubernetes容器控制系統的基礎）、CentOS（被紅帽吸收并促成了Rocky Linux的誕生）和Canonical Ubuntu，都是獲得商業支持Linux的常見途徑。云端通常有自己的Linux發行版，甚至Nvidia也有專門針對其AI系統的Ubuntu版本，盡管其他發行版也支持集成Nvidia驅動。

近年來，英偉達更關注其系統集群的控制方式，而非任何特定節點的底層作系統，這也是為什么英偉達在2022年1月支付了未知金額收購了Bright Computing（Bright Cluster Manager的制造商）。當時，Bright Computing通過兩輪融資籌集了1650萬美元，全球有超過700家組織使用其集群管理工具。該工具最初用于管理傳統高性能計算系統，但多年來已被改裝用于控制Hadoop、Spark、OpenStack、Kubernetes和VMware ESX分布式系統，旨在使BCM成為一種通用集群控制器。

收購后，英偉達將該工具更名為Base Command Manager，并將其集成到AI企業軟件棧中，這意味著其技術支持通過AI企業許可獲得了Nvidia在其GPU加速系統上捆綁支持的庫、框架及其他工具，每塊GPU每年成本為4500美元。

現在的樣子如下：

英偉達表示，目前全球已有數千個安裝，這大概還不包括公司免費提供的BCM許可證，這些許可證用于管理每節點8個或更少GPU的集群，且規模不等。Nvidia警告稱，這個免費使用的許可證沒有任何技術支持，隨時可能被撤銷。企業通常不會愿意把這件事押注給公司。

英偉達有一個名為Mission Control的BCM覆蓋層，它自動化部署構成其所謂的AI工廠的框架、工具和模型，AI工廠以咬嚼或制造代幣為生。Mission Control 包含 Run.ai 實現的 Kubernetes 用于容器編排，以及 Docker 用于在容器內運行計算，并且還能虛擬化 GPU，提供更細的計算細度。任務控制中心對系統進行健康檢查，并幫助優化能耗以適應系統工作負載。

但在裸機工作負載管理方面，無論是高性能計算還是人工智能工作負載，Nvidia仍然需要一個工具。事實證明，BCM是進行這些健康檢查的工具，繞過問題的作是通過Slurm工作負載管理器完成的。在英偉達收購Bright Computing之前的幾年里，BCM支持不同的工作負載管理器，但隨著Slurm成為高性能計算中心和AI精英的事實標準，它被選為Bright Cluster Manager的默認工作負載管理器，并在過去四年里一直作為Nvidia Base Command Manager的默認使用。

這似乎意味著許多高性能計算和人工智能公司不想學習新東西——那是很 Run.ai 不錯的——而更愿意繼續使用Slurm，謝謝。這對那些最初作為高性能計算中心起步的混合人工智能/高性能計算中心尤其如此。

正如你所料，作為全球最重要的IT供應商，英偉達本身也有點控制狂。2024年10月，英偉達停止將Bright Cluster Manager作為獨立工具銷售，僅將其作為AI企業堆棧的一部分提供。目前尚不清楚 AI Enterprise 是否比 Bright Cluster Manager 的獨立許可證更貴或更便宜，或者有多少客戶在僅支持CPU的系統或其他類型的加速器上使用該早期工具。

這就引出了Nvidia收購SchedMD，該公司已向全球數百家高性能計算中心、云構建者、超大規模化企業和企業銷售了Slurm工作負載管理器的支持。

Slurm項目始于2001年，是勞倫斯利弗莫爾國家實驗室、Linux NetworX（被SGI吞并）、惠普（舊的，不是新的，后者吞并了SGI和Cray）和Groupe Bull（被Atos吞并以制造Eviden）合作完成的項目。2010年，項目的兩位創始人Morris Jette和Danny Auble創立了SchedMD，旨在為Slurm提供技術支持，從而資助工作負載管理器的進一步開發。

據說Slurm的靈感來自超級計算機互聯制造商Quadrics開發的RMS集群資源管理器。關于Slurm最重要的一點是，過去十年中出現在該排名中的Top500超級計算機中，大約有60%（代表數千臺機器）使用Slurm作為工作負載管理器，而非IBM/Platform Computing的負載共享設施（LSF）、Altair的便攜批處理系統（PBS）、Adaptive Computing的Maui和Moab，以及Sun/Univa網格引擎。所有這些工作負載管理器/作業調度員都會收集一組具有特定計算能力需求的工作負載，逐步調整，讓它們按計劃運行，以盡可能高效地根據優先級排序完成任務。

Nvidia和SchedMD在過去十年一直合作開發Slurm，但兩人在聯合公告中并未多言，不過Nvidia表示將“繼續開發和分發Slurm作為開源、供應商中立的軟件，使其廣泛面向更廣泛的高性能計算和人工智能社區，涵蓋各種硬件和軟件環境。”

但僅僅因為 Slurm 將是開源的，并不意味著 Nvidia 會支持該代碼的開源版本，或者將所有未來的 Slurm 功能都開放為開源。（英偉達確實有很多專有驅動、框架和算法。）英偉達已同意為SchedMD現有客戶提供支持，推測他們會通過聘請SchedMD的員工來實現這一點。

目前尚不清楚的是，Run.ai 和Slurm的功能將如何與Base Control Manager結合，提供一個從上到下的集群和工作負載管理工具，適用于高性能計算（HPC）和人工智能集群——不僅適用于AI集群，還假設許多集群中會有一些純CPU設備以及非Nvidia加速器。希望不僅Slurm代碼能保持開放，支持矩陣也會更廣泛。

如果英偉達試圖以任何方式限制它，有人可以拿取Slurm代碼（該代碼以GNU GPL v2.0許可證提供），分叉后繼續使用。

那么，下一個問題：英偉達現在是否也需要將自己的商業Kubernetes編織進AI企業技術棧？Mirantis拆解了OpenStack云控制器并放入容器，并創建了自己的Kubernetes實現，已經在Nvidia方面做了大量失落的工作，包括在BlueField DPU上集成Kubernetes。