Nvidia是唯一有能力免費提供AI模型的廠商
一個從太空飛來的外星人乘坐彗星飛來,會俯瞰地球,發現有一家極具影響力且著名的軟件公司,名叫英偉達,恰巧擁有一家極其復雜且極其盈利的硬件業務,運營著一系列專有和開源軟件,約有四分之三的員工在這些軟件中開發。
因此,隨著專有模型制造商——OpenAI、Anthropic和Google是大廠——持續崛起并加劇競爭,我們一點也不意外,Meta Platforms正在考慮轉向名為Avocado的封閉模型——畢竟開源的Llama 4模型已經完蛋——英偉達也在加大對其Nemotron開源模型的投入。
很簡單。英偉達可以以成本價獲得任何規模的AI集群進行AI訓練,鑒于其利潤豐厚的AI硬件業務,英偉達是唯一能夠免費免費提供模型,并且其擁有支持各種AI和高性能計算模型庫的AI企業級軟件棧收費極低的公司。(每塊GPU每年售價為4500美元,相比“Blackwell”系列中價格約為35,000至45,000美元的GPU加速器,價格相對較低。)
從某種意義上說,這回歸了IBM早期System/360大型機時期硬件和軟件的銷售方式,當時該主機在六十年前第二波計算機商業化中拓寬了計算和數據存儲的使用范圍。那時,你買了一臺非常昂貴的大型主機系統,配備了一支穿著藍色西裝的技術人員團隊,他們會免費幫你編程。多年來,公司開始自主開發應用軟件,或向第三方提供,大藍通過其全球服務巨頭將客戶服務轉變為盈利中心。
我們認為,這將成為英偉達在全棧集成(包括數據中心)以及從芯片到軟件棧最高層垂直集成方面的發展軌跡。Nvidia甚至可能成為獨立的人工智能工具。(“效用”這個詞比“云”這個詞更合適,后者是個模糊且有意為之的詞。)
英偉達并非開源AI模型的新手,顯然參與運行了幾乎所有有史以來的開源AI模型,以及那些已成為家喻戶曉名字的封閉模型,如Google Gemini、Anthropic Claude和OpenAI GPT。
在Nemotron 3發布前的簡報會上,英偉達企業生成式AI軟件副總裁Kari Briski表示,過去兩年半內,約有3.5億個開源AI框架和模型被下載,Hugging Face倉庫擁有超過280萬個開放模型,涵蓋各種變體,用于創建特定用例模型,約60%的公司使用開源AI模型和工具。Briski補充說,2025年Nvidia是Hugging Face上開源貢獻最大的企業,釋放了650個開放模型和250個開放數據集。
英偉達的起步是自家開發的變壓器模型,2019年發布的Megatron-LM。Megatron-LM可以針對80億參數進行訓練,并且跨越512個GPU加速器進行訓練(使用八路GPU節點進行模型并行處理,其中64個節點用于數據并行處理)。2021年,通過與Microsoft合作Megatron-Turing NLG將Megatron-Turing NLG擴展到5300億參數。Neural Modules,簡稱NeMo工具包與最初的Megatron-LM模型同時發布,Nemotron模型就是基于該工具包及其相關庫構建的。
最初的Nemotron型號被稱為Nemotron-4,只是為了讓我們困惑,它們于2024年6月發布,涵蓋了3400億個參數。在Nemotron 1模型中,英偉達將Llama 3.1基礎模型與Nemotron推理技術結合,創造出涵蓋8B、49B、70B和235B參數尺度的Llama Nemotron。
今年早些時候發布的Nemotron 2 Nano擁有90億和120億參數的變體,英偉達將谷歌2017年6月開創、2018年10月BERT模型實現的變壓器方法,與卡內基梅隆大學和普林斯頓大學研究人員開發的Mamba選擇性狀態空間方法交織。前者擅長從大量數據中提取特征和依賴關系,后者則非常擅長聚焦于較小的數據子集及其依賴關系。
隨著本周發布的Nemotron 3,英偉達正在打造一種專家(MoE)架構的混合體,旨在驅動多智能體系統,基于這一混合Mamba-Transformer架構。Briski說,混合架構的成果是推理效率的提升。
Briski解釋道:“混合型Mamba-Transformer架構運行速度快了好幾倍,內存更少,因為它避免了每個代幣的巨大注意力映射和鍵值緩存?!薄八赃@種架構確實減少了內存占用,這樣你就能擁有更多的專家。我們將在超級和超極版本中引入一種突破性技術,稱為潛在專家混合。所有這些與你模型相同的專家都有一個共同的核心,并且只保留一小部分私密。所以這有點像廚師共用一個大廚房,但他們可以使用自己的香料架。因此,通過這種潛在的 MoE,你將獲得 Super 和 Ultra 的更高內存效率?!?/p>
Nemotron 3家族目前有三名成員,其中兩位Briski在其中提到了名字。

Nemotron 3系列很可能會隨著時間推移擴展到更大或更小的型號。與其他MoE模型一樣,模型訓練時會有一個參數的聚合,然后在微調或推理過程中激活一小部分參數。Nemotron 3 Nano擁有300億參數,其中30億可隨時激活,專為安裝在單個Nvidia L40S GPU推理加速器上而設計。超級版本擁有1000億個參數,最多可同時激活100億個;超版本則有5000億個參數,同時激活500億個。
Briski表示,Nemotron 2 Nano和Nemotron 3型號的微調有所不同。Nemotron 2 Nano 有很多監督式學習——也就是說,人們會修正模型的輸出并反饋給模型——還有一點強化學習——模型在使用過程中自我學習,但 Nemotron 3 則有大量的強化學習。Nemotron 3模型高度依賴強化學習,并增加了高達100萬個令牌的上下文窗口。
這里有一篇Nvidia的技術博客,解釋了Nemotron 3模型的一些細節,但大意是Mamba在捕捉長距離依賴的同時減少了內存占用,變換器層有處理復雜規劃和推理的注意力算法,而MoE方法允許模型實際上很大,但只在必要時激活(這是谷歌在其PaLM模型中發明的方法在BERT之后進入實地)。
Super和Ultra版本中引入的潛在MoE功能允許在模型層之間添加中間表示層,在令牌處理過程中共享,從而允許調用4倍的專家數量,同時實現相同的推理性能。更多的專家能帶來更好的答案和更高的智慧。Nemotron 3具備多標記預測功能,這是一種針對AI模型的推測執行,Super和Ultra版本已預訓練為Nvidia的NVFP4 4位數據精度,以提升推理的有效吞吐量。該訓練是在一個25萬億個令牌的預訓練數據集上進行的。(目前尚不清楚英偉達是否向所有人開放了數據集——甚至是否能做到。)
那么《Nemotron 3》表現如何?我們來談談人工分析,這是目前的人工智能基準。目前只有 Nemotron 3 Nano 30B/3B 有售,以下是它在推理工作負載中每秒輸出令牌數的評分:

相比Nemotron 2型號,這帶來了巨大的性能提升。不激活整個模型顯然有助于MoE,這也是設計規格。
以下是 Nemotron 3 Nano 30B/3B 在繪制模型準確率(縱軸智能)與令牌吞吐量(X軸)時的對比:

你想在這張圖表上往右上方。
最后,這是Nemotron 3 Nano與開放指數(即你的模型開放度)的對比,顯示在Y軸對比智力(答案正確度):

看看Nemotron 3型號是否能作為AI企業級技術棧的一部分或單獨獲得英偉達的技術支持訂閱,將會很有趣。如果英偉達提供支持,只需收取高價,只需覆蓋模型開發成本,以抵消日益封閉的AI模型開發者。



評論