中國開源AI模型崛起，Llama徹底出局

作者：時間：2025-12-30 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

AGI雖在實際應用中仍存局限性，但曙光現已成為今年行業的共識。在一系列技術任務中，從ChatGPT到Gemini，許多世界領先的AI 模型正超越人類基準線：據斯坦福大學《2025年AI指數報告》，AI已在7項測試中超越人類基準線，這些測試衡量的任務包括：圖像分類、視覺推理、中等閱讀理解、英語語言理解、多任務語言理解、競賽級數學、博士級科學問題。

目前，AI系統唯一尚未趕上人類的領域是多模態理解與推理，而這項任務涉及跨多種格式和學科（如圖像、圖表、圖解）進行處理和推理。不過，這一差距正在迅速縮小。

MMMU數據集的四大特性 —— 全面性：涵蓋六個廣泛學科領域與30個大學科目，包含1.15萬個大學難度級別的問題；圖像類型高度異質：包含極其多樣化的圖像類型；圖文并茂：文本與圖像交錯混合，需要跨模態理解；專家級感知與推理：要求具備扎根于深厚學科知識的專家級感知與推理能力。

MMMU基準測試，是評估模型在需要大學學科知識的跨學科任務上的表現，目前此基準測試日益飽和。在2023年底，谷歌Gemini的得分僅為59.4%；到2024年，OpenAI的o1模型取得了78.2%的分數；今年，Gemini 3 Pro在增強版MMMU-Pro上取得了89.8%的得分。

令人矚目的是，有研究者在3B參數模型上以低于30美元的成本復現了DeepSeek-R1-Zero的強化學習訓練方案。通用人工智能測試基準ARC-AGI-1，最佳成績超過近90%；ARC-AGI-2上，AI超過了人類平均水平。

DeepSeek年度最大黑馬

DeepSeek-R1成為歷史上第一個通過同行評議的大模型，喜登Nature封面；創始人梁文鋒入選Nature年度10大人物。對比中國開源模型的崛起，Llama卻徹底出局。

值得注意的是，Mamba雖然在理論上展現出潛力，在初期備受關注后逐漸淡出視野，在研究之外缺乏實際應用。Transformer模型已在硬件和軟件層面深度優化，使得用未經驗證的架構重新訓練大型模型在經濟上難以證明其合理性，特別是當結果與現有模型相當或更差時。成熟的Transformer軟件生態系統帶來了巨大的轉換成本，且Mamba的固定狀態內存無法選擇性地檢索被忽略的token。

而在計算機視覺領域，Vision Transformer是否已取代CNN的問題仍存在爭議。顯然Transformer在許多任務中越來越受青睞，并在大數據集上表現出色，但CNN和混合架構在小數據集、醫學影像和特定領域仍具競爭力。不過，ConvNeXt是強有力的替代方案，Transformer需要更多內存且難以處理可變圖像分辨率，數據集質量比架構選擇更重要。