趁硅谷過節“開大”!DeepSeek上線“奧數金牌”模型!填平谷歌OpenAI護城河
專挑節假日搞大新聞”的DeepSeek又出手了。
就在大洋彼岸的工程師們準備切火雞慶祝節日時,DeepSeek保持了極客傳統,悄然上線了DeepSeekMath-V2。

開源權重、IMO金牌水平、超越GPT-5。 這套熟悉的“三連擊”,再次鞏固了DeepSeek作為“開源燈塔”的地位。 在算力受限的背景下,DeepSeek 再次證明了自己:不需要龐大的 GPU 集群,也能用算法奇跡在最硬核的數學賽道上,教閉源巨頭們“做人”。
它“不搞虛的”,直接拿數學競賽界的“終極試金石”,包括2025國際數學奧林匹克(IMO 2025) 和 普特南數學競賽(Putnam) 的真題開練。在嚴苛的基準測試中,它交出了一份與 GPT-5和 Gemini 2.5 Pro 平起平坐,甚至更勝一籌的完美答卷。
1. 戰績彪悍:AI “碾壓”人類學霸
DeepSeekMath-V2到底有多強?數據不會說謊。
—— IMO 2025金牌得主,比肩谷歌 OpenAI。 在 IMO 2025的基準測試中,DeepSeekMath-V2成功解出6道題中的5道,達到“金牌”水準。這一成績直接對標谷歌 DeepMind 和 OpenAI 此前引以為傲的閉源模型。 要知道,在此之前,這種級別的推理能力是硅谷巨頭們嚴防死守的商業機密。
—— 普特南競賽:118分 VS 人類最高分90分。 威廉·羅威爾·普特南數學競賽(Putnam)可以說是北美本科生的“噩夢”,以難度極高著稱,中位數得分甚至接近于0。DeepSeek 團隊透露,DeepSeekMath-V2在2024年的普特南考題測試中,12道題做對了11道,最后一道也僅有微小瑕疵,最終得分118分(滿分120)。相比之下,人類選手的最高分只有90分左右。這說明 AI 不僅僅是在“背題”,而是具備了超越頂尖人類選手的邏輯解題能力。

此外,DeepSeekMath-V2在代數、幾何等5大數學領域全面超越 GPT-5和 Gemini 2.5 Pro。

2. 揭秘:為什么它能這么聰明?
數學推理一直是 AI 的軟肋,因為大模型很容易“一本正經地胡說八道”(幻覺問題)。DeepSeek 是如何解決這個問題的?
答案是“元驗證”(Meta-Verification)技術。

傳統的 AI 訓練是“給糖吃”:答案對了就獎勵。但在高等數學證明中,答案對不代表過程對。AI 很容易瞎編一個過程然后蒙對答案。
但 DeepSeek 引入了一套“左右互搏”機制:
其中生成器就像一個學生,負責寫解題步驟。驗證器則是老師,負責檢查邏輯漏洞,不僅僅看答案,還要看推導過程是否嚴謹。
更絕的是,他們還訓練了一個“二階驗證器”,用來監督“老師”批改得對不對,防止模型為了拿分而鉆空子。 這種遞歸式的驗證結構,逼著模型必須學會真正的邏輯推理,而不是投機取巧。
而在推理階段,模型不是張口就來。它會針對一個問題生成64個候選證明路徑,然后用驗證器逐一打分,挑出邏輯最嚴密的那一個。 這種“三思而后行”的模式,正是通往通用人工智能(AGI)的關鍵一步。
此外,DeepSeekMath-V2還打造了數字閉環生態,用驗證反饋直接優化生成質量,用自主產生的高難度訓練樣本推動系統迭代。
3. 最大的殺手锏:它是開源的!
這才是讓技術界沸騰的真正原因。
以往,無論是 OpenAI 還是谷歌都選擇閉源。你想用頂級的數學推理能力?只能付費調用 API,不僅數據要傳到云端,使用更受限于人。
但 DeepSeek 直接掀了桌子:模型權重公開下載,Apache 2.0協議。
Hugging Face 的 CEO 克萊門特·德朗格(Clément Delangue)為此激動地發推表示:
“據我所知,沒有任何聊天機器人或 API 能給你提供 IMO 金牌級別的模型。但今天變了,你可以在 Hugging Face 上直接下載 DeepSeek Math-V2的權重。”

這意味著,高校研究人員、企業開發者都可以在本地部署這個“數學天才”。所有人都可以體驗在本地運行“奧數金牌” AI 的快感,無需擔心數據隱私,也不用看硅谷大廠的臉色。 一夜之間,曾經被視為核心競爭力的“推理護城河”,變成了人人可用的基礎設施。
一經上線,全球各路技術播客和達人紛紛上手試用。
技術博主、英國程序大佬西蒙·威利森(Simon Willison)快速對 DeepSeek Math-V2的發布做了技術層面解讀,強調這是一個開放權重模型。他還特意提到,OpenAI和谷歌的同等模型有將近700G,相比之下DeepSeek Math-V2要小得多。

BinaryVerse 發布的播客也稱 DeepSeekMath-V2在某些數學推理基準上超越了已有閉源大模型,但同時也提到,模型“對常識問答或通用場景并非全面領先”。
Hacker News 等社區也紛紛對模型指標和能力發表個人看法。不少人驚訝模型的強大能力,但也有人質疑大量推理算力帶來的優異指標是否可遷移到常規使用場景。許多評論強調“驚艷但令人不安”的速度,討論模型在更廣義推理與安全性方面的意義。
4. 逆風翻盤:算力受限下的極致優化
DeepSeek 的這次突圍,背景其實略帶悲壯。
由于芯片供應問題,DeepSeek 在算力硬件上并不占優,旗艦模型 R2甚至因硬件兼容性問題而被迫推遲。
但在這種極限施壓下,DeepSeekMath-V2證明了一件事:算法的創新可以彌補算力的不足。
它沒有單純依賴暴力堆砌英偉達的 GPU 集群,而是通過“冷啟動”訓練——讓 AI 自己生成訓練數據,自己訓練自己,還用自動化標注系統擺脫了對昂貴人工標注數據的依賴。
5. 結語
DeepSeekMath-V2的發布證實:在通往 AGI 的道路上,開源模型并沒有掉隊,甚至正在反超。
當硅谷還在試圖用“安全”為由將頂級模型鎖在黑盒子里時,來自中國企業的 DeepSeek 選擇大度把鑰匙交給了全世界。
對于所有 AI 從業者來說,這是一個最好的時代。







評論