剛剛，DeepSeek開(kāi)源新模型，拿下奧數(shù)證明題冠軍_數(shù)學(xué)|ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | 李水青
編輯 | 心緣
智東西11月27 日?qǐng)?bào)道，今日， DeepSeek開(kāi)源了“奧數(shù)金牌級(jí)”模型DeepSeekMath-V2 ，該模型具備強(qiáng)大的定理證明能力。
DeepSeekMath-V2在2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽（IMO 2025）和2024年中國(guó)數(shù)學(xué)奧林匹克競(jìng)賽（CMO 2024）上取得了金牌水平的成績(jī)；并在2024年普特南大學(xué)生數(shù)學(xué)競(jìng)賽（Putnam 2024）上取得了接近滿分（118/120分）的成績(jī) ，超過(guò)人類最高的90分成績(jī) 。
如下圖所示， DeepSeekMath-V2以10%的優(yōu)勢(shì)擊敗谷歌的IMO金獎(jiǎng)得主DeepThink模型。
DeepSeekMath-V2在數(shù)學(xué)競(jìng)賽中的成績(jī)表現(xiàn)
DeepSeekMath-V2在IMO-ProofBench的測(cè)評(píng)結(jié)果
上述結(jié)果表明，自驗(yàn)證數(shù)學(xué)推理是一個(gè)可行的研究方向，可能有助于開(kāi)發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng) 。
Hugging Face地址：
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
論文地址：
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
按慣例， DeepSeek往往會(huì)將新開(kāi)源的模型直接上線DeepSeek ，我們第一時(shí)間嘗試進(jìn)行了體驗(yàn) 。
首先讓DeepSeek證明一道較簡(jiǎn)單的題目“證明根號(hào)2為無(wú)理數(shù)” ， DeepSeek快速給出了正確答案。
當(dāng)智東西輸入“證明奇數(shù)和整數(shù)哪個(gè)多？”這一證明題， DeepSeek也給出了正確證明過(guò)程和答案，這一證明過(guò)程大部分人應(yīng)該可以看懂。當(dāng)然，奧數(shù)級(jí)證明題會(huì)更加復(fù)雜，如果有能夠看懂理解這類題目的讀者，可以再進(jìn)一步進(jìn)行體驗(yàn)測(cè)試。
回到模型背后的研發(fā)問(wèn)題，我們來(lái)具體看看論文內(nèi)容，從已有的研究來(lái)看，在數(shù)學(xué)推理領(lǐng)域，強(qiáng)化學(xué)習(xí)（RL）傳統(tǒng)方法足以讓大模型在主要評(píng)估最終答案的數(shù)學(xué)競(jìng)賽（如AIME和HMMT）中達(dá)到很高的水平。然而這種獎(jiǎng)勵(lì)機(jī)制存在兩個(gè)根本性的局限性：
首先，傳統(tǒng)方法不能可靠地代表推理的正確性，模型可能通過(guò)有缺陷的邏輯或僥幸的錯(cuò)誤得出正確答案。
其次，它不適用于定理證明任務(wù) ，在這類任務(wù)中，問(wèn)題可能不需要生成數(shù)值形式的最終答案，而嚴(yán)謹(jǐn)?shù)耐茖?dǎo)才是主要目標(biāo) 。
為此， DeepSeek建議在大型語(yǔ)言模型中開(kāi)發(fā)證明驗(yàn)證能力，基于DeepSeek-V3.2-Exp-Base開(kāi)發(fā)了DeepSeekMath-V2 。他們讓模型明確了解其獎(jiǎng)勵(lì)函數(shù) ，并使其能夠通過(guò)有意識(shí)的推理而非盲目的試錯(cuò)來(lái)最大化這一獎(jiǎng)勵(lì) 。
DeepSeek制定了用于證明評(píng)估的高級(jí)評(píng)分標(biāo)準(zhǔn) ，目的是訓(xùn)練一個(gè)驗(yàn)證器，使其能根據(jù)這些評(píng)分標(biāo)準(zhǔn)對(duì)證明進(jìn)行評(píng)估，模擬數(shù)學(xué)專家的評(píng)估過(guò)程。以DeepSeek-V3.2-Exp-SFT的一個(gè)版本為基礎(chǔ) ，通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練模型生成證明分析，訓(xùn)練過(guò)程使用了兩個(gè)獎(jiǎng)勵(lì)組件。
然后是構(gòu)建強(qiáng)化學(xué)習(xí)數(shù)據(jù)集。 DeepSeek基于17503道競(jìng)賽題目、DeepSeek-V3.2-Exp-Thinking生成的候選證明、帶專家評(píng)分的隨機(jī)抽取的證明樣本，構(gòu)建了初始強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集。
其設(shè)置了強(qiáng)化學(xué)習(xí)目標(biāo)和訓(xùn)練驗(yàn)證器的強(qiáng)化學(xué)習(xí)目標(biāo) 。具體是以DeepSeek-V3.2-Exp-SFT的一個(gè)版本為基礎(chǔ) ，通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練模型生成證明分析，訓(xùn)練過(guò)程使用了兩個(gè)獎(jiǎng)勵(lì)組件：格式獎(jiǎng)勵(lì)和分?jǐn)?shù)獎(jiǎng)勵(lì) 。而后通過(guò)下列函數(shù)完成訓(xùn)練驗(yàn)證器的強(qiáng)化學(xué)習(xí)目標(biāo) 。
為了解決訓(xùn)練過(guò)程中“驗(yàn)證器可能通過(guò)預(yù)測(cè)正確分?jǐn)?shù)同時(shí)虛構(gòu)不存在的問(wèn)題來(lái)獲得全部獎(jiǎng)勵(lì)”這一漏洞， DeepSeek引入了一個(gè)二次評(píng)估過(guò)程——元驗(yàn)證（meta-verification），從而提高驗(yàn)證器識(shí)別問(wèn)題的忠實(shí)度。
在證明生成階段， DeepSeek進(jìn)行了證明生成器的訓(xùn)練，并通過(guò)自我驗(yàn)證增強(qiáng)推理能力，解決模型被要求一次性生成并分析自己的證明時(shí)“生成器不顧外部驗(yàn)證器判錯(cuò)而宣稱證明是正確的” 。
最后， DeepSeek證明驗(yàn)證器和生成器形成了一個(gè)協(xié)同循環(huán)：驗(yàn)證器改進(jìn)生成器，而隨著生成器的改進(jìn) ，它會(huì)生成新的證明，這些證明對(duì)驗(yàn)證器當(dāng)前的能力構(gòu)成挑戰(zhàn) ，這些挑戰(zhàn)也成為增強(qiáng)驗(yàn)證器自身的寶貴訓(xùn)練數(shù)據(jù) 。
簡(jiǎn)單來(lái)說(shuō) ， DeepSeekMath-V2模型中的驗(yàn)證器能完成逐步檢查證明過(guò)程，而生成器則會(huì)修正自身的錯(cuò)誤。
從實(shí)驗(yàn)結(jié)果來(lái)看，在單步生成結(jié)果評(píng)估中，如圖1所示，在CNML級(jí)別的所有問(wèn)題類別（代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)和不等式）中， DeepSeekMath-V2始終優(yōu)于GPT-5-Thinking-High和Gemini 2.5-Pro ，展現(xiàn)出在各領(lǐng)域更卓越的定理證明能力。
在帶自我驗(yàn)證的順序優(yōu)化中，其對(duì)2024 IMO備選題進(jìn)行連續(xù)優(yōu)化后，證明質(zhì)量提升。自選的最佳證明比線程平均值獲得了顯著更高的驗(yàn)證分?jǐn)?shù) ，這表明生成器能夠準(zhǔn)確評(píng)估證明質(zhì)量。這些結(jié)果證實(shí) ，其生成器能夠可靠地區(qū)分高質(zhì)量證明和有缺陷的證明，并利用這種自我認(rèn)知系統(tǒng)地改進(jìn)其數(shù)學(xué)推理能力。
在高計(jì)算量探索中， DeepSeek擴(kuò)大了驗(yàn)證和生成計(jì)算的規(guī)模，他們的方法解決了2025 IMO的6道題中的5道，以及2024 CMO的4道題，另外1道題獲得部分分?jǐn)?shù) ，在這兩項(xiàng)頂尖高中競(jìng)賽中均達(dá)到金牌水平，在基礎(chǔ)集上優(yōu)于DeepMind的DeepThink（IMO金牌水平），在高級(jí)集上保持競(jìng)爭(zhēng)力，同時(shí)大幅優(yōu)于所有其他基線模型。
但DeepSeek發(fā)現(xiàn) ，最困難的IMO級(jí)別問(wèn)題對(duì)其模型來(lái)說(shuō)仍然具有挑戰(zhàn)性。
值得注意的是，對(duì)于未完全解決的問(wèn)題， DeepSeek的生成器通常能在其證明過(guò)程中識(shí)別出真正的問(wèn)題，而完全解決的問(wèn)題則能通過(guò)所有64次驗(yàn)證嘗試。這表明，我們能夠成功訓(xùn)練基于大語(yǔ)言模型的驗(yàn)證器，以評(píng)估那些此前被認(rèn)為難以自動(dòng)驗(yàn)證的證明。通過(guò)在驗(yàn)證器的指導(dǎo)下增加測(cè)試時(shí)的計(jì)算量， DeepSeek的模型能夠解決那些需要人類競(jìng)爭(zhēng)者花費(fèi)數(shù)小時(shí)才能解決的問(wèn)題。

結(jié)語(yǔ)：可自我驗(yàn)證的AI系統(tǒng) ，離解決研究級(jí)數(shù)學(xué)問(wèn)題更進(jìn)一步總的來(lái)說(shuō) ， DeepSeek提出了一個(gè)既能生成又能驗(yàn)證數(shù)學(xué)證明的模型。團(tuán)隊(duì)突破了基于最終答案的獎(jiǎng)勵(lì)機(jī)制的局限性，邁向了可自我驗(yàn)證的數(shù)學(xué)推理。
【剛剛，DeepSeek開(kāi)源新模型，拿下奧數(shù)證明題冠軍】這項(xiàng)工作證實(shí) ，大語(yǔ)言模型能夠培養(yǎng)出針對(duì)復(fù)雜推理任務(wù)的有意義的自我評(píng)估能力。盡管仍存在重大挑戰(zhàn) ，這一研究方向有望為創(chuàng)建可自我驗(yàn)證的AI系統(tǒng)解決研究級(jí)數(shù)學(xué)問(wèn)題這一目標(biāo)做出貢獻(xiàn) 。

剛剛，DeepSeek開(kāi)源新模型，拿下奧數(shù)證明題冠軍

推薦閱讀

無(wú)錫濱湖區(qū)24小時(shí)核酸采樣點(diǎn)地址+電話

新手養(yǎng)貓適合養(yǎng)什么品種

15.6寸筆記本多大 15.6寸筆記本到底有多大

聯(lián)想V920應(yīng)用全接觸

供暖溫度不達(dá)標(biāo)怎么投訴

做蛋糕需要些什么食材

假離婚有什么法律后果

聽(tīng)英語(yǔ)聽(tīng)不懂還聽(tīng)嗎

怎樣做玉米面包子一人能吃五六個(gè)

什么是電商運(yùn)營(yíng) 電商運(yùn)營(yíng)的含義

火影忍者什么好看嗎,有什么好看的QQ動(dòng)漫男頭像嗎

大學(xué)綜測(cè)在哪里查大學(xué)綜測(cè)怎么操作

給狗怎么梳毛,短毛狗更要梳毛

中國(guó)甜品有什么,甜品有什么種類

邊牧毛發(fā)護(hù)理方法是什么

我來(lái)分享在華為麥芒7中設(shè)置動(dòng)態(tài)鎖屏的詳細(xì)教程。