Datawhale干貨
最新:DeepSeek論文,來(lái)源:新智元
幾天前,DeepSeek悄無(wú)聲息地把R1的論文更新了,從原來(lái)22頁(yè)更新到86頁(yè)論文。全新的論文證明,只需要強(qiáng)化學(xué)習(xí)就能提升AI推理能力!
這一次的更新,直接將原始論文升級(jí)為:一份開(kāi)源社區(qū)完全可復(fù)現(xiàn)的技術(shù)報(bào)告論文。
論文地址論文:
論文中論文,DeepSeek-R1新增內(nèi)容干貨滿滿:
精確的數(shù)據(jù)配方:明確給出數(shù)據(jù)規(guī)模(2.6萬(wàn)道數(shù)學(xué)題論文,1.7萬(wàn)條代碼),以及具體的創(chuàng)建流程
基礎(chǔ)設(shè)施說(shuō)明論文:vLLM/DualPipe設(shè)置的示意圖
訓(xùn)練成本拆解論文:總計(jì)約29.4萬(wàn)美元(R1-Zero使用了198小時(shí)的H800GPU)
「失敗嘗試」復(fù)盤(pán)論文:深入解釋PRM為什么沒(méi)有成功
模型對(duì)比論文:與DS-V3、Claude、GPT-4o系統(tǒng)性比較(此前只包含o1)
10頁(yè)安全性報(bào)告論文:詳細(xì)說(shuō)明安全評(píng)估與風(fēng)險(xiǎn)分析
精確的數(shù)據(jù)配方:明確給出數(shù)據(jù)規(guī)模(2.6萬(wàn)道數(shù)學(xué)題論文,1.7萬(wàn)條代碼),以及具體的創(chuàng)建流程
基礎(chǔ)設(shè)施說(shuō)明論文:vLLM/DualPipe設(shè)置的示意圖
訓(xùn)練成本拆解論文:總計(jì)約29.4萬(wàn)美元(R1-Zero使用了198小時(shí)的H800GPU)
展開(kāi)全文
「失敗嘗試」復(fù)盤(pán)論文:深入解釋PRM為什么沒(méi)有成功
模型對(duì)比論文:與DS-V3、Claude、GPT-4o系統(tǒng)性比較(此前只包含o1)
10頁(yè)安全性報(bào)告論文:詳細(xì)說(shuō)明安全評(píng)估與風(fēng)險(xiǎn)分析
結(jié)果顯示,DeepSeek R1多項(xiàng)實(shí)力與OpenAI o1相媲美,甚至趕超o1-mini、GPT-4o、Claude 3.5論文。
不僅如此,這次論文末核心貢獻(xiàn)者名單,列出了各自的具體貢獻(xiàn)論文。
接下來(lái),一起拆解最新論文內(nèi)容的核心亮點(diǎn)論文。
DeepSeek R1更新論文,實(shí)力打平o1
首先來(lái)看,DeepSeek-R1具體的評(píng)測(cè)結(jié)果論文。
最新評(píng)估,依舊覆蓋了數(shù)學(xué)推理、編碼、通用知識(shí)&理解、事實(shí)型&指令遵循等任務(wù)的全方位對(duì)比論文。
在教育知識(shí)類(lèi)基準(zhǔn)上,包括MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1整體超越DS-V3論文。
特別是,在STEM相關(guān)問(wèn)題上,準(zhǔn)確率顯著提高——這背后最大功勞要?dú)w功于:RL論文。
另外,在長(zhǎng)上下文的問(wèn)答任務(wù)(FRAMES)上,DeepSeek-R1表現(xiàn)亮眼,文檔理解與分析能力出色論文。
在數(shù)學(xué)、代碼任務(wù)中,DeepSeek-R1與OpenAI-o1-1217基本持平,明顯領(lǐng)先其他模型論文。
在更偏實(shí)踐編程任務(wù)中,OpenAI-o1-1217在Aider上表現(xiàn)優(yōu)于DeepSeek-R1,但在SWE Verified上兩者水平相當(dāng)論文。
在DeepSeek看來(lái),主要是工程類(lèi)RL訓(xùn)練數(shù)據(jù)還不夠多,所以DeepSeek-R1在這塊的能力還沒(méi)完全發(fā)揮出來(lái)論文。
下一版本,可能會(huì)看到其在這一領(lǐng)域的明顯提升論文。
下圖中,是DeepSeek-R1和DeepSeek-R1-Zero,在多項(xiàng)基準(zhǔn)競(jìng)賽中與人類(lèi)專(zhuān)家的性能對(duì)比論文。
AIME數(shù)學(xué)競(jìng)賽:DeepSeek-R1得分已超越人類(lèi)的平均水平論文。
Codeforces編程競(jìng)賽:DeepSeek-R1表現(xiàn)超過(guò)了93.6%的參賽者,解題能力超強(qiáng)論文。
GPQA科學(xué)問(wèn)答:人類(lèi)整體實(shí)力更強(qiáng),表現(xiàn)優(yōu)于DeepSeek-R1論文。
AIME數(shù)學(xué)競(jìng)賽:DeepSeek-R1得分已超越人類(lèi)的平均水平論文。
Codeforces編程競(jìng)賽:DeepSeek-R1表現(xiàn)超過(guò)了93.6%的參賽者,解題能力超強(qiáng)論文。
GPQA科學(xué)問(wèn)答:人類(lèi)整體實(shí)力更強(qiáng),表現(xiàn)優(yōu)于DeepSeek-R1論文。
DeepSeek認(rèn)為,如果讓R1也能聯(lián)網(wǎng)的話,說(shuō)不定就能追上,甚至趕超人類(lèi)現(xiàn)在的水平了論文。
人工評(píng)估階段,采用了ChatbotArena擂臺(tái),通過(guò)ELO分?jǐn)?shù)來(lái)體現(xiàn)DeepSeek-R1在人類(lèi)偏好上的表現(xiàn)論文。
顯然,R1取得了亮眼的成績(jī)論文。尤其是,在「風(fēng)格控制」中,它與OpenAI-o1、Gemini-Exp-1206打成平手,并列第一。
「風(fēng)格控制」這一設(shè)計(jì)直接回應(yīng)了一個(gè)關(guān)鍵問(wèn)題:模型是否可能通過(guò)更長(zhǎng)、更精致或更好看的回答來(lái)「取悅」人類(lèi)評(píng)審,即使其內(nèi)容本身并不一定更強(qiáng)論文。
DeepSeek強(qiáng)調(diào),一個(gè)基于MIT協(xié)議的開(kāi)源模型,整體表現(xiàn)與多款閉源AI相媲美,這無(wú)疑是一個(gè)重要的里程碑論文。
尤其是,DeepSeek-R1使用成本更低的情況下論文。
下圖12,更近一步展示了不同評(píng)測(cè)維度下的排名結(jié)果,呈現(xiàn)了R1在數(shù)學(xué)、編程等多個(gè)領(lǐng)域的強(qiáng)勁實(shí)力論文。
這表明,R1不光推理能力強(qiáng),在各種實(shí)際應(yīng)用場(chǎng)景中,整體表現(xiàn)相當(dāng)文檔論文。
在數(shù)據(jù)方面,DeepSeek放出具體RL數(shù)據(jù)和微調(diào)數(shù)據(jù)的規(guī)模論文。
在強(qiáng)化學(xué)習(xí)階段,數(shù)據(jù)比例是這樣分配的:數(shù)學(xué)(26k)、代碼(17k)、STEM(22k)、邏輯(15k)、通用(66k)論文。
在微調(diào)階段,數(shù)據(jù)規(guī)模約800k,覆蓋了推理、通用指令任務(wù)、格式/語(yǔ)言一致性樣本論文。
蒸餾論文,讓推理能力一鍵遷移
在蒸餾部分論文,DeepSeek回答了這一問(wèn)題——
DeepSeek-R1學(xué)到的「推理能力」論文,能不能有效、穩(wěn)定地遷移到更小的模型上?
這里,DeepSeek作為「教師」模型,生成高質(zhì)量、顯式推理軌跡的數(shù)據(jù),通過(guò)SFT把推理能力「蒸餾」給更小的「學(xué)生」模型,而不是讓小模型再跑一遍RL論文。
通過(guò)蒸餾,小模型直接學(xué)習(xí)R1已經(jīng)驗(yàn)證有效的推理模式,不需要重新探索reward space論文。
論文中,DeepSeek實(shí)驗(yàn)蒸餾了多個(gè)規(guī)模的模型,包括1.5B、7B、8B、14B、32B、70B,系統(tǒng)性地驗(yàn)證了「跨尺度有效性」論文。
同尺寸模型相比較,蒸餾后的性能全面提升論文。
可以看到一個(gè)重要的現(xiàn)象是,推理能力并沒(méi)有「鎖死」在大模型里,而是能通過(guò)數(shù)據(jù)遷移到小模型論文。
在訓(xùn)練成本方面,DeepSeek-R1-Zero使用了64×8張H800 GPU,整體訓(xùn)練耗時(shí)約198小時(shí)論文。
在DeepSeek-R1訓(xùn)練階段,沿用了相同的GPU配置,并在大約4天內(nèi)完成訓(xùn)練,約80小時(shí)論文。
此外論文,在構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù)集的過(guò)程中,共消耗了約5000 GPU小時(shí),
一共花費(fèi)29.4萬(wàn)美元,詳情可參見(jiàn)表7論文。
智能涌現(xiàn)論文!DeepSeek-R1-Zero的確在自我進(jìn)化
在MATH數(shù)據(jù)集上論文,DeepSeek-R1-Zero簡(jiǎn)直就是人類(lèi)的翻版!
對(duì)人類(lèi)而言較為簡(jiǎn)單的推理任務(wù),DeepSeek-R1-Zero在訓(xùn)練早期便被模型掌握,而在復(fù)雜推理問(wèn)題(難度3–5)上的能力則會(huì)隨著訓(xùn)練顯著提升論文。
具體來(lái)說(shuō)論文,下圖8揭示了不同的學(xué)習(xí)模式:
簡(jiǎn)單問(wèn)題(1-3級(jí))迅速達(dá)到高準(zhǔn)確率(0.90-0.95)并在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定論文;
困難問(wèn)題則被逐步攻克——
4級(jí)問(wèn)題的準(zhǔn)確率從開(kāi)始的約0.78提升到0.95論文;
最難的5級(jí)問(wèn)題,最明顯,從最開(kāi)始的約0.55提升到0.90論文。
在較難問(wèn)題(3-4級(jí))上的準(zhǔn)確率,DeepSeek-R1-Zero偶爾會(huì)以微弱優(yōu)勢(shì)超過(guò)其在較簡(jiǎn)單問(wèn)題(1級(jí))上的表現(xiàn)論文。
這種現(xiàn)象看似反直覺(jué),可能由于數(shù)據(jù)集的特征論文。
在高級(jí)推理任務(wù)上論文,DeepSeek-R1-Zero也表現(xiàn)出類(lèi)似的涌現(xiàn)現(xiàn)象,證明了兩大結(jié)論:
在生成長(zhǎng)鏈中間token中,強(qiáng)化學(xué)習(xí)發(fā)揮了關(guān)鍵作用論文。
在訓(xùn)練的特定階段,AI模型學(xué)會(huì)了不同形式的反思論文。
在生成長(zhǎng)鏈中間token中,強(qiáng)化學(xué)習(xí)發(fā)揮了關(guān)鍵作用論文。
在訓(xùn)練的特定階段,AI模型學(xué)會(huì)了不同形式的反思論文。
首先論文,如下圖9(a)所示,他們統(tǒng)計(jì)了一些具有代表性的反思性詞匯,包括
wait、mistake、however、but、retry、error、verify、wrong、evaluate和check論文。
如下圖a所示論文,隨著訓(xùn)練的進(jìn)行,反思行為的頻率逐漸增加:反思性詞匯的數(shù)量相比訓(xùn)練開(kāi)始時(shí)增加了5到7倍,
其次,特定的反思行為可能在訓(xùn)練過(guò)程中的特定時(shí)間點(diǎn)出現(xiàn)論文。
總之,他們觀察到模型在訓(xùn)練過(guò)程中的反思行為逐漸增加,而某些反思模式(如使用「wait」)則在訓(xùn)練過(guò)程的特定時(shí)間點(diǎn)出現(xiàn)論文。
安全問(wèn)題論文,行業(yè)重點(diǎn)在越獄攻擊
DeepSeek-R1的安全風(fēng)險(xiǎn)評(píng)具體分析包括以下5個(gè)方面論文:
1、DeepSeek-R1官方服務(wù)所采用的風(fēng)險(xiǎn)控制體系論文;
2、與當(dāng)前先進(jìn)模型在六項(xiàng)公開(kāi)安全基準(zhǔn)測(cè)試中的對(duì)比安全評(píng)估論文;
3、基于內(nèi)部安全測(cè)試集的分類(lèi)研究論文;
4、對(duì)R1模型在多語(yǔ)言場(chǎng)景下的安全性評(píng)估論文;
5、模型在應(yīng)對(duì)越獄攻擊方面的穩(wěn)健性評(píng)估論文。
DeepSeek-R1的風(fēng)險(xiǎn)控制體系通過(guò)向DeepSeek-V3發(fā)送「風(fēng)險(xiǎn)審查提示詞」(risk review prompt)來(lái)實(shí)現(xiàn)論文,具體包括以下兩個(gè)主要流程:
首先,過(guò)濾潛在風(fēng)險(xiǎn)對(duì)話論文。在每輪對(duì)話結(jié)束后,系統(tǒng)會(huì)自動(dòng)將用戶的提問(wèn)與一組預(yù)設(shè)關(guān)鍵詞列表進(jìn)行匹配。
其次,基于模型審查風(fēng)險(xiǎn)論文。被標(biāo)記為潛在風(fēng)險(xiǎn)的對(duì)話將與預(yù)設(shè)的「風(fēng)險(xiǎn)審查提示詞」(見(jiàn)示例8)拼接在一起,并發(fā)送給DeepSeek-V3模型進(jìn)行審查。系統(tǒng)會(huì)根據(jù)模型的判斷結(jié)果,決定是否撤回該輪對(duì)話內(nèi)容。
實(shí)驗(yàn)結(jié)果顯示,與其他前沿模型相比,DeepSeek-R1在整體安全性上與其他先進(jìn)模型表現(xiàn)相當(dāng)論文。
然而,在HarmBench測(cè)試中,R1的表現(xiàn)明顯落后,主要源于R1在涉及「知識(shí)產(chǎn)權(quán)」的相關(guān)問(wèn)題上表現(xiàn)欠佳論文。除此之外,在其他安全類(lèi)別的評(píng)估中(如歧視與偏見(jiàn)、暴力與極端主義、隱私侵犯等),R1模型表現(xiàn)穩(wěn)定,展現(xiàn)出較強(qiáng)的安全防護(hù)能力。
此外,他們特別構(gòu)建了一個(gè)內(nèi)部安全評(píng)估數(shù)據(jù)集,以系統(tǒng)監(jiān)測(cè)模型的整體安全水平論文。
他們將大語(yǔ)言模型可能面臨的內(nèi)容安全挑戰(zhàn)劃分為4個(gè)一級(jí)類(lèi)目和28個(gè)細(xì)分子類(lèi)論文,具體分類(lèi)如下:
最終,他們共構(gòu)建了1,120道測(cè)試題,用于對(duì)模型的安全性進(jìn)行系統(tǒng)性評(píng)估,具體結(jié)果見(jiàn)下表論文。
在未啟用控制時(shí),DeepSeek-R1與DeepSeek-V3的基礎(chǔ)模型拒答率較低,但不安全率較高論文。啟用風(fēng)險(xiǎn)控制后,不安全率明顯下降,但拒答率升高(約25%)。 DeepSeek-R1在處理違法犯罪類(lèi)問(wèn)題和倫理道德類(lèi)問(wèn)題時(shí)表現(xiàn)出色,而在應(yīng)對(duì)歧視偏見(jiàn)類(lèi)問(wèn)題與有害行為類(lèi)問(wèn)題時(shí)則表現(xiàn)一般。
評(píng)估模型在不同語(yǔ)言之間的安全差異同樣至關(guān)重要論文。為此,他們將此前構(gòu)建的中英雙語(yǔ)安全測(cè)試集擴(kuò)展至50種常用語(yǔ)言。
最終,他們構(gòu)建出一個(gè)包含9,330個(gè)問(wèn)題的多語(yǔ)言安全測(cè)試集論文。引入風(fēng)險(xiǎn)控制后,DeepSeek-V3(86.5%)與DeepSeek-R1(85.9%)在50種語(yǔ)言中的整體安全得分接近Claude-3.7-Sonnet(88.3%)的表現(xiàn)。
圖14中展示了DeepSeek-V3、DeepSeek-R1(啟用與未啟用風(fēng)險(xiǎn)控制系統(tǒng))以及Claude-3.7-Sonnet和GPT-4o(2024-05-13)在50種語(yǔ)言下的表現(xiàn)論文。
在越獄攻擊測(cè)試中論文,他們得出三大結(jié)論:
越獄攻擊對(duì)所有模型均構(gòu)成顯著威脅
推理型模型更依賴風(fēng)險(xiǎn)控制系統(tǒng)
開(kāi)源模型越獄風(fēng)險(xiǎn)更高
總結(jié)基礎(chǔ)模型、驗(yàn)證器很重要
基礎(chǔ)模型很重要論文。
在開(kāi)發(fā)的最初階段,他們?cè)鴩L試使用較小規(guī)模的模型作為強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的起點(diǎn)論文。然而,在以AIME基準(zhǔn)作為主要驗(yàn)證集的評(píng)測(cè)中,這些模型始終未能帶來(lái)實(shí)質(zhì)性的性能提升。
為了解決這些問(wèn)題,他們轉(zhuǎn)而采用更大規(guī)模、能力更強(qiáng)的模型論文。
在這些架構(gòu)上,他們首次清晰地觀察到純RL訓(xùn)練所帶來(lái)的顯著性能收益論文。
這一結(jié)果表明,從基礎(chǔ)模型出發(fā)進(jìn)行強(qiáng)化學(xué)習(xí),其效果在很大程度上取決于模型本身的容量與表達(dá)能力論文。
驗(yàn)證器很重要論文。
DeepSeek-R1-Zero的訓(xùn)練效果高度依賴于獎(jiǎng)勵(lì)信號(hào)本身的可靠性和準(zhǔn)確性論文。
根據(jù)目前的實(shí)驗(yàn)結(jié)果論文,有兩種方式可以有效緩解獎(jiǎng)勵(lì)作弊(即模型學(xué)會(huì)「鉆獎(jiǎng)勵(lì)規(guī)則空子」)的問(wèn)題:
一是基于規(guī)則的獎(jiǎng)勵(lì)模型(Reward Models,RMs),二是利用大語(yǔ)言模型來(lái)判斷生成答案是否與預(yù)先定義的標(biāo)準(zhǔn)答案一致論文。
迭代式訓(xùn)練流水線中,RL、SFT缺一不可論文。
他們提出了一套包含監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)的多階段訓(xùn)練流水線論文。
RL與SFT在整個(gè)訓(xùn)練流程中缺一不可論文。單獨(dú)依賴RL,容易在問(wèn)題本身定義不清的任務(wù)中引發(fā)獎(jiǎng)勵(lì)作弊和次優(yōu)行為;而只依賴SFT,則可能限制模型通過(guò)探索進(jìn)一步提升其推理能力。
他們同樣經(jīng)歷了不少失敗與挫折,包括過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Model,PRM)和蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search,MCTS)論文。
但這并不意味著這些方法本身無(wú)法用于構(gòu)建有效的推理模型論文。
參考資料論文: