DeepSeek又有重大突破 開源大模型性能卓越

DeepSeek發(fā)布了新一代開源大模型DeepSeek-R1。該模型在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能與美國OpenAI公司的最新o1大模型相當(dāng)。依據(jù)數(shù)據(jù),DeepSeek-R1在算法類代碼場景(Codeforces)和知識類測試(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程類代碼場景(SWE-Bench Verified)、美國數(shù)學(xué)競賽(AIME 2024, MATH)項目上表現(xiàn)更優(yōu)。

與之前發(fā)布的DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,其他方面也有所提升。深度求索更新了用戶協(xié)議,明確模型開源許可將使用標(biāo)準(zhǔn)的MIT許可,并允許用戶利用模型輸出訓(xùn)練其他模型。數(shù)據(jù)顯示,在基于DeepSeek-R1進行“蒸餾”的6個小模型中,32B和70B模型在多項能力上對標(biāo)了OpenAI的o1-mini。

深度求索表示,DeepSeek-R1后訓(xùn)練階段大量使用了強化學(xué)習(xí)技術(shù),在極少人工標(biāo)注數(shù)據(jù)的情況下顯著提升了模型推理能力,幾乎跳過了監(jiān)督微調(diào)步驟。這使得DeepSeek-R1能夠自我優(yōu)化,生成更符合人類偏好的內(nèi)容。盡管強化學(xué)習(xí)需要大量反饋且計算成本高,但其優(yōu)勢在于不依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù)。

值得注意的是,深度求索還開發(fā)了一個完全通過大規(guī)模強化學(xué)習(xí)替代監(jiān)督微調(diào)的大模型DeepSeek-R1-Zero,但因存在一些問題未對外公開。工作人員發(fā)現(xiàn),在自我學(xué)習(xí)過程中,DeepSeek-R1-Zero出現(xiàn)了復(fù)雜行為,如自我反思、評估先前步驟、自發(fā)尋找替代方案的情況,甚至有一次“尤里卡時刻”。這種現(xiàn)象表明模型學(xué)會了用擬人化的語氣進行自我反思,并主動為問題分配許多時間重新思考。

盡管DeepSeek-R1-Zero展示出強大的推理能力,但也出現(xiàn)了一些語言混亂及可讀性問題。為此,深度求索引入數(shù)千條高質(zhì)量冷啟動數(shù)據(jù)和多段強化學(xué)習(xí)來解決這些問題,最終推出了正式版的DeepSeek-R1。目前,DeepSeek-R1 API服務(wù)定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元。

? 版權(quán)聲明
評論 搶沙發(fā)
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender