今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——"天工大模型4.0" o1版(Skywork o1)。
Skywork o1是由昆侖萬維集團發布的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同于現有的復現OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現o1的技術路線,使得初始推理能力較差的基座模型在基準測試集上成為生態位SOTA。
此次發布的Skywork o1包括三款模型,既有回饋開源社區的開放版本,也有能力更強的專用版本:
Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復雜數學任務。該模型的發布也將幫助加速國內開源社區復現o1的進程。
Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數學、中文邏輯和推理類問題上表現突出。
Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著許多樣和"深度"的思考過程,更完善和更高質量的推理。
其中,我們開源的Skywork o1 Open,在各項數學和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數學推理任務(如24點計算)。這也為推理模型在輕量級設備上部署提供了可能性。
同時,我們也將開源兩個推理任務的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。
對比開源社區現有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型,使用不同PRM在數學和代碼評測集上的評估結果。
除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務進行專門優化,故不進行代碼任務的相關對比。
詳細技術報告也將在不久后發布。目前模型和相關介紹在Huggingface開源。
強推理以及自我反思的能力是如何練成的?
Skywork o1在邏輯推理任務上性能的大幅提升得益于天工三階段自研的訓練方案:
推理反思能力訓練:通過自研的多智能體體系構造高質量的分步思考,反思和驗證數據。通過高質量的、多樣性的長思考數據對基座模型進行繼續預訓練和監督微調。
推理能力強化學習:團隊研發了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進一步加強模型推理和思考能力。
推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現和公開。Q*算法落地也大大提升了模型線上推理能力。
亮點功能與實測
Skywork o1模型具有以下能力和亮點功能:
模型思考和規劃能力
模型自我反思能力
模型自我驗證能力
相較于此前(長文本任務)大模型,無論是常識推理問題、邏輯推理問題、數學推理問題、倫理決策問題、還是"弱智"(類似腦筋急轉彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復雜問題分析、思考反思過程、輸出答案質量上均有大幅提升。
進階版的復雜人類思考能力的解鎖也將進一步在垂類領域增強大模型的應用,例如:
中英文常見邏輯推理和復雜任務,如數學/代碼類任務,科學研究
高質量內容生成,如創意寫作,行業報告寫作
深度搜索,解鎖復雜搜索任務的拆解
2024年以來,昆侖萬維天工AI持續進化,陸續發布了"天工2.0"、"天工3.0"、"天工大模型4.0"4o版——Skywork 4o,以及今天正式發布的"天工大模型4.0" o1版(Skywork o1),不僅是我們貫徹"All in AGI 與 AIGC" 戰略的重要舉措,更是我們構建AI技術棧的重要一步。我們將秉持"實現通用人工智能,讓每個人更好地塑造和表達自我"的使命,從模型層、應用層等全方位、多維度來構建公司技術競爭力和生態矩陣。