與OpenAI o1技術理念相似,TDPO-R算法有效緩解獎勵過優化問題|訓練

  • 論文鏈接:https://openreview.net/forum?id=v2o9rRJcEv

  • 代碼鏈接:https://github.com/ZiyiZhang27/tdpo

TDPO-R 在強化學習算法中引入了時間差分獎勵機制,對文生圖擴散模型的每一步生成過程提供細粒度的反饋,從而有效緩解了在擴散模型對齊時常見的獎勵過優化問題。這項研究證實了細粒度獎勵機制在擴散模型對齊中的關鍵性,而 o1 的最新技術同樣揭示了這一機制在大模型領域中的廣泛應用前景,有望推動生成模型在多樣化、復雜任務中的持續發展與優化。

擴散模型(Diffusion Model)作為一種先進的生成式模型,通過學習并模擬自然界中的擴散過程來合成新數據,尤其在生成高質量逼真圖像方面相較于其他模型架構具有顯著優勢。因此,盡管近年來也有基于 GPT 等其它架構的優秀圖像、視頻生成模型不斷涌現,基于擴散模型的架構依然是當前大多數圖像、視頻生成任務的主流選擇。

近期,為了確保生成的圖像能夠符合下游任務目標以及用戶偏好,許多研究者開始探索如何對預訓練擴散模型進行獎勵或偏好驅動的微調訓練 —— 這就是所謂的擴散模型對齊(Diffusion Model Alignment)。目前,最流行的對齊方法之一便是源于大語言模型領域的一項常用技術 —— 基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF),即以強化學習方式依據人類反饋來不斷地對已有的預訓練模型參數進行迭代優化。

另外,也有其它一些不涉及強化學習的對齊方法,但它們大多也都需要以特定獎勵函數作為優化目標,即將所對齊的下游任務目標(如圖像美學質量、文圖一致性等)構建為一個獎勵函數 / 模型,并以最大化該獎勵函數為目標對擴散模型進行迭代優化。還有一些方法,比如直接偏好優化(Direct Preference Optimization,DPO),雖然不顯式地使用獎勵函數來對齊模型,但其所采用的訓練數據本身往往也隱含了某種獎勵標準,間接引導模型朝著某種期望的目標優化。

擴散模型對齊中的獎勵過優化?

由于受獎勵目標驅動,這些擴散模型對齊方法常常面臨一個核心挑戰 —— 獎勵過優化(Reward Overoptimization),即經過微調后的模型可能會過度偏向于某一獎勵目標,導致生成的圖像喪失個性化和多樣性、視覺保真度降低,最終偏離人類真實的審美偏好。如上圖所示,當我們使用美學分數(Aesthetic Score)獎勵模型,對 Stable Diffusion v1.4 模型進行對齊微調時,“獎勵過優化” 這一現象在生成圖像上肉眼可見為:圖像風格趨于統一、與文本提示詞的匹配度下降。

如何更加通俗地理解獎勵過優化問題?想象你是一位學生,目標是通過考試拿到高分。你的老師設計了一套嚴格的評分標準(就像是獎勵模型),目的是測試你的知識深度和理解能力。這套標準非常全面,涵蓋了大量的知識點和難題,理論上應該能夠準確衡量你的學習水平。

然而,你發現了一些 “捷徑”:考試中雖然有很多問題,但也有著某些 “答題套路”,比如背誦標準答案,或者用某些關鍵詞和答題模板。于是你并不真正花時間理解知識,而是把大量時間用在研究考試技巧上,專注于如何根據評分標準去 “迎合” 考試。結果,你每次考試都能拿到高分(就像模型獲得了高獎勵),但實際上你對知識的理解很膚淺。老師看到你的分數,誤以為你學得非常好,但你自己知道,雖然分數高了,但你并沒有真正掌握知識,甚至可能過于執著答題模板而錯誤地理解了一些問題,換另一位老師出題的話便可能原形畢露。

如何對獎勵過優化問題進行定量分析?TDPO-R 算法的研究者發現,當擴散模型過度優化某一特定獎勵函數時,其在域外獎勵函數上的泛化能力隨之下降。這種現象可以通過定量分析表現為:在以某一獎勵函數為優化目標時,采用其他域外獎勵函數(即不同于優化目標的獎勵標準)對生成樣本進行評分,會發現隨著目標獎勵逐漸上升,域外獎勵評分的增長速度明顯放緩,甚至出現域外評分逐漸下降的情況。這表明,模型在一個特定獎勵函數上取得高分時,可能會以犧牲其在其他任務上的表現為代價,最終導致生成質量的不平衡。因此,研究者采用了這種跨獎勵泛化度量,來定量地對比不同算法的獎勵過優化程度。

研究者進一步指出,相較于基于監督學習的方法,基于強化學習的擴散模型對獎勵過優化問題表現出更高的抗性。這是因為強化學習能夠根據生成過程中的反饋信號不斷調整策略,避免模型在單一目標上過度擬合。然而,這種抗性并非完全免疫。強化學習的這種優勢往往是以犧牲樣本效率為代價,即需要許多的樣本和訓練時間來達到較為平衡的效果。因此,在設計新的擴散模型對齊方法時,必須在提高樣本效率緩解獎勵過優化之間做出權衡。

受到深度強化學習理論的啟發,研究者首先從擴散模型對齊中的歸納偏置角度出發,分析了加重獎勵過優化的潛在因素。歸納偏置(Inductive Bias)指的是機器學習算法在從有限的訓練數據中學習時,基于特定假設提煉出的一般性模式。在深度強化學習的背景下,算法所采用的歸納偏置與其解決任務的契合程度,直接影響模型的泛化能力。簡單來說,如果模型的偏置過于集中在某個特定目標上,就容易在泛化到新任務時出現問題。

然而,現有的擴散模型對齊方法往往過度依賴稀疏獎勵 —— 也就是只根據最終生成圖像的質量進行優化。這種做法隱含著一種假設,即最終圖像的質量是最重要的評估標準,忽略了生成過程中的中間步驟(即每一步的去噪圖像)。模型只在最后一步表現良好時被獎勵,導致訓練過程中沒有充分利用多步去噪過程中的中間信息,而這部分信息恰恰包含了對生成過程的更細粒度反饋。因此,這種忽略中間步驟的做法,實際上引入了一種錯位的歸納偏置 —— 即模型在訓練時過于注重終極輸出的獎勵信號,而忽視了去噪過程中可能幫助模型提高質量的階段性信號。這種偏置錯位便是加重獎勵過優化的潛在因素之一。

為了更好理解這種偏置錯位,可以結合之前老師與學生的比喻:想象你是一名學生,你的老師只根據期末考試的成績來評價你整個學期的表現(類似于稀疏獎勵)。這種情況下,學生的學習過程(就像擴散模型中的中間去噪過程)沒有被重視或衡量,學生很容易找到捷徑(如通過背題庫而非理解知識)來獲得高分。這就類似于模型在訓練中通過某種捷徑,在最后生成的圖像中獲得高分,而忽視了生成過程中的細節和圖像質量的演變。

然而,如果老師在整個學期中對你的每一次小測驗、作業、甚至課堂表現都進行細粒度的評分和反饋(相當于細粒度獎勵),那么你在每一步的學習過程中都會受到監控和指導。你無法依靠最后的考試來蒙混過關,必須在每個階段都真正掌握知識。這與擴散模型對齊時類似,細粒度獎勵機制能夠讓模型在每個生成步驟中都得到反饋,避免模型通過過度優化某一單一目標(如最終圖像質量)來走捷徑,確保生成過程中的每一步都保持質量和一致性。

TDPO-R 算法

面對以上問題,TDPO-R 通過引入時間差分獎勵機制,為擴散模型的每一步去噪操作提供實時的獎勵反饋,從而修正這種偏置錯位,緩解獎勵過優化問題。這種獎勵機制將擴散過程中的每個時間步視為一個馬爾科夫決策過程中的狀態,模型在每一步的動作(即去噪操作)后,都會獲得相應的獎勵值。為了降低時間差分獎勵函數的學習成本,TDPO-R 通過一個時間差分評判器(Temporal Critic)來近似估計每個時間步的獎勵。這一評判器通過強化學習的方式與擴散模型一齊同步進行訓練,逐步學習如何為每個時間步估算合適的獎勵。具體來說,模型在每個時間步 t 做出去噪操作后,評判器會基于當前狀態(中間去噪圖像)與目標狀態的差異,給出即時獎勵反饋。

在策略更新時,TDPO-R 采用類似于策略梯度(Policy Gradient)的方法。特別是,得益于時間差分獎勵機制提供了每個時間步的即時反饋,TDPO-R 在擴散模型去噪的每一步都可以立即進行策略更新,而無需等待所有步驟結束。這種即時更新讓模型能夠及時修正去噪過程中出現的偏差,避免問題在后續步驟中積累。同時,由于每一步都進行即時更新,模型可以在更短的時間內獲得更好的優化效果,減少了傳統全局更新方式下的延遲和不必要的計算開銷,提高了訓練的樣本效率。?

接著,從首要偏置(Primacy Bias)的角度出發,TDPO-R 的研究者進一步分析了獎勵過優化的問題。首要偏置描述的是深度強化學習模型在訓練中傾向于過度擬合早期的訓練經驗,從而影響后續訓練階段的優化效果的一種現象。他們發現,在擴散模型的對齊任務中,首要偏置與獎勵過優化也有著密切的聯系,特別是當模型在訓練過程中過度傾向于某個早期的策略時,后續的生成質量可能會出現下降。

為了深入理解首要偏置與獎勵過優化之間的關系,研究者引入了神經絡中神經元激活狀態的概念。通常,深度神經絡中的神經元可以處于兩種狀態:

  • 活躍神經元:在訓練過程中頻繁被激活的神經元,通常與當前任務的主要模式相關。

  • 休眠神經元:在訓練中很少被激活的神經元,通常被認為對當前任務貢獻較少,甚至被認為會阻礙模型的學習能力。

在以往的研究中,活躍神經元往往被視為是模型的核心,因為它們反映了模型對當前數據的主要適應能力。而休眠神經元則通常被認為是冗余的或不必要的,因為它們沒有參與主要的學習過程。

而在 TDPO-R 的研究中,研究者驚訝地發現,休眠神經元實際上在應對獎勵過優化方面起到了重要作用。具體而言:

  • 活躍神經元更易受到首要偏置的影響:由于活躍神經元頻繁參與早期訓練任務,它們傾向于過擬合早期的學習模式。因此,這些神經元在模型的優化過程中可能會過度強化某一特定獎勵目標,導致獎勵過優化問題的加劇。例如,模型可能因為過度優化早期階段的獎勵信號,導致后續的生成結果表現不佳,甚至在其他獎勵函數上的泛化能力下降。

  • 休眠神經元作為自適應正則化手段:與活躍神經元相反,休眠神經元由于較少參與訓練任務,反而可以作為一種對抗獎勵過優化的自適應正則化手段。這是因為,休眠神經元的低激活狀態意味著它們沒有過度依賴早期的獎勵信號,從而在模型后期的訓練中可以起到平衡的作用。另外,它們還能夠提供一種類似于 “潛力儲備” 的功能,在獎勵函數發生變化或模型過擬合早期獎勵信號時,休眠神經元可以重新被激活,以補充模型的適應能力,增強模型的泛化性能。

為了應對首要偏置,TDPO-R 引入了一種神經元重置機制。這種機制通過定期重置模型中的活躍神經元,將其恢復到類似 “休眠” 狀態,從而打破首要偏置的影響,重新激發模型的學習能力。具體來說:

  • 周期性神經元重置:在訓練過程中,TDPO-R 會定期對評判器(critic)模型中過度活躍的神經元進行重置,降低它們的激活頻率,從而打破它們在早期階段對特定獎勵信號的過擬合。通過這一操作,模型可以避免過度強化某一獎勵目標,確保生成過程的多樣性和泛化能力。

  • 重新激活休眠神經元:隨著活躍神經元被重置,模型的其他神經元,包括那些此前處于休眠狀態的神經元,會被激活,以參與新的學習任務。這種神經元的 “輪替” 確保了模型的學習能力不會因為早期訓練經驗的固定化而受到限制,從而緩解了獎勵過優化的問題。

實驗評估 —— 跨獎勵泛化度量

研究者使用提出的 TDPO-R 對 Stable Diffusion v1.4 模型進行微調訓練,并采取不同文本提示詞集和獎勵函數進行評估實驗。為了更直觀地展現跨獎勵泛化度量的效果,研究者通過圖表展示了在優化某一特定目標獎勵函數(如 Aesthetic Score)時,模型在其他多種獎勵函數(如 ImageReward、HPSv2 和 PickScore)上的得分如何變化。如上圖所示,其中每幅圖表的橫坐標代表訓練保存的中間模型在目標獎勵函數上的得分,而縱坐標代表對應的中間模型在域外獎勵函數上的得分。通過這些圖表,可以清楚地觀察到 TDPO-R 和其他擴散模型對齊方法(如 DDPO 和 AlignProp)在跨獎勵泛化能力上的差異。

在泛化較差的目標獎勵函數(如 Aesthetic Score)上,TDPO-R 能夠保持域外獎勵函數的得分沒有顯著下滑,而其它方法則表現為明顯的下降趨勢;而在泛化較好的目標獎勵函數(如 HPSv2 和 PickScore)上,TDPO-R 能夠使域外獎勵函數的得分更快地上漲。這表明 TDPO-R 在優化特定目標時,展現出更強的跨獎勵泛化能力,有效緩解了獎勵過優化的問題。

除了定量指標的對比,研究者還通過可視化圖像樣本的對比展示了 TDPO-R 相較于其他方法的優勢。如下圖所示對比了 TDPO-R 與其他方法,皆將目標獎勵函數(Aesthetic Score)的得分提升至同一臨界值時所生成的樣本圖像。可以看出,在其它方法中,不同文本提示詞對應的圖像樣本風格趨同,尤其是在光線、色調和構圖風格方面,缺乏多樣性,甚至還存在圖像失真的情況。相比之下,TDPO-R 不僅能夠生成更具視覺自然感和細節保真的圖像,還保留了風格的多樣性,具有更平衡的美學表現,直觀地體現了 TDPO-R 緩解獎勵過優化的有效性。

如下圖所示,在生成包含復雜場景描述的圖像時,其它方法存在圖像細節不準確的問題,忽略了關鍵的語義元素(如物體的數量、類型以及場景地點等),表現出典型的文圖語義不一致問題。而 TDPO-R 生成的圖像不僅視覺豐富,還能夠準確反映文本描述的內容。這體現了 TDPO-R 的跨任務泛化能力,即在提升圖像美學表現的同時,還能夠有效保留文圖的語義一致性。

除了上述實驗結果之外,研究者還展示了其他一些主要實驗內容,包括 “算法樣本效率對比”、“對未見提示詞的泛化能力”、“神經元狀態的影響” 以及 “應對過優化的其它替代策略” 等方面。對于這些補充實驗以及 TDPO-R 方法的許多技術細節,感興趣的讀者可以參閱論文原文進一步了解。

? 版權聲明
評論 搶沙發
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender