【技術解析】Qwen 團隊的 FIPO:讓強化學習真正理解「哪一步推理重要」
強化學習訓練推理模型時,每個 token 收到相同的 reward——等於說「逗號」和「關鍵突破」的價值一模一樣。Qwen 團隊提出 FIPO,用「未來影響力」重新分配獎勵,無需輔助價值模型即可突破推理鏈長度的瓶頸。
這篇文章在說什麼
當你用強化學習訓練推理模型時,典型的做法是:讓模型生成一個完整的推理鏈,最後得到一個簡單的對/錯信號。這個 reward 然後平均分配給鏈中的每一個 token——無論是逗號還是關鍵突破,價值一模一樣。
這就是推理模型用 GRPO 這類方法訓練時,推理鏈長到一定程度就停止生長的根本原因。Qwen 團隊提出了 FIPO(Future-KL Influenced Policy Optimization),核心思想是:不是評估每個 token 本身的價值,而是評估它對「此後所有 token 的概率分佈」的影響程度。
為什麼重要
強化學習應用於推理模型的瓶頸,不是演算法不夠好,而是獎勵分配機制不夠細緻。
當推理鏈中每個決策點都收到同樣的信號時,模型沒有動機去「深思熟慮」——反正多走一步和少走一步沒有區別。這個問題在 GPT 時代就存在,但當推理模型(o1、DeepSeek-R1)開始用很長的思維鏈來提升準確率時,這個瓶頸變得尖銳化了。
FIPO 試圖解決的,正是「如何在不引入額外輔助模型的情況下,讓強化學習的信號更精準地指向關鍵推理步驟」。
技術細節
現有方法的問題
大多數試圖改善獎勵分配的方案都基於 PPO(Proximal Policy Optimization),需要一個單獨的價值模型(value model)來估計每個 token 的長期價值。但這個價值模型需要先用很長的思維鏈數據進行預訓練,這會引入外部假設,讓你無法確定性能提升是來自演算法本身還是預訓練幫助。
FIPO 的核心
FIPO 的計算方式:對於每個生成的 token,計算「在生成這個 token 之後,模型對所有後續 token 的概率分佈發生了多大變化」。如果一個 token 讓模型對正確推理路徑的置信度大幅提升,它就應該拿到更大的獎勵份額;如果它把模型帶向了死胡同,就應該得到負獎勵。
關鍵是:這個計算不需要任何輔助模型,只需要追蹤策略模型本身在不同訓練步驟之間的概率分佈變化。
穩定性機制
研究團隊發現,沒有保護的 FIPO 訓練在大約第 70 步時會崩潰——訓練開始偏離,response length 驟降。為了解決這個問題,FIPO 加入了兩個穩定性機制:
- Discount factor(折現因子):遠離的 token 的影響權重更低,因為它們的未來影響更難預測
- 極端值過濾:當模型在連續訓練步驟之間偏離太遠時(例如 drift 過大),過濾掉該 token,不給它分配獎勵
實驗結果
團隊在 Qwen2.5-32B-Base(從未接觸過合成長思維鏈數據的模型)上測試 FIPO,僅使用公開的 DAPO 數據集。在 AIME-2024 benchmark 測試中,FIPO 的表現與 DeepSeek-R1-Zero 和 o1-mini 持平或更優,同時推理鏈長度加倍。
我的觀點
FIPO 最讓我認同的洞察,是它指出了「均勻 reward 分配」和「推理鏈停滯」之間的因果關係。在我看來,這個問題之所以長期存在,是因為它不是在「訓練演算法」層面,而在「對推理任務的結構性假設」層面:我們預設了「每一個推理步驟的價值是等價的」,但對推理這種需要深度探索的任務來說,這個假設從一開始就是錯的。
不過我也要指出,FIPO 的實驗目前只在 AIME(數學競賽)上驗證,推理任務的「正確答案」是明確定義的。對沒有客觀標準的推理任務(例如「這段文字更有說服力嗎」),FIPO 的「未來影響力」定義是否依然有意義,還需要更多研究。
參考連結
- Alibaba Qwen team makes AI models think deeper (The Decoder)
- FIPO (Future-KL Influenced Policy Optimization) - arXiv