【技術解析】Qwen 團隊的 FIPO：讓強化學習真正理解「哪一步推理重要」

這篇文章在說什麼

當你用強化學習訓練推理模型時，典型的做法是：讓模型生成一個完整的推理鏈，最後得到一個簡單的對/錯信號。這個 reward 然後平均分配給鏈中的每一個 token——無論是逗號還是關鍵突破，價值一模一樣。

這就是推理模型用 GRPO 這類方法訓練時，推理鏈長到一定程度就停止生長的根本原因。Qwen 團隊提出了 FIPO（Future-KL Influenced Policy Optimization），核心思想是：不是評估每個 token 本身的價值，而是評估它對「此後所有 token 的概率分佈」的影響程度。

為什麼重要

強化學習應用於推理模型的瓶頸，不是演算法不夠好，而是獎勵分配機制不夠細緻。

當推理鏈中每個決策點都收到同樣的信號時，模型沒有動機去「深思熟慮」——反正多走一步和少走一步沒有區別。這個問題在 GPT 時代就存在，但當推理模型（o1、DeepSeek-R1）開始用很長的思維鏈來提升準確率時，這個瓶頸變得尖銳化了。

FIPO 試圖解決的，正是「如何在不引入額外輔助模型的情況下，讓強化學習的信號更精準地指向關鍵推理步驟」。

技術細節

現有方法的問題

大多數試圖改善獎勵分配的方案都基於 PPO（Proximal Policy Optimization），需要一個單獨的價值模型（value model）來估計每個 token 的長期價值。但這個價值模型需要先用很長的思維鏈數據進行預訓練，這會引入外部假設，讓你無法確定性能提升是來自演算法本身還是預訓練幫助。

FIPO 的核心

FIPO 的計算方式：對於每個生成的 token，計算「在生成這個 token 之後，模型對所有後續 token 的概率分佈發生了多大變化」。如果一個 token 讓模型對正確推理路徑的置信度大幅提升，它就應該拿到更大的獎勵份額；如果它把模型帶向了死胡同，就應該得到負獎勵。

關鍵是：這個計算不需要任何輔助模型，只需要追蹤策略模型本身在不同訓練步驟之間的概率分佈變化。

穩定性機制

研究團隊發現，沒有保護的 FIPO 訓練在大約第 70 步時會崩潰——訓練開始偏離，response length 驟降。為了解決這個問題，FIPO 加入了兩個穩定性機制：

Discount factor（折現因子）：遠離的 token 的影響權重更低，因為它們的未來影響更難預測
極端值過濾：當模型在連續訓練步驟之間偏離太遠時（例如 drift 過大），過濾掉該 token，不給它分配獎勵