久久综合久久鬼色中文字,亚洲最新无码中文字幕久久,中文字幕色婷婷在线视频,国产精品高潮久久久久无

網校課程

移動資訊

掃一掃
關注網校頭條
掌握一手資料
免費試聽
  • 今天
    簡單學習網小學語文

    今日 免費試聽

    立即試聽
  • 今天
    簡單學習網小學數學

    今日 免費試聽

    立即試聽
  • 今天
    簡單學習網小學英語

    今日 免費試聽

    立即試聽
  • 今天
    簡單學習網小學全科

    今日 免費試聽

    立即試聽
  • 今天
    簡單學習網小學試聽課程送大禮

    今日 免費試聽

    立即試聽
  • 今天
    新東方在線小學語文

    今日 免費試聽

    立即試聽
  • 今天
    新東方在線小學數學

    今日 免費試聽

    立即試聽
  • 今天
    新東方在線小學英語

    今日 免費試聽

    立即試聽
  • 今天
    新東方在線小學實驗班

    今日 免費試聽

    立即試聽
  • 今天
    新東方在線小學試聽課程送大禮

    今日 免費試聽

    立即試聽
開課流程: 注冊會員 → 免費試聽 → 選課報名 → 支付學費 → 再登陸聽課

您現在的位置:網校頭條 > 小學 > 清華大學提出統一對齊算法 IFT,將 SFT 與 RLHF 合二為一

清華大學提出統一對齊算法 IFT,將 SFT 與 RLHF 合二為一

來源:網校頭條網絡整理 2024-06-02 20:12:53

作者 | 謝年年

有監督微調(Fine-SFT)和基于人類反饋的強化學習(來自Human,RLHF)是語言模型在預訓練之后提升能力的兩個基本過程,其目標都是讓模型更加貼近人類的偏好和需求。

由于監督微調的效果有限,以及RLHF的高數據和計算成本,兩種方法經常結合使用。但由于損失函數、數據格式以及對輔助模型的需求不同,兩種方法之間存在范式鴻溝,只能通過串聯的方式實現模型訓練。

清華大學近期提出將 SFT 與 RLHF 合二為一,并引入了統一的對齊算法——直覺微調(IFT),該算法以類人的方式直觀地構建策略偏好估計,讓模型在看到問題后對完整答案有一個模糊的感知。與 SFT 相比,IFT 更貼近真實的策略偏好,因此性能與 SFT 與 RLHF 的組合相當甚至更好。

相比于SFT+RLHF,RLHF僅依賴正樣本和單一策略,從預先訓練的基礎模型開始對齊,大大提高了計算效率,降低了訓練成本。

IFT不需要額外的數據收集或處理,其效率僅次于SFT,并且表現出與其他對齊算法相當甚至更好的性能,這使得IFT在偏好數據難以獲得或成本昂貴的領域極為實用。

論文標題:

精細:SFT 和 RLHF 合并成

論文鏈接:

先決條件

為了對 SFT 和 RLHF 有更深入和統一的理解,作者嘗試通過在馬爾可夫決策過程 (MDP) 框架下定義偏好估計和狀態-動作對優化來解釋 SFT 與 RLHF 之間的異同。

馬爾可夫決策過程

馬爾可夫決策過程(MDP)在語言建模中的應用可以簡潔地描述為五元組。其中, 是詞匯有序排列形成的狀態空間, 是基于分詞器定義的詞匯動作空間。 是轉換矩陣,描述從一個狀態轉換到另一個狀態時生成特定詞匯的概率。 表示在特定狀態下執行動作后獲得的獎勵,基于給定指令的初始狀態分布。

語言建模的核心目標是訓練一種策略,其對應的轉移矩陣就是模仿人類策略的轉移矩陣,使得二者變得完全一致:

該過程也可以用狀態到狀態的轉換矩陣來表示,其中等同于,但表示從一個狀態到另一個狀態的轉換概率:

偏好估計

當給出初始指令時,您可以將策略偏好定義為地圖:

在對齊階段,模型偏好逐漸接近人類偏好:

由于真實偏好難以獲取,通常通過模型與人為的偏好估計進行對齊。為了使得偏好可優化,各策略的偏好也可以表示為:

這里, 表示由初始狀態定義的條件狀態空間,因此可以通過轉移矩陣來優化模型偏好。這種方法稱為 。下面詳細描述這個過程。

理想情況下,我們希望在受限狀態空間中保持模型和人類的狀態-動作轉移矩陣一致:

這相當于狀態-狀態轉換矩陣表示的以下格式:

但是,由于數據有限,只有表示數據集中包含的狀態-動作/狀態-狀態對的矩陣元素才會對齊。給定一個具有指令和答案長度 N 的目標樣本,目標是:

這也相當于:

其中,初始狀態對應,最優變換矩陣與初始狀態下的模型都有值1,因此可以通過對比模型與人類的變換矩陣的差異,推導出損失函數。

從 SFT 到 RLHF

根據上述框架,本文對SFT、PPO和DPO進行了重新表述,具體形式如下表所示:

更易于理解的版本如下所示:

圖中的符號*和θ分別代表人類和模型。其中,。與PPO和DPO相比,SFT采用了偏離模型分布的先驗,導致對模型偏好的估計有更大的偏差。IFT利用臨時殘差連接,在保持SFT的數據和計算效率的同時,實現了比SFT更接近的估計。

為了比較它們的區別,我們首先引入一個基本定理和推論:

定理:對于一組事件 Z,任何事件 z ∈ Z 的概率都在 0 和 1 之間。如果所有事件都是獨立的,則它們的概率總和為 1,最可能發生事件的概率大于或等于任何其他事件的概率:

作為一種概率估計模型,可以推斷語言模型傾向于將更高的概率分配給其自身的一致預測,而不是人類的偏好。也就是說,給定相同的初始指令,語言模型傾向于將更高的概率分配給其自己的生成內容,而不是目標答案。

雖然 SFT 提供了對人類偏好的無偏估計,但對模型來說,這是一個有偏估計。這是由于在預測每個后續 token 時使用了錯誤的先驗狀態造成的。SFT 的狀態轉換優化目標是:

但這會導致在對齊過程中高估模型的轉移概率和偏好,從而影響SFT的優化過程,因此需要使用RLHF進行進一步的偏好校準。

PPO 對模型偏好進行了無偏估計,同時對人類偏好進行了逐步無偏估計:

最初,這種估計是有偏差的,但隨著模型隨著時間的推移越來越符合人類的偏好,它變得越來越無偏。因此,與 SFT 相比,PPO 在模型優化中提供了更現實的過渡:

DPO 理論上在所有情況下都能提供最佳估計,即使沒有獎勵建模也是如此。然而,獲取在線成對偏好數據的成本很高,因為需要實時從模型中獲取負樣本并由人工標記。因此,主流實現通常依賴于優化模型之外非同分布的非負樣本,這會導致偏好估計有偏差和過渡優化不足,從而導致結果不穩定且次優。

提出新方法

SFT雖然在數據和計算上都較為高效,但在偏好估計和轉移優化上近似效果較差。而以PPO和DPO為代表的RLHF在近似效果上則更好,但這是以構建偏好數據為代價的。因此本文將結合兩者的優勢,提出——直觀的偏好估計。

直觀的偏好估計

SFT 和 RLHF 之間的關鍵區別在于是否針對每個初始指令對模型偏好分布進行采樣。與 RLHF 不同清華大學最近事件,SFT 中用于先前目標答案的中間狀態可能遠離模型偏好,從而導致結果較差。

為了得到更加接近模型偏好的狀態估計,作者引入了基于模型的分布式擾動函數來修正有偏差的狀態:

這也可以理解為時間上的殘差連接。這樣,模型不僅可以根據目標答案的中間狀態預測下一個 token,還可以僅根據初始指令就對整個答案生成形成直觀的理解,從而得到更準確的偏好估計:

動態關系傳播

通過改進的偏好估計,可以實現更接近原始目標的過渡優化過程:

這可以使用量化模型和人類之間差異的損失函數進行優化:

與SFT相同,對于目標的每一個中間狀態網校哪個好,優化目標的概率為1。因此,損失函數可以重寫為:

這使得并行實現更加容易,并且該損失函數優化后的目標在策略在線學習時隱式滿足貝爾曼方程,保證了優化過程更接近RLHF,也保證了優化目標不僅能體現當前token的預測準確率,還能考慮當前選擇對后續生成的影響,幫助模型對生成有直觀的理解,以及更好的因果關系和事實遵從性。

實驗實驗設置

本文選取-200k作為單目標數據集,-60k作為配對數據集,在-7B-v0.1基礎模型和在-200k上微調的-7B-sft-beta版本上進行實驗。

考慮兩種訓練場景:一、僅使用 RLHF 進行訓練;二、先使用 SFT 再使用 RLHF 進行順序訓練。第一種場景中,直接使用基礎模型 -7B-v0.1 進行比對,并從中隨機提取 60k 數據來補充 SFT 和 IFT,兩者都僅使用目標數據。第二種場景更常見:-7B-sft-beta 先使用 SFT 進行微調,然后再使用已在 SFT 上進行微調的 RLHF 進行進一步微調。

所使用的評估基準是廣泛使用的 Open-LLM 和基于語言模型的評估,包括 -Eval 和 -Eval-2。

實驗結果與分析

實驗結果如下:

在基于 LLM 的基準上。在順序訓練場景中,SFT+DPO 仍然獲得最高分,而 IFT 表現略差。然而,當直接從基礎模型改編時,IFT 不僅表現良好,而且與順序方法相當。這表明 IFT 以最少的數據和計算資源取得了良好的結果。

在開放LLM排行榜的聊天模板評測中,使用相同的參數調優方法,IFT取得了所有方法中最高的平均分;直接使用IFT進行比對所需的數據和計算資源最少,但在所有方法中卻表現出最好的性能。

IFT 更擅長生成任務

從以上實驗結果中作者還發現,在Open-LLM基準中,IFT在生成任務上表現更佳,但在多項選擇任務上表現相對較弱;相反清華大學最近事件,DPO在多項選擇任務上表現更佳。

這種差異可能源于兩個任務的評價指標不同,以及IFT與DPO的訓練目標不同。選擇任務通過評估模型對每個完整正確答案的可能性來衡量性能,而生成任務則要求模型根據token構建最終答案,更能體現因果關系和推理能力。

DPO 注重指令與完整答案之間的映射,而 IFT 則強調 token 之間的因果關系,因此在需要模型逐個 token 探索的生成任務中表現更佳。在多項選擇題等分布映射任務中,DPO 表現更佳。

考慮到這一點,作者將其轉換為 ARC- 中的生成任務,其中問題和候選答案會提前顯示,然后從模型生成中提取答案。在不改變基準分布的情況下,IFT 在這種設置下顯示出優勢。總體而言,IFT 在不同任務之間保持了最佳平衡,并獲得了最高平均分數。

SFT+RLHF 比單獨使用 SFT 更糟糕

傳統的RLHF方法在提升指令跟隨能力方面表現良好,但采用SFT+RLHF的順序訓練方法需要更多的超參數權衡,因此該方法表現明顯較差,甚至不如單獨使用SFT。ORPO和IFT通過直接在基模型上對齊,避免了超參數權衡,從而取得了更好的性能。

IFT 的效率和擴展潛力

IFT 不僅在性能上超越其他方法,而且在很多方面都體現了它的高效性。與 SFT 和 ORPO 類似,IFT 不依賴于參考模型,從而大大節省了 GPU 內存和計算資源。

值得一提的是,IFT 和 SFT 是目前唯一兩種不需要偏好數據進行對齊的方法。這一特點帶來了諸多好處:減少了對偶數據同步存儲和計算對 GPU 的壓力,減少了內存消耗和訓練時間;同時省去了生成負樣本和標注偏好標簽的繁瑣過程,大大降低了對齊成本。此外,IFT 僅依賴目標答案進行對齊,為流程擴展提供了可能,也進一步凸顯了預訓練技術的核心優勢。

Ice Lake 環境測試

-Lake 是一個經典的強化學習環境,通常用于演示和測試強化學習算法。在這個環境中,代理試圖在幾乎結冰的湖面上尋找禮物,當代理找到禮物或掉進洞里時,游戲就結束了。有限的狀態和動作數量使得使用經典強化學習方法很容易得出最優策略。

為了模擬參數化策略的對齊,作者使用了兩層全連接神經網絡,并設計了一個具有最優和次優軌跡的環境。使用之前獲得的最優狀態動作概率訓練最優參數化策略,然后比較語言模型中的各種微調方法。通過計算最優和訓練后的策略參數之間的均方誤差 (MSE) 距離來評估性能。

實驗結果表明,IFT 在優化方面的表現明顯優于 SFT 和 ORPO,但略遜于 DPO。這主要歸因于探索網格與代理的偏好一致:DPO > IFT > ORPO > SFT。雖然 ORPO 考慮了從策略中采樣的負軌跡,但將其直接集成到 SFT 損失中并使用融合系數在一定程度上削弱了其效果。相比之下,DPO、ORPO 和 IFT 探索的網格更寬,這有助于代理更深入地理解環境。

結論

本文首先將 SFT 和一些典型的 RLHF 方法解釋為一個統一的框架,即偏好估計和過渡優化。然后,我們提出了一種高效且有效的方法 IFT,它直接從基礎模型開始,使用沒有偏好標簽的數據實現對齊。

通過實驗可以看出,IFT能夠以更少的資源和成本取得與其他方法相當甚至更好的效果,為預訓練技術的發展提供了一種新的思路。

名師輔導 環球網校 建工網校 會計網校 新東方 醫學教育 中小學學歷

?

星級網校推薦

排行推薦 頻道最新
主站蜘蛛池模板: 崇州市| 桐城市| 安远县| 榕江县| 黄骅市| 淮南市| 金山区| 唐山市| 拉萨市| 修武县| 博爱县| 环江| 汉源县| 鄂托克前旗| 民县| 弋阳县| 汉源县| 嫩江县| 于都县| 兖州市| 托克逊县| 信丰县| 金乡县| 新巴尔虎右旗| 克东县| 北票市| 灵璧县| 辛集市| 巴南区| 屏东市| 山阳县| 锡林郭勒盟| 鄯善县| 朝阳县| 华宁县| 师宗县| 高尔夫| 青铜峡市| 霸州市| 子洲县| 淳化县|