告別 Next-token,現在模型微調階段就能直接多 token 預測!
從 GPT 到 Claude,當前主流 LLM 都依賴next-token prediction(下一 token 預測)進行訓練,但它卻讓 AI 很難真正理解跨越多 token 的完整概念。
于是南洋理工大學最近提出了一項新技術——概念感知微調(CAFT),首次實現將multi-token prediction(多 token 預測)引入微調階段,讓模型能夠像人類一樣理解和學習完整概念。
最終 LLM 可以兼顧多 token 概念學習,形成更為完整的認知,在推理和生成能力增強的同時,既不會影響模型本身,也不會額外增加多余成本。
下面是有關 CAFT 的更多詳細內容。
Next-token 預測:AI 的 " 基因密碼 "
首先,next-token prediction的基本思想是在已知上下文的基礎上,預測最有可能的下一個 token。
舉個例子,針對句子 " 人工智能將改變 _",你可能會直接預測出 " 世界 "、" 未來 " 或 " 社會 ",但是 next-token prediction 的預測流程則分為以下三步:
分詞:例如將 " 人工智能 " 拆分為 " 人工 " 和 " 智能 "。
序列建模:讓模型逐個學習每個 token 與其前文的關系。
概率預測:為所有候選 token 分配概率,并選擇最高者作為輸出。
Next-token 將會在預訓練里的大規模語料上學習語言統計規律與通識知識,然后在微調中通過特定任務數據學習具體行為模式,決定模型實際表現。
但無論是預訓練還是微調,next-token prediction 都只會在每一步中只預測下一個 token,再依次進行。
與此同時,這也帶來了一個根本性缺陷,即它將完整概念拆解為碎片,阻礙模型形成整體認知。
例如 "ribonucleic acid"(核糖核酸),Llama 3 分詞器就會將其拆解為:"rib" → "on" → "ucle" → "ic" → "acid",當模型預測 "rib" 時,無法預見 "onucleic acid",因此無法理解這是一個生物學分子概念。
又比如說將 " 北京大學 " 拆成 " 北 "、" 京 "、" 大 "、" 學 " 分開記憶,這嚴重破壞了語義完整性。
所以 next-token prediction 存在前瞻能力差、不擅長處理跨概念的復雜推理、學習效率低、結果高度依賴具體分詞器等問題。
預訓練成本過大,是微調階段的上千倍。
僅能提升通用語言能力,對具體概念理解幫助有限。
直接應用于微調時會造成分布偏移,從而導致性能下降。
這讓 multi-token prediction 只適用于預訓練階段,難以普及,所以研究團隊提出了新技術 CAFT,將 multi-token prediction 引入微調。
CAFT:打破瓶頸的概念感知微調方法
CAFT在架構上主要包括輔助頭、損失函數兩部分,輔助頭含獨立隱藏層,且共享輸出層,以降低參數成本,損失函數為:
在微調結束后,還可以直接丟棄輔助頭,讓推理開銷為零。
輔助頭預訓練
在原模型上添加 n-1 個輔助預測頭,然后使用通用指令數據集訓練輔助頭,分別預測第 2、3、4 …個未來 token。
其中需要使用原模型自己生成的回答作為 " 偽標簽 ",避免分布偏移,且輔助頭訓練一次即可,多任務可通用復用。
概念感知微調
在特定任務上同時優化原始預測頭和輔助頭,然后用特殊設計的損失函數確保主目標仍是第一個 token。
利用動態權重調整策略,訓練初期關注多 token 概念學習,后期聚焦任務表現。
CAFT 的全面驗證:從代碼到生命科學
研究團隊在五個不同領域任務上測試了 CAFT,將其與傳統的 next-token 微調(包括全量微調與 LoRA 微調)進行對比。
所有結果均為 5 次獨立評估的平均值及 95% 置信區間,部分任務在微調前會對輔助頭進行 1 個 epoch 的預訓練。
在數學推理上,LoRA CAFT 在MATH-500 數據集里性能提升了 1.7%(22.9% 到 24.6%),Full CAFT 則是 1.5%(23.7% 到 25.2%)。
但 CAFT 仍然在MIMIC-IV-BHC 數據集上表現良好,在 ROUGE 等指標上全面優于傳統方法,其中 ROUGE-1 從 44.57 提高到 45.93,ROUGE-2 從 22.94 提高到 24.44,ROUGE-L 從 32.17 提高到 33.76,說明其能更好地捕捉長文本中的概念。
CAFT 可以很好地彌補這一點,準確匹配率從原來的 0.14%,提升了4 倍,到 0.54%,有效分子比例從 92.38% 改進到 97.14%,結構相似性也得到了顯著改善。
實驗結果顯示,序列同一性從 20.32% 提升到 22.14%,序列對比分數也從原來的負值(-16.01)提升到正值 ( 3.18 ) ,結構置信度從 52.60 變為 54.30,結構相似性從 33.07% 變為 35.12%。
最終,研究團隊通過在廣泛領域中實驗,驗證了 CAFT 實現 multi-token prediction 在微調階段的可行性,其易用性和低成本也展示了其可能替代現有 next-token prediction 的巨大潛力,為理解模型內部機制提供了新視角。
論文鏈接:https://www.arxiv.org/abs/2506.07833
項目鏈接: https://github.com/michaelchen-lab/caft-llm
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見