關于ZAKER 合作
      量子位 07-03

      華為多路徑推理破解大模型數學瓶頸,準確率超 97%

      大模型越來越大,通用能力越來越強,但一遇到數學、科學、邏輯這類復雜問題,還是常 " 翻車 "。

      為破解這一痛點,華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林(Forest-of-Thought,FoT)

      該方法借鑒人類 " 多角度思考、反復驗證 " 的認知方式,打破傳統 LLM 的線性推理范式,通過構建多棵并行推理樹,引入動態自我修正機制與多視角共識決策策略。

      論文將在 7 月份召開的 ICML 2025 大會上發表和開源。

      在此基礎上,FoT 在多個數學推理任務中表現突出,進一步展現了 FoT 相較于 ToT(Tree-of-Thought)更優的推理能力。

      具體而言,在 GSM8K 數據集上,結合 FoT 的 QwQ-32B 模型準確率高達 97.33%,超過了 GPT-4o 和 rStar-Math 等先進模型;在更具挑戰性的 AIME 2024 測試中,更是將準確率提升至 53.33%,較對比方法 rStar-Math 高出 6.66%。

      思維森林:讓大模型像人一樣 " 思維分叉 + 自我反省 "

      盡管 LLM 在語言理解、問答等任務中表現出色,但在數學和邏輯等需要多步嚴謹推理的場景中,仍然存在明顯短板:

      常陷入 " 單路徑 " 慣性,缺乏反思與嘗試其他思路的能力;

      中間步驟易出錯,且錯誤難以自我糾正;

      無法有效整合多種解法來做集體判斷,缺乏 " 共識感知 "。

      思維森林 FoT 框架的核心靈感來自人類解決復雜問題的過程:頭腦風暴 → 多路徑探索 → 錯誤回溯 → 決策投票

      FoT 模型在推理時并行構建多棵推理樹,每棵樹探索一種潛在思路,并引入三個關鍵機制:

      稀疏激活(Sparse Activation)

      在傳統的多路徑推理中,雖然激活所有可能路徑可以提升覆蓋率,但也帶來了指數級的計算開銷。

      FoT 引入了稀疏激活策略,其核心思想是在每一層推理過程中,依據節點輸出的置信度進行評分,僅保留得分最高的少量節點用于后續擴展。

      該機制顯著減少了每層的推理分支數量,提升了每棵推理樹的邏輯集中度和計算效率。

      動態自校正(Dynamic Self-Correction)

      FoT 中每棵推理樹在成長過程中,具備對自身推理狀態的 " 反省 " 與 " 重構 " 能力。

      該模塊檢測推理路徑中可能出現的偏差(回答不斷重復等)時自動觸發自我反思,提高模型在復雜任務(如數學推導、科學多跳問答)中的魯棒性。

      共識引導決策(Consensus-Guided Evaluation and Decision)

      FoT 的最終輸出不僅依賴于某一條推理路徑,而是融合多棵推理樹的候選答案,通過集體投票與專家評分機制共同完成決策。具體流程如下:

      每棵推理樹在獨立推理后都會生成一個候選答案。

      CGED 首先嘗試從中識別出多數一致性結果(如超過半數樹提出相同答案)。若存在明確的多數共識,則直接采用該答案作為最終輸出。

      若不存在明顯的一致性(如每棵樹的結論差異較大),則系統將調用一個預先訓練好的 LLM 專家模型對所有候選答案進行質量評估,從中選擇最優解。

      該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標綜合判斷,確保最終輸出具備較高的可信度與可解釋性。

      這一機制有效結合了 " 集體智慧 " 與 " 專家審閱 ",提升了模型在不確定場景下的決策穩定性,特別適用于開放式問答、科學推理與法律場景等對輸出可靠性要求較高的任務。

      實驗亮點:比思維樹更強、更穩、更聰明

      在 GSM8K、MATH 等經典推理任務中,FoT 顯示出超越 ToT 的表現:

      24 點游戲任務中,FoT 增加樹數即可提升 14% 準確率,明顯優于 ToT 通過葉子節點數量擴展的方式。

      GSM8K 數學問答上,FoT 與 LLaMA3、Mistral、GLM 等多個主流開源模型兼容,樹數越多,性能提升越明顯,呈現全新的推理 scaling law 曲線。

      MATH 數據集全等級上,FoT 推理準確率穩定提升,即使面對最復雜的問題也能保持優勢。

      總結:從更聰明,到更可信

      FOT 是一種面向大語言模型的推理增強框架,通過引入多路徑探索、動態自我校正和共識決策機制,提升模型在復雜任務中的推理準確性、容錯性和泛化能力。

      不僅如此,該方法旨在緩解傳統大模型在高階推理場景中的局限,為結構化、可解釋的推理提供支持,具有在金融風控、法律分析、科研輔助、醫療診斷等領域的應用潛力。

      論文鏈接:https://arxiv.org/abs/2412.09078

      項目地址:https://github.com/iamhankai/Forest-of-Thought

      一鍵三連「點贊」「轉發」「小心心」

      歡迎在評論區留下你的想法!

      點亮星標

      科技前沿進展每日見

      相關標簽
      主站蜘蛛池模板: 无码国产精品一区二区免费式直播| 黑人一区二区三区中文字幕| 国产精品一区二区久久乐下载 | 国产一区二区三区免费| 精品一区二区三区四区在线播放| 亚洲视频在线一区二区| 国产精品一区二区毛卡片| 人体内射精一区二区三区| 在线视频一区二区三区三区不卡 | 精品人妻一区二区三区四区| 一区二区三区四区免费视频| 一区二区乱子伦在线播放| 无码人妻精品一区二区蜜桃AV| 成人精品一区二区不卡视频| 亚洲日韩AV无码一区二区三区人| 无码日韩精品一区二区免费暖暖 | 大伊香蕉精品一区视频在线| 日韩精品中文字幕视频一区| 无码一区二区三区在线| 成人精品一区二区三区校园激情| 亚洲天堂一区二区三区四区| 精品视频一区二区三三区四区 | 国产精品无码一区二区三区免费| 亚洲av无码成人影院一区| 亚洲AV日韩综合一区| 亚洲日韩国产欧美一区二区三区 | 国产午夜精品一区理论片| 国产一区二区三区免费观在线| 一区二区国产在线观看| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 无码福利一区二区三区| 国产伦精品一区二区三区女| 国产精品久久久久久麻豆一区| 日韩国产免费一区二区三区| 亚洲.国产.欧美一区二区三区 | 国产成人一区二区动漫精品| 一区二区三区在线免费| 久久精品无码一区二区日韩AV| 亚洲色大成网站www永久一区| 久久久无码一区二区三区| 亚洲无码一区二区三区|