国内精品欧美久久精品,粉色视频成年免费人15次,免费一级特黄视频

華為多路徑推理破解大模型數學瓶頸，準確率超 97%

大模型越來越大，通用能力越來越強，但一遇到數學、科學、邏輯這類復雜問題，還是常 " 翻車 "。

為破解這一痛點，華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林（Forest-of-Thought，FoT）。

該方法借鑒人類 " 多角度思考、反復驗證 " 的認知方式，打破傳統 LLM 的線性推理范式，通過構建多棵并行推理樹，引入動態自我修正機制與多視角共識決策策略。

論文將在 7 月份召開的 ICML 2025 大會上發表和開源。

在此基礎上，FoT 在多個數學推理任務中表現突出，進一步展現了 FoT 相較于 ToT（Tree-of-Thought）更優的推理能力。

具體而言，在 GSM8K 數據集上，結合 FoT 的 QwQ-32B 模型準確率高達 97.33%，超過了 GPT-4o 和 rStar-Math 等先進模型；在更具挑戰性的 AIME 2024 測試中，更是將準確率提升至 53.33%，較對比方法 rStar-Math 高出 6.66%。

思維森林：讓大模型像人一樣 " 思維分叉 + 自我反省 "

盡管 LLM 在語言理解、問答等任務中表現出色，但在數學和邏輯等需要多步嚴謹推理的場景中，仍然存在明顯短板：

常陷入 " 單路徑 " 慣性，缺乏反思與嘗試其他思路的能力；

中間步驟易出錯，且錯誤難以自我糾正；

無法有效整合多種解法來做集體判斷，缺乏 " 共識感知 "。

思維森林 FoT 框架的核心靈感來自人類解決復雜問題的過程：頭腦風暴 → 多路徑探索 → 錯誤回溯 → 決策投票。

FoT 模型在推理時并行構建多棵推理樹，每棵樹探索一種潛在思路，并引入三個關鍵機制：

稀疏激活（Sparse Activation）

在傳統的多路徑推理中，雖然激活所有可能路徑可以提升覆蓋率，但也帶來了指數級的計算開銷。

FoT 引入了稀疏激活策略，其核心思想是在每一層推理過程中，依據節點輸出的置信度進行評分，僅保留得分最高的少量節點用于后續擴展。

該機制顯著減少了每層的推理分支數量，提升了每棵推理樹的邏輯集中度和計算效率。

動態自校正（Dynamic Self-Correction）

FoT 中每棵推理樹在成長過程中，具備對自身推理狀態的 " 反省 " 與 " 重構 " 能力。

該模塊檢測推理路徑中可能出現的偏差（回答不斷重復等）時自動觸發自我反思，提高模型在復雜任務（如數學推導、科學多跳問答）中的魯棒性。

共識引導決策（Consensus-Guided Evaluation and Decision）

FoT 的最終輸出不僅依賴于某一條推理路徑，而是融合多棵推理樹的候選答案，通過集體投票與專家評分機制共同完成決策。具體流程如下：

每棵推理樹在獨立推理后都會生成一個候選答案。

CGED 首先嘗試從中識別出多數一致性結果（如超過半數樹提出相同答案）。若存在明確的多數共識，則直接采用該答案作為最終輸出。

若不存在明顯的一致性（如每棵樹的結論差異較大），則系統將調用一個預先訓練好的 LLM 專家模型對所有候選答案進行質量評估，從中選擇最優解。

該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標綜合判斷，確保最終輸出具備較高的可信度與可解釋性。

這一機制有效結合了 " 集體智慧 " 與 " 專家審閱 "，提升了模型在不確定場景下的決策穩定性，特別適用于開放式問答、科學推理與法律場景等對輸出可靠性要求較高的任務。

實驗亮點：比思維樹更強、更穩、更聰明

在 GSM8K、MATH 等經典推理任務中，FoT 顯示出超越 ToT 的表現：

在24 點游戲任務中，FoT 增加樹數即可提升 14% 準確率，明顯優于 ToT 通過葉子節點數量擴展的方式。

在GSM8K 數學問答上，FoT 與 LLaMA3、Mistral、GLM 等多個主流開源模型兼容，樹數越多，性能提升越明顯，呈現全新的推理 scaling law 曲線。

在MATH 數據集全等級上，FoT 推理準確率穩定提升，即使面對最復雜的問題也能保持優勢。

總結：從更聰明，到更可信

FOT 是一種面向大語言模型的推理增強框架，通過引入多路徑探索、動態自我校正和共識決策機制，提升模型在復雜任務中的推理準確性、容錯性和泛化能力。

不僅如此，該方法旨在緩解傳統大模型在高階推理場景中的局限，為結構化、可解釋的推理提供支持，具有在金融風控、法律分析、科研輔助、醫療診斷等領域的應用潛力。

論文鏈接：https://arxiv.org/abs/2412.09078

項目地址：https://github.com/iamhankai/Forest-of-Thought

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星標

科技前沿進展每日見

相關標簽

abs 華為

青海春天，終于澄清了“關系”

鈦媒體 1小時前

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

華為多路徑推理破解大模型數學瓶頸，準確率超 97%

宙世代

一起剪

相關閱讀

科技春晚來了！蘋果十幾款新品已在路上：不止iPhone 17

跨國公司女高管轉行按摩師：每個月只工作兩周，月入10萬

極越“復活”或有戲！夏一平微博罕見更新兩條動態 釋放重逢信號

華為芯片，究竟有多牛（下）

影馳RTX 5090D創新世界記錄！瘋狂的3.65GHz+36Gbps GDDR7

大爆單！外賣大戰補貼升級 部分騎手時薪超百元

國內AI和AI應用的真問題

一加Ace5至尊版成為PEL和平精英職業聯賽官方用機：首發144Hz幀率模式

青海春天，終于澄清了“關系”

外賣平臺商戰升級，新晉網紅茉莉奶白能火多久？

上線僅兩個月！淘寶閃購宣布日訂單突破8000萬 日活超2億

比身份證還小！Intel N50處理器超迷你主板問世

硬件級畫質、千元旗艦：當貝X5S Max讓家享影院級視聽體驗

穩定幣+跨境支付+AI智能體+華為鴻蒙！公司圍繞穩定幣生態已系統性布局

淘寶閃購補貼“沖單”? 美團“反攻”宣布日訂單1.2億

最新評論

量子位

熱門推薦

極越“復活”或有戲！夏一平微博罕見更新兩條動態釋放重逢信號

大爆單！外賣大戰補貼升級部分騎手時薪超百元

上線僅兩個月！淘寶閃購宣布日訂單突破8000萬日活超2億