量子位 15小時前

華為多路徑推理破解大模型數學瓶頸，準確率超 97%

大模型越來越大，通用能力越來越強，但一遇到數學、科學、邏輯這類復雜問題，還是常 " 翻車 "。

為破解這一痛點，華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林（Forest-of-Thought，FoT）。

該方法借鑒人類 " 多角度思考、反復驗證 " 的認知方式，打破傳統 LLM 的線性推理范式，通過構建多棵并行推理樹，引入動態自我修正機制與多視角共識決策策略。

論文將在 7 月份召開的 ICML 2025 大會上發表和開源。

在此基礎上，FoT 在多個數學推理任務中表現突出，進一步展現了 FoT 相較于 ToT（Tree-of-Thought）更優的推理能力。

具體而言，在 GSM8K 數據集上，結合 FoT 的 QwQ-32B 模型準確率高達 97.33%，超過了 GPT-4o 和 rStar-Math 等先進模型；在更具挑戰性的 AIME 2024 測試中，更是將準確率提升至 53.33%，較對比方法 rStar-Math 高出 6.66%。

思維森林：讓大模型像人一樣 " 思維分叉 + 自我反省 "

盡管 LLM 在語言理解、問答等任務中表現出色，但在數學和邏輯等需要多步嚴謹推理的場景中，仍然存在明顯短板：

常陷入 " 單路徑 " 慣性，缺乏反思與嘗試其他思路的能力；

中間步驟易出錯，且錯誤難以自我糾正；

無法有效整合多種解法來做集體判斷，缺乏 " 共識感知 "。

思維森林 FoT 框架的核心靈感來自人類解決復雜問題的過程：頭腦風暴 → 多路徑探索 → 錯誤回溯 → 決策投票。

FoT 模型在推理時并行構建多棵推理樹，每棵樹探索一種潛在思路，并引入三個關鍵機制：

稀疏激活（Sparse Activation）

在傳統的多路徑推理中，雖然激活所有可能路徑可以提升覆蓋率，但也帶來了指數級的計算開銷。

FoT 引入了稀疏激活策略，其核心思想是在每一層推理過程中，依據節點輸出的置信度進行評分，僅保留得分最高的少量節點用于后續擴展。

該機制顯著減少了每層的推理分支數量，提升了每棵推理樹的邏輯集中度和計算效率。

動態自校正（Dynamic Self-Correction）

FoT 中每棵推理樹在成長過程中，具備對自身推理狀態的 " 反省 " 與 " 重構 " 能力。

該模塊檢測推理路徑中可能出現的偏差（回答不斷重復等）時自動觸發自我反思，提高模型在復雜任務（如數學推導、科學多跳問答）中的魯棒性。

共識引導決策（Consensus-Guided Evaluation and Decision）

FoT 的最終輸出不僅依賴于某一條推理路徑，而是融合多棵推理樹的候選答案，通過集體投票與專家評分機制共同完成決策。具體流程如下：

每棵推理樹在獨立推理后都會生成一個候選答案。

CGED 首先嘗試從中識別出多數一致性結果（如超過半數樹提出相同答案）。若存在明確的多數共識，則直接采用該答案作為最終輸出。

若不存在明顯的一致性（如每棵樹的結論差異較大），則系統將調用一個預先訓練好的 LLM 專家模型對所有候選答案進行質量評估，從中選擇最優解。

該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標綜合判斷，確保最終輸出具備較高的可信度與可解釋性。

這一機制有效結合了 " 集體智慧 " 與 " 專家審閱 "，提升了模型在不確定場景下的決策穩定性，特別適用于開放式問答、科學推理與法律場景等對輸出可靠性要求較高的任務。

實驗亮點：比思維樹更強、更穩、更聰明

在 GSM8K、MATH 等經典推理任務中，FoT 顯示出超越 ToT 的表現：

在24 點游戲任務中，FoT 增加樹數即可提升 14% 準確率，明顯優于 ToT 通過葉子節點數量擴展的方式。

在GSM8K 數學問答上，FoT 與 LLaMA3、Mistral、GLM 等多個主流開源模型兼容，樹數越多，性能提升越明顯，呈現全新的推理 scaling law 曲線。

在MATH 數據集全等級上，FoT 推理準確率穩定提升，即使面對最復雜的問題也能保持優勢。

總結：從更聰明，到更可信

FOT 是一種面向大語言模型的推理增強框架，通過引入多路徑探索、動態自我校正和共識決策機制，提升模型在復雜任務中的推理準確性、容錯性和泛化能力。

不僅如此，該方法旨在緩解傳統大模型在高階推理場景中的局限，為結構化、可解釋的推理提供支持，具有在金融風控、法律分析、科研輔助、醫療診斷等領域的應用潛力。

論文鏈接：https://arxiv.org/abs/2412.09078

項目地址：https://github.com/iamhankai/Forest-of-Thought

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星標

科技前沿進展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

abs 華為

曝iPhone 17 Pro Max電池將達到5000mAh：蘋果史上最大

數碼測評 1小時前

飛秒級“定格”電子運動！我科學家研發新型超快電子源

快科技 20分鐘前

金融業初試智能體：讓AI長出“腦、眼、四肢”

21世紀經濟報道 2小時前

阿里，3800億AI新長征

21世紀經濟報道 2小時前

小米YU7天際屏成本是HUD三倍將支持跨屏互動等新功能

快科技 8小時前

蘋果殺入折疊屏，榮耀緊張不？

21世紀經濟報道 10小時前

8.8mm全球最薄折疊屏！京東方聯合榮耀打造Magic V5柔性OLED

快科技 10小時前

安卓關機后仍自動下載廣告谷歌被判賠22億

21世紀經濟報道 10小時前

小鵬G7 Ultra行業首發本地端VLA+VLM大模型 9月起推送上車

數碼測評 11小時前

榮耀X9c 5G將于7月7日登陸印度市場核心配置正式揭曉

數碼測評 11小時前

先進封裝戰況加劇

鈦媒體 12小時前

富士康要求中國員工從印度撤離！蘋果剛準備在印度擴大iPhone 17產能

快科技 13小時前

安卓史上首款！三星三折疊屏外觀曝光：跟華為完全不一樣

快科技 13小時前

羅馬仕淘寶店保證金余額不足用戶退款成難題網友懷疑要跑路

快科技 13小時前

微米級“腦地圖”來了！中國科學家突破腦科學研究關鍵技術

數碼測評 14小時前

量子位

覺得文章不錯，微信掃描分享好友

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

華為多路徑推理破解大模型數學瓶頸，準確率超 97%

宙世代

一起剪

相關閱讀

曝iPhone 17 Pro Max電池將達到5000mAh：蘋果史上最大

飛秒級“定格”電子運動！我科學家研發新型超快電子源

金融業初試智能體：讓AI長出“腦、眼、四肢”

阿里，3800億AI新長征

小米YU7天際屏成本是HUD三倍 將支持跨屏互動等新功能

蘋果殺入折疊屏，榮耀緊張不？

8.8mm全球最薄折疊屏！京東方聯合榮耀打造Magic V5柔性OLED

安卓關機后仍自動下載廣告 谷歌被判賠22億

小鵬G7 Ultra行業首發本地端VLA+VLM大模型 9月起推送上車

榮耀X9c 5G將于7月7日登陸印度市場 核心配置正式揭曉

先進封裝戰況加劇

富士康要求中國員工從印度撤離！蘋果剛準備在印度擴大iPhone 17產能

安卓史上首款！三星三折疊屏外觀曝光：跟華為完全不一樣

羅馬仕淘寶店保證金余額不足 用戶退款成難題 網友懷疑要跑路

微米級“腦地圖”來了！中國科學家突破腦科學研究關鍵技術

最新評論

量子位

熱門推薦

華為多路徑推理破解大模型數學瓶頸，準確率超 97%

飛秒級“定格”電子運動！我科學家研發新型超快電子源

金融業初試智能體：讓AI長出“腦、眼、四肢”

阿里，3800億AI新長征

小米YU7天際屏成本是HUD三倍將支持跨屏互動等新功能

蘋果殺入折疊屏，榮耀緊張不？

安卓關機后仍自動下載廣告谷歌被判賠22億

榮耀X9c 5G將于7月7日登陸印度市場核心配置正式揭曉

富士康要求中國員工從印度撤離！蘋果剛準備在印度擴大iPhone 17產能

安卓史上首款！三星三折疊屏外觀曝光：跟華為完全不一樣

羅馬仕淘寶店保證金余額不足用戶退款成難題網友懷疑要跑路

微米級“腦地圖”來了！中國科學家突破腦科學研究關鍵技術