多圖像、長視頻、細粒度感知正在讓大型視覺語言模型(LVLM)變得越來越聰明,但也越來越 " 吃不消 ":
視覺 Token 數量的激增所帶來的推理成本暴漲,正逐漸成為多模態智能擴展的最大算力瓶頸。
為解決這個問題,騰訊 AI Lab 聯合 CMU 提出全新解決方案 VScan。
該方法聚焦于大規模視覺語言模型推理階段的效率瓶頸,通過精妙的兩階段視覺 token 篩選機制,在幾乎不損性能的前提下,實現高達 2.91x 的推理加速。無需修改模型架構、無需重新訓練,兼容 FlashAttention,VScan 為業界提供了一種輕量、通用、即插即用的推理加速方案。
隨著 Token 數量的激增,輸入序列隨之拉長,而自注意力機制的計算復雜度呈平方增長,這使得推理階段的顯存開銷和計算負擔也隨之指數級上升。結果不僅拖慢模型運行速度,甚至使得一些真實應用場景面臨性能瓶頸,模型 " 看得清 " 卻 " 算不起 "。
簡而言之:看得越多,算得越慢;視覺越豐富,推理越吃力。
如何在保留關鍵視覺信息的同時,有效減輕 token 冗余,成為當前多模態智能落地亟需破解的關鍵難題。
VScan 已在多個主流視覺語言模型上展開實證驗證,包括 LLaVA-1.5、LLaVA-NeXT、Qwen2.5-VL 和 Video-LLaVA,覆蓋圖像問答、視頻理解、視覺定位等典型任務。
實驗顯示,VScan 不僅能有效減少視覺 token 輸入量,還能在幾乎不降低準確率的情況下,大幅縮短推理時間。
更關鍵的是,VScan 不依賴特定架構或任務,可無縫集成到現有 LVLM 中,適用于大多數視覺輸入密集型場景,極大降低了部署門檻與工程成本。無論是追求實時性的工業應用,還是資源受限的邊緣設備,VScan 都展現出了強大的通用性與實用價值。
目前,VScan 已在 GitHub 開源。
背景:現有視覺 Token 剪枝方法的兩大技術路線
文本無關(Text-agnostic)剪枝方法:此類方法在視覺編碼階段對輸入進行壓縮,完全依賴圖像自身的內容特征,不考慮文本信息。通常通過視覺自注意力權重或視覺編碼器輸出層中 [ CLS ] Token 的關注度,來衡量每個 Token 的重要性,從而剔除冗余信息。代表性工作包括 VisionZip、Folder 等。
文本相關(Text-aware)剪枝方法:該類方法則在語言解碼階段引入文本指導信息,依據視覺 Token 與文本查詢之間的相關性進行剪枝,以保留與任務強相關的信息同時減少冗余計算。代表性方法包括 SparseVLM、PyramidDrop 等。
盡管上述兩類方法在多個基準任務上展現出可觀的加速效果,但它們大多采用單階段、局部視角的剪枝策略,要么僅關注視覺編碼階段的冗余信息,要么僅在語言解碼時進行基于文本的 Token 選擇。
然而,視覺語言模型的推理過程是一個跨模態、跨層次的多階段處理流程,視覺 Token 的語義貢獻與重要性并非在單一階段中就能完整體現。例如,一些在視覺編碼階段看似不重要的 Token,可能在與語言交互后被重新激活;而部分在語言引導下看似相關的 Token,最終可能并未被模型用于生成答案。
因此,團隊認為現有方法缺乏對視覺 Token 跨階段信息流的系統性理解,難以充分釋放 LVLM 的推理潛力。為此,團隊對視覺 Token 在 LVLM 整個推理流程中的流動與作用進行深入分析,從輸入到視覺編碼、再到語言解碼階段,全面刻畫每個 Token 的任務貢獻。這一系統性分析為設計更高效、更魯棒的剪枝方法提供了新視角,也為新方法 VScan 奠定了基礎。
重新思考視覺剪枝新范式
在本節中,對視覺語言模型(LVLM)在視覺編碼與語言解碼兩個階段中如何處理視覺 Token 進行系統分析。通過實證研究,揭示了視覺信息在模型內部的傳遞路徑與階段性變化,并據此為設計更高效的視覺 Token 剪枝策略提供了實證經驗。
重新思考文本無關(Text-agnostic)剪枝方法
團隊提出了一個核心問題:單純依賴輸出層的 [ CLS ] 注意力,真的能捕捉所有與任務相關的視覺信息嗎?
在深入分析后發現一個被廣泛忽視的核心問題:此類方法往往傾向于保留圖像中視覺顯著的目標區域(如人物、墻面等),而忽略那些看似不重要的背景細節。但事實上,這些 " 被丟棄 " 的區域中,往往隱藏著決定模型正確性的任務關鍵信息。
來看一個直觀例子(見下圖左側):模型將注意力集中在 " 墻 " 和 " 人 " 上,卻忽略了問題實際關注的 " 鍋 " 和 " 皮包 ",導致模型輸出錯誤回答。
進一步深入研究視覺信息在編碼器內部的流動方式,不僅可視化了不同層的 [ CLS ] 注意力,還跟蹤了不同層中視覺 Token 的自注意力行為(見圖右),結果發現:
1 淺層編碼器中的 [ CLS ] 注意力圖更傾向于捕捉圖像中的局部細節與邊緣信息;
2 隨著網絡加深,注意力逐步收斂到圖像中的主要實體與高層語義區域;
3 相似地,視覺 Token 的自注意力模式也從 " 局部聚焦 " 演化為 " 全局融合 "。
這些現象共同揭示了視覺編碼器中一個清晰的趨勢:從低層的局部感知,逐步過渡到高層的語義整合。也就是說,雖然輸出層更接近任務語義,但早期層中所蘊含的豐富細節信息若被忽視,仍可能對模型性能產生關鍵影響。
結論很明確:剪不剪冗余 Token,不能只看最后一層。有效的視覺 Token 剪枝策略,應當從整個編碼流程中理解每個 Token 的動態價值,而不是僅憑輸出時刻的注意力強度做決策。
重新思考文本相關(Text-aware)剪枝方法
許多研究者提出了基于文本的剪枝方法,在語言模型(LLM)解碼的早期層就對視覺 Token 進行壓縮,以降低計算負擔。聽起來挺合理的—— " 趁早剪掉沒用的,不就輕松加速了嗎?" 但越早剪,真的越好嗎?
通過三項系統性實證研究,在 POPE 和 GQA 兩個代表性任務上,深入剖析了視覺信息在 LLM 解碼階段的流動模式,結果令人意外。
首先可視化使用 LLaVA-1.5-7B 在不同層(第 2、8、16 層)以 50% 保留率剪枝后的 Token 空間分布。結果發現,早期層往往選擇圖像底部的 Token,這并非因為底部信息更重要,而是源于一種潛在的 LLM 序列位置偏置:解碼時最后一個指令 Token 更傾向關注序列中與自己 " 位置更近 " 的 Token,而圖像在展平后,底部區域的 Token 剛好處于靠近指令的位置。相反,到了更深層,模型的注意力逐漸從邊緣轉向圖像中心——更符合對 " 任務相關區域 " 的直覺。
實證研究二:模型在哪一層才真正 " 看見 " 圖像?
進一步分析 LLaVA-1.5-7B 和 Qwen2.5-VL-7B 中,不同層指令 Token 對視覺 Token 的注意力強度,結果顯示:
早期層基本專注于文本處理,對視覺幾乎 " 視而不見 ";
中間層才是模型真正與圖像交互的關鍵階段;
而深層又回歸語言建模,更關注生成輸出本身。
這意味著:早期剪掉視覺 Token,剪的是模型尚未理解的 " 潛力股 ";中間剪枝,才能在模型 " 看清楚 " 之后做出更明智的取舍。
最后研究在不同 LLM 層中,隱狀態所預測的下一個 Token 是否已趨于穩定。結果發現:
在簡單任務(如 POPE)中,預測在第 16 層附近已基本收斂;
在復雜任務(如 GQA)中,穩定性直到第 20 層左右才顯現。
這進一步佐證:模型真正完成多模態融合、信息判斷與輸出決策,發生在解碼過程的中后段,而不是最初幾層。
三項實證研究共同揭示:在 LLM 解碼的早期進行視覺剪枝并非最佳選擇。不僅存在位置偏置,還錯過了模型尚未深入理解的關鍵視覺信息。相比之下,在中間層進行剪枝,既能保留必要的跨模態交互,又能最小化對最終輸出的干擾——是更優的剪枝 " 黃金時機 "。
VScan:融合視覺編碼與語言解碼的雙階段剪枝機制
基于上述分析,VScan 設計了一個無需訓練、結構輕量、效果顯著的兩階段剪枝框架,分別在視覺編碼階段與語言解碼階段對視覺 Token 進行精細篩選,做到既減少計算開銷,又不損任務性能。
在視覺編碼器階段,VScan 結合了兩個互補視角:
全局掃描(Global Scan):從模型最后一層提取 [ CLS ] 注意力,保留那些在語義層面上對整幅圖像最關鍵的視覺 Token。類似于選出圖像中的 " 主要角色 ";
局部掃描(Local Scan):回到模型的淺層,通過劃分圖像窗口,在每個局部區域中挑選出細節豐富、易被主干注意力忽略的 Token,確保模型依然具備對關鍵局部的感知能力。
最終,VScan 將這兩部分 Token 合并,構建出既具語義代表性又保留細節多樣性的視覺 Token 集合,大幅度壓縮輸入長度的同時,保留任務所需的信息密度。
此外,為防止信息直接丟失,VScan 還引入了相似性引導的 Token 融合策略,將被剪掉的視覺 Token 按語義相近原則映射回保留 Token 中,從而在 " 剪 " 的同時 " 補 " 回必要的信息。
第二階段:語言解碼階段,進一步剪掉文本無關的 " 冗余視覺信息 "
完成第一輪視覺壓縮后,VScan 進一步在語言模型的解碼階段進行文本引導剪枝。不同于以往直接在解碼早期就開始 " 動刀 ",VScan 將剪枝時機選擇在中間層(如第 16 層或第 20 層),正是模型最活躍地進行多模態交互的階段。
在這一階段,VScan 通過計算視覺 Token 與最后一個指令 Token 之間的注意力強度,篩選出真正與當前文本語境相關的視覺信息。這一策略最大限度避免了前期位置偏置帶來的誤剪問題,同時保留了對最終輸出起關鍵作用的跨模態信息。
實驗結果:有效減少視覺 Token 數量,顯著縮短推理時間
為全面評估 VScan 的適用性與實用價值,團隊將其應用于四種主流視覺語言模型(LVLM),涵蓋不同架構與任務類型,驗證其在多種實際場景下的推理加速能力與性能穩定性。具體包括 LLaVA-1.5、LLaVA-NeXT、Video-LLaVA 以及 Qwen-2.5-VL,后者還涵蓋 3B、7B 與 32B 等不同模型規模,確保評估覆蓋從輕量級到超大規模模型的廣泛應用需求。同時將 VScan 與當前最具代表性的六種視覺 Token 壓縮方法進行了系統對比,全面檢驗其剪枝策略的優越性。
在評測任務方面,覆蓋了圖像理解、視頻問答與視覺定位三大類別,涉及 16 個主流多模態基準數據集,包括 GQA、ScienceQA、VQAv2、TextVQA、VizWiz、MMBench、MMBench-CN、MME、POPE、RefCOCO 系列,以及視頻問答中的 TGIF、MSVD、MSRVTT 和 ActivityNet。這些任務既包括結構化問題回答,也涉及復雜的推理、多模態對齊與時序建模,為測試剪枝方法對模型性能的影響提供了全方位的驗證平臺。
實驗結果顯示,VScan 能夠在幾乎不降低準確率的前提下,有效減少視覺 Token 數量,顯著縮短推理時間,展現出優于現有方法的綜合性能。
具體而言,首先將 VScan 應用于 LLaVA-1.5-7B 模型,在 9 個圖像理解任務上進行了系統評測。實驗中,我們分別設置了平均保留 192、128 和 64 個視覺 Token 的方案,對應剪枝率高達 66.7%、77.8% 和 88.9%,遠低于模型原始的 576 個 Token 輸入。
我們進一步將對比范圍擴展至更具挑戰性的視覺指代定位任務(Referring Grounding),并在 RefCOCO 系列數據集上使用 Qwen2.5-VL-7B 評估各方法的性能。如表所示,相較于圖像問答任務,這類任務對視覺細節保留提出了更高要求——模型不僅要 " 看懂圖 ",更要 " 指出來 "。
最后在 POPE 基準測試集上評估了 VScan 在真實推理場景中的實際加速效果。
在 LLaVA-1.5-7B 模型上,當視覺 Token 壓縮至僅保留 11% 時,整體推理效率提升了 1.37 倍,其中預填階段(pre-filling)加速更為顯著,達到了 1.77 倍。與此同時,模型性能幾乎沒有下降,僅降低了 0.9%,充分展現了 VScan 高壓縮比下的實用性與魯棒性。
在更高分辨率、更大輸入量的 LLaVA-NeXT-7B 上,VScan 的加速效果更加明顯:整體推理提速 2.05 倍,預填階段提速更是高達 2.91 倍。此外,VScan 還能顯著壓縮 KV Cache 存儲開銷,對顯存受限的部署環境尤為友好。
值得一提的是,VScan 原生支持 FlashAttention 等高效注意力機制,在此基礎上還可進一步提升運行速度。例如,在保留率僅為 11% 的設置下,將 LLaVA-NeXT-7B 的推理時間進一步從 488 秒壓縮到 473 秒,疊加加速效果顯著。
總結
總的來說,VScan 通過在視覺編碼和語言解碼兩端協同剪枝,有效遏制了視覺 Token 爆炸帶來的算力負擔:
一方面,利用全局 - 局部雙掃描機制精準保留語義核心與細粒度信息;
另一方面,在多模態交互最活躍的中間層再次剔除與文本無關的冗余 Token,從而在高壓縮率下仍保持優異性能。
大規模實驗表明,VScan 在多種 LVLM 與 16 項基準任務上均實現了顯著的推理加速(最高 2.9 ×)和顯存節約,同時準確率降幅控制在 1 – 3% 以內。得益于無需再訓練、原生兼容 FlashAttention 及 KV Cache 壓縮,VScan 具備良好的工程適配性,可即插即用地部署于云端和邊緣多模態應用。
完整代碼與更多實驗結果已開源,研究團隊表示,期待社區進一步驗證和拓展這一高效剪枝范式。
論文鏈接:https://arxiv.org/abs/2505.22654
代碼鏈接 : https://github.com/Tencent/SelfEvolvingAgent/tree/main/VScan
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見