關于ZAKER 合作
量子位 1小時前

無損加速視覺語言模型推理!輕松剪掉視覺冗余 Token

多圖像、長視頻、細粒度感知正在讓大型視覺語言模型(LVLM)變得越來越聰明,但也越來越 " 吃不消 ":

視覺 Token 數量的激增所帶來的推理成本暴漲,正逐漸成為多模態智能擴展的最大算力瓶頸。

為解決這個問題,騰訊 AI Lab 聯合 CMU 提出全新解決方案 VScan。

該方法聚焦于大規模視覺語言模型推理階段的效率瓶頸,通過精妙的兩階段視覺 token 篩選機制,在幾乎不損性能的前提下,實現高達 2.91x 的推理加速。無需修改模型架構、無需重新訓練,兼容 FlashAttention,VScan 為業界提供了一種輕量、通用、即插即用的推理加速方案。

為了處理更復雜、更豐富的視覺輸入,現有 LVLM 往往需要編碼遠超文本 Token 規模的視覺信息。例如,LLaVA-NeXT 在處理高分辨率圖像時會引入多達 2,880 個視覺 Token,而 Qwen2.5-VL 在應對多圖像或視頻輸入時,甚至能處理高達 16,384 個視覺 Token ——這一規模已遠遠超過傳統語言模型所處理的輸入長度。

隨著 Token 數量的激增,輸入序列隨之拉長,而自注意力機制的計算復雜度呈平方增長,這使得推理階段的顯存開銷和計算負擔也隨之指數級上升。結果不僅拖慢模型運行速度,甚至使得一些真實應用場景面臨性能瓶頸,模型 " 看得清 " 卻 " 算不起 "。

簡而言之:看得越多,算得越慢;視覺越豐富,推理越吃力。

如何在保留關鍵視覺信息的同時,有效減輕 token 冗余,成為當前多模態智能落地亟需破解的關鍵難題。

VScan 已在多個主流視覺語言模型上展開實證驗證,包括 LLaVA-1.5、LLaVA-NeXT、Qwen2.5-VL 和 Video-LLaVA,覆蓋圖像問答、視頻理解、視覺定位等典型任務。

實驗顯示,VScan 不僅能有效減少視覺 token 輸入量,還能在幾乎不降低準確率的情況下,大幅縮短推理時間。

更關鍵的是,VScan 不依賴特定架構或任務,可無縫集成到現有 LVLM 中,適用于大多數視覺輸入密集型場景,極大降低了部署門檻與工程成本。無論是追求實時性的工業應用,還是資源受限的邊緣設備,VScan 都展現出了強大的通用性與實用價值。

目前,VScan 已在 GitHub 開源。

背景:現有視覺 Token 剪枝方法的兩大技術路線

在多模態任務中,并非所有視覺 Token 都對最終輸出有實質性貢獻。為提升推理效率,近年研究陸續提出了一系列視覺 Token 剪枝(Visual Token Reduction)技術,通過剔除視覺冗余或與文本語義無關的 Token,以減少計算和顯存開銷。這些方法大致可分為兩大類:

文本無關(Text-agnostic)剪枝方法:此類方法在視覺編碼階段對輸入進行壓縮,完全依賴圖像自身的內容特征,不考慮文本信息。通常通過視覺自注意力權重或視覺編碼器輸出層中 [ CLS ] Token 的關注度,來衡量每個 Token 的重要性,從而剔除冗余信息。代表性工作包括 VisionZip、Folder 等。

文本相關(Text-aware)剪枝方法:該類方法則在語言解碼階段引入文本指導信息,依據視覺 Token 與文本查詢之間的相關性進行剪枝,以保留與任務強相關的信息同時減少冗余計算。代表性方法包括 SparseVLM、PyramidDrop 等。

盡管上述兩類方法在多個基準任務上展現出可觀的加速效果,但它們大多采用單階段、局部視角的剪枝策略,要么僅關注視覺編碼階段的冗余信息,要么僅在語言解碼時進行基于文本的 Token 選擇。

然而,視覺語言模型的推理過程是一個跨模態、跨層次的多階段處理流程,視覺 Token 的語義貢獻與重要性并非在單一階段中就能完整體現。例如,一些在視覺編碼階段看似不重要的 Token,可能在與語言交互后被重新激活;而部分在語言引導下看似相關的 Token,最終可能并未被模型用于生成答案。

因此,團隊認為現有方法缺乏對視覺 Token 跨階段信息流的系統性理解,難以充分釋放 LVLM 的推理潛力。為此,團隊對視覺 Token 在 LVLM 整個推理流程中的流動與作用進行深入分析,從輸入到視覺編碼、再到語言解碼階段,全面刻畫每個 Token 的任務貢獻。這一系統性分析為設計更高效、更魯棒的剪枝方法提供了新視角,也為新方法 VScan 奠定了基礎。

重新思考視覺剪枝新范式

在本節中,對視覺語言模型(LVLM)在視覺編碼與語言解碼兩個階段中如何處理視覺 Token 進行系統分析。通過實證研究,揭示了視覺信息在模型內部的傳遞路徑與階段性變化,并據此為設計更高效的視覺 Token 剪枝策略提供了實證經驗。

重新思考文本無關(Text-agnostic)剪枝方法

團隊提出了一個核心問題:單純依賴輸出層的 [ CLS ] 注意力,真的能捕捉所有與任務相關的視覺信息嗎?

在深入分析后發現一個被廣泛忽視的核心問題:此類方法往往傾向于保留圖像中視覺顯著的目標區域(如人物、墻面等),而忽略那些看似不重要的背景細節。但事實上,這些 " 被丟棄 " 的區域中,往往隱藏著決定模型正確性的任務關鍵信息。

來看一個直觀例子(見下圖左側):模型將注意力集中在 " 墻 " 和 " 人 " 上,卻忽略了問題實際關注的 " 鍋 " 和 " 皮包 ",導致模型輸出錯誤回答。

那么,問題出在哪?

進一步深入研究視覺信息在編碼器內部的流動方式,不僅可視化了不同層的 [ CLS ] 注意力,還跟蹤了不同層中視覺 Token 的自注意力行為(見圖右),結果發現:

1 淺層編碼器中的 [ CLS ] 注意力圖更傾向于捕捉圖像中的局部細節與邊緣信息;

2 隨著網絡加深,注意力逐步收斂到圖像中的主要實體與高層語義區域;

3 相似地,視覺 Token 的自注意力模式也從 " 局部聚焦 " 演化為 " 全局融合 "。

這些現象共同揭示了視覺編碼器中一個清晰的趨勢:從低層的局部感知,逐步過渡到高層的語義整合。也就是說,雖然輸出層更接近任務語義,但早期層中所蘊含的豐富細節信息若被忽視,仍可能對模型性能產生關鍵影響。

結論很明確:剪不剪冗余 Token,不能只看最后一層。有效的視覺 Token 剪枝策略,應當從整個編碼流程中理解每個 Token 的動態價值,而不是僅憑輸出時刻的注意力強度做決策。

重新思考文本相關(Text-aware)剪枝方法

許多研究者提出了基于文本的剪枝方法,在語言模型(LLM)解碼的早期層就對視覺 Token 進行壓縮,以降低計算負擔。聽起來挺合理的—— " 趁早剪掉沒用的,不就輕松加速了嗎?" 但越早剪,真的越好嗎?

通過三項系統性實證研究,在 POPE 和 GQA 兩個代表性任務上,深入剖析了視覺信息在 LLM 解碼階段的流動模式,結果令人意外。

實證研究一:早期剪枝可能受到 " 位置偏置 " 影響。

首先可視化使用 LLaVA-1.5-7B 在不同層(第 2、8、16 層)以 50% 保留率剪枝后的 Token 空間分布。結果發現,早期層往往選擇圖像底部的 Token,這并非因為底部信息更重要,而是源于一種潛在的 LLM 序列位置偏置:解碼時最后一個指令 Token 更傾向關注序列中與自己 " 位置更近 " 的 Token,而圖像在展平后,底部區域的 Token 剛好處于靠近指令的位置。相反,到了更深層,模型的注意力逐漸從邊緣轉向圖像中心——更符合對 " 任務相關區域 " 的直覺。

實證研究二:模型在哪一層才真正 " 看見 " 圖像?

進一步分析 LLaVA-1.5-7B 和 Qwen2.5-VL-7B 中,不同層指令 Token 對視覺 Token 的注意力強度,結果顯示:

早期層基本專注于文本處理,對視覺幾乎 " 視而不見 ";

中間層才是模型真正與圖像交互的關鍵階段;

而深層又回歸語言建模,更關注生成輸出本身。

這意味著:早期剪掉視覺 Token,剪的是模型尚未理解的 " 潛力股 ";中間剪枝,才能在模型 " 看清楚 " 之后做出更明智的取舍。

實證研究三:模型在哪一層才開始 " 穩定輸出 "?

最后研究在不同 LLM 層中,隱狀態所預測的下一個 Token 是否已趨于穩定。結果發現:

在簡單任務(如 POPE)中,預測在第 16 層附近已基本收斂;

在復雜任務(如 GQA)中,穩定性直到第 20 層左右才顯現。

這進一步佐證:模型真正完成多模態融合、信息判斷與輸出決策,發生在解碼過程的中后段,而不是最初幾層。

三項實證研究共同揭示:在 LLM 解碼的早期進行視覺剪枝并非最佳選擇。不僅存在位置偏置,還錯過了模型尚未深入理解的關鍵視覺信息。相比之下,在中間層進行剪枝,既能保留必要的跨模態交互,又能最小化對最終輸出的干擾——是更優的剪枝 " 黃金時機 "。

VScan:融合視覺編碼與語言解碼的雙階段剪枝機制

基于上述分析,VScan 設計了一個無需訓練、結構輕量、效果顯著的兩階段剪枝框架,分別在視覺編碼階段與語言解碼階段對視覺 Token 進行精細篩選,做到既減少計算開銷,又不損任務性能。

第一階段:視覺編碼階段,兼顧全局與局部的 " 先剪一刀 "

在視覺編碼器階段,VScan 結合了兩個互補視角:

全局掃描(Global Scan):從模型最后一層提取 [ CLS ] 注意力,保留那些在語義層面上對整幅圖像最關鍵的視覺 Token。類似于選出圖像中的 " 主要角色 ";

局部掃描(Local Scan):回到模型的淺層,通過劃分圖像窗口,在每個局部區域中挑選出細節豐富、易被主干注意力忽略的 Token,確保模型依然具備對關鍵局部的感知能力。

最終,VScan 將這兩部分 Token 合并,構建出既具語義代表性又保留細節多樣性的視覺 Token 集合,大幅度壓縮輸入長度的同時,保留任務所需的信息密度。

此外,為防止信息直接丟失,VScan 還引入了相似性引導的 Token 融合策略,將被剪掉的視覺 Token 按語義相近原則映射回保留 Token 中,從而在 " 剪 " 的同時 " 補 " 回必要的信息。

第二階段:語言解碼階段,進一步剪掉文本無關的 " 冗余視覺信息 "

完成第一輪視覺壓縮后,VScan 進一步在語言模型的解碼階段進行文本引導剪枝。不同于以往直接在解碼早期就開始 " 動刀 ",VScan 將剪枝時機選擇在中間層(如第 16 層或第 20 層),正是模型最活躍地進行多模態交互的階段。

在這一階段,VScan 通過計算視覺 Token 與最后一個指令 Token 之間的注意力強度,篩選出真正與當前文本語境相關的視覺信息。這一策略最大限度避免了前期位置偏置帶來的誤剪問題,同時保留了對最終輸出起關鍵作用的跨模態信息。

實驗結果:有效減少視覺 Token 數量,顯著縮短推理時間

為全面評估 VScan 的適用性與實用價值,團隊將其應用于四種主流視覺語言模型(LVLM),涵蓋不同架構與任務類型,驗證其在多種實際場景下的推理加速能力與性能穩定性。具體包括 LLaVA-1.5、LLaVA-NeXT、Video-LLaVA 以及 Qwen-2.5-VL,后者還涵蓋 3B、7B 與 32B 等不同模型規模,確保評估覆蓋從輕量級到超大規模模型的廣泛應用需求。同時將 VScan 與當前最具代表性的六種視覺 Token 壓縮方法進行了系統對比,全面檢驗其剪枝策略的優越性。

在評測任務方面,覆蓋了圖像理解、視頻問答與視覺定位三大類別,涉及 16 個主流多模態基準數據集,包括 GQA、ScienceQA、VQAv2、TextVQA、VizWiz、MMBench、MMBench-CN、MME、POPE、RefCOCO 系列,以及視頻問答中的 TGIF、MSVD、MSRVTT 和 ActivityNet。這些任務既包括結構化問題回答,也涉及復雜的推理、多模態對齊與時序建模,為測試剪枝方法對模型性能的影響提供了全方位的驗證平臺。

實驗結果顯示,VScan 能夠在幾乎不降低準確率的前提下,有效減少視覺 Token 數量,顯著縮短推理時間,展現出優于現有方法的綜合性能。

具體而言,首先將 VScan 應用于 LLaVA-1.5-7B 模型,在 9 個圖像理解任務上進行了系統評測。實驗中,我們分別設置了平均保留 192、128 和 64 個視覺 Token 的方案,對應剪枝率高達 66.7%、77.8% 和 88.9%,遠低于模型原始的 576 個 Token 輸入。

即使在如此高的壓縮率下,VScan 依然表現出令人驚訝的穩定性:保留 192 和 128 個 Token 時,模型的平均準確率僅下降了 1.0% 和 1.2%,幾乎實現了 " 零損剪枝 ";而當我們將 Token 數進一步壓縮至僅剩 64 個時,模型性能也僅下降了 3.3%,仍大幅領先第二名方法 VisionZip 4 個百分點,充分驗證了我們提出的兩階段剪枝策略在高壓縮場景下的魯棒性與泛化能力。

我們進一步將對比范圍擴展至更具挑戰性的視覺指代定位任務(Referring Grounding),并在 RefCOCO 系列數據集上使用 Qwen2.5-VL-7B 評估各方法的性能。如表所示,相較于圖像問答任務,這類任務對視覺細節保留提出了更高要求——模型不僅要 " 看懂圖 ",更要 " 指出來 "。

在這種對空間信息極度敏感的任務中,剪枝策略的魯棒性面臨嚴峻考驗。以 75% 的 Token 剪枝率為例,FastV 和 PyramidDrop 的性能幾乎 " 腰斬 ",準確率下降接近一半。而在同等壓縮比例下,VScan 依然保持了高達 80.7% 的原始性能,在極限削減計算量的同時,依舊能夠完成精準定位任務。

最后在 POPE 基準測試集上評估了 VScan 在真實推理場景中的實際加速效果。

在 LLaVA-1.5-7B 模型上,當視覺 Token 壓縮至僅保留 11% 時,整體推理效率提升了 1.37 倍,其中預填階段(pre-filling)加速更為顯著,達到了 1.77 倍。與此同時,模型性能幾乎沒有下降,僅降低了 0.9%,充分展現了 VScan 高壓縮比下的實用性與魯棒性。

在更高分辨率、更大輸入量的 LLaVA-NeXT-7B 上,VScan 的加速效果更加明顯:整體推理提速 2.05 倍,預填階段提速更是高達 2.91 倍。此外,VScan 還能顯著壓縮 KV Cache 存儲開銷,對顯存受限的部署環境尤為友好。

值得一提的是,VScan 原生支持 FlashAttention 等高效注意力機制,在此基礎上還可進一步提升運行速度。例如,在保留率僅為 11% 的設置下,將 LLaVA-NeXT-7B 的推理時間進一步從 488 秒壓縮到 473 秒,疊加加速效果顯著。

更多實驗結果與細節分析,請訪問論文原文。

總結

總的來說,VScan 通過在視覺編碼和語言解碼兩端協同剪枝,有效遏制了視覺 Token 爆炸帶來的算力負擔:

一方面,利用全局 - 局部雙掃描機制精準保留語義核心與細粒度信息;

另一方面,在多模態交互最活躍的中間層再次剔除與文本無關的冗余 Token,從而在高壓縮率下仍保持優異性能。

大規模實驗表明,VScan 在多種 LVLM 與 16 項基準任務上均實現了顯著的推理加速(最高 2.9 ×)和顯存節約,同時準確率降幅控制在 1 – 3% 以內。得益于無需再訓練、原生兼容 FlashAttention 及 KV Cache 壓縮,VScan 具備良好的工程適配性,可即插即用地部署于云端和邊緣多模態應用。

完整代碼與更多實驗結果已開源,研究團隊表示,期待社區進一步驗證和拓展這一高效剪枝范式。

論文鏈接:https://arxiv.org/abs/2505.22654

代碼鏈接 : https://github.com/Tencent/SelfEvolvingAgent/tree/main/VScan

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

點亮星標

科技前沿進展每日見

相關標簽
主站蜘蛛池模板: 国产精品老熟女露脸视频| 男男全肉高h视频在线观看| 日韩系列第一页| 国产狂喷潮在线观看在线观看| 亚洲欧美成人综合久久久| 99re在线播放视频| 欧美高清性XXXXHDVIDEOSEX| 国模吧2021新入口| 亚洲欧洲在线播放| 在线你懂的网站| 欧美丰满大乳高跟鞋| 国产真实乱系列2孕妇| 亚洲AV无码潮喷在线观看| 国产chinesehd精品酒店| 曰批免费视频播放免费| 国产性夜夜春夜夜爽1a片| 久久精品国产99久久| 野花香社区在线视频观看播放 | 美女扒开大腿让男人桶| 成人在线免费视频| 免费在线看黄网站| 97在线视频免费| 欧美狂摸吃奶呻吟| 国产精品久关键词| 久久精品人人做人人爽电影| 韩国伦理电影年轻的妈妈| 成年人视频在线免费播放| 动漫美女吸乳羞羞动漫| a级毛片免费观看在线播放| 正在播放国产一区| 国产激情一区二区三区| 久久久久人妻精品一区蜜桃| 老太脱裤让老头玩ⅹxxxx| 好男人好资源在线影视官网| 亚洲精品国产福利一二区| 毛茸茸bbw亚洲人| 日韩毛片无码永久免费看| 四虎在线观看一区二区| av免费不卡国产观看| 欧美亚洲国产成人不卡| 国产乱子伦农村xxxx|