一区二区欧美日韩视频,国产精品色网,78色国产精品

在 AI 邁入多模態(tài)時代的當(dāng)下，" 讓大模型上手機(jī) "成為產(chǎn)業(yè)落地的焦點。

現(xiàn)有 MLLM 在手機(jī)端部署時常面臨兩大難題：

1、純語言任務(wù)性能下降：現(xiàn)有的端側(cè) MLLM 在純文本的任務(wù)上表現(xiàn)不盡人意；

2、手機(jī) NPU 不支持 MoE 架構(gòu)：而 MoE 架構(gòu)恰恰是多模態(tài)訓(xùn)練中保持語言能力的常用手段（比如 CogVLM，Wings）。

vivo AI 研究院聯(lián)合港中文以及上交團(tuán)隊為了攻克這些難題，從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面，系統(tǒng)性地分析了如何在 MLLM 訓(xùn)練中維持純語言能力，并基于此提出了 GenieBlue ——專為移動端手機(jī) NPU 設(shè)計的高效 MLLM 結(jié)構(gòu)方案。目前已被 ICCV 2025 接收。

主要貢獻(xiàn)和技術(shù)亮點

1、現(xiàn)有端側(cè) LLM 在支持多模態(tài)功能后，純語言任務(wù)準(zhǔn)確率下降超 10%。GenieBlue 通過凍結(jié)原始 LLM 參數(shù)，并引入復(fù)制的 Transformer 層和輕量化的 LoRA 模塊，在多模態(tài)訓(xùn)練的過程中保留原始的語言能力。

2、通過大規(guī)模微調(diào)，GenieBlue 達(dá)到與主流 MLLM 相媲美的多模態(tài)能力，并完全保留原始純語言性能。

3、避開當(dāng)前 NPU 不支持的 MoE 架構(gòu)，采用不共享基座的推理策略。在搭載高通驍龍 8 Elite（第四代）芯片的手機(jī)上實現(xiàn)流暢運行。

技術(shù)背景

1、當(dāng)前的端側(cè) MLLM 無法取得令人滿意的純語言能力

在 MATH（客觀難題）、AlignBench 和 MT-Bench（主觀題）上測試主流開源 MLLM 的純語言能力，并與原始 LLM 進(jìn)行了對比。

其中，Wings 是 NeurIPS 2024 提出的多模態(tài)訓(xùn)練中保持語言能力的方案。測試結(jié)果表明，當(dāng)前多模態(tài)大模型雖然在圖文任務(wù)上表現(xiàn)優(yōu)異，但在純語言任務(wù)上普遍存在顯著性能下降，降幅大多超過 10%。相比之下，GenieBlue 在保持多模態(tài)能力的同時，未出現(xiàn)任何純語言能力的損失。

2、目前主流的手機(jī) NPU 平臺尚不支持部署 MoE 結(jié)構(gòu)

由于 MoE 架構(gòu)對內(nèi)存帶寬和容量要求較高，主流移動端 NPU 平臺尚未提供支持。測試顯示，包括聯(lián)發(fā)科天璣 9400 和高通驍龍 8 Elite 在內(nèi)的旗艦 SoC，其 NPU 均無法有效部署標(biāo)準(zhǔn) MoE 模型。

基于上述兩個發(fā)現(xiàn)，團(tuán)隊從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩個方面詳細(xì)探討了多模態(tài)訓(xùn)練過程中保持純語言性能的方法。

語言性能維持 - 數(shù)據(jù)角度

在 MLLM 訓(xùn)練過程中，保持純語言能力最直接常用的方法是在訓(xùn)練數(shù)據(jù)中加入純文本數(shù)據(jù)。目前 InternVL2.5 和 Qwen2.5-VL 都采用了這種方法。但這種方法存在兩個主要問題：一是難以收集大量高質(zhì)量的純文本指令微調(diào)數(shù)據(jù)，特別是針對主觀性 NLP 任務(wù)的數(shù)據(jù)；二是在 MLLM 訓(xùn)練中加入大量純文本數(shù)據(jù)會顯著增加訓(xùn)練時間。

為了驗證該方法的有效性，從 ViT 與 LLM 開始全量微調(diào)一個 MLLM。具體地，模型基于面向手機(jī)端部署的 BlueLM-V-3B 架構(gòu)，ViT 部分使用 SigLIP，LLM 部分使用 BlueLM-3B 或 Qwen2.5-3B。訓(xùn)練流程參考 Cambrian-1，先用提供的 250 萬對齊數(shù)據(jù)預(yù)訓(xùn)練，再用 700 萬數(shù)據(jù)進(jìn)行微調(diào)。為對比，在微調(diào)階段額外加入 200 萬純文本數(shù)據(jù)，主要來自 InternVL2.5，如下表所示。

在 7 個常見 LLM 測評集和 7 個常見 MLLM 測評集上測試了模型的訓(xùn)練效果，得到兩個主要結(jié)論：

1、加入純文本數(shù)據(jù)對多模態(tài)能力影響有限

在訓(xùn)練中引入了包含 200 萬樣本的額外純語言數(shù)據(jù)，發(fā)現(xiàn)模型的多模態(tài)能力幾乎未受影響。這一現(xiàn)象表明，在多模態(tài)大模型訓(xùn)練過程中，適量加入純文本數(shù)據(jù)對模型的多模態(tài)表現(xiàn)并無顯著影響。

2、純文本數(shù)據(jù)對客觀類 NLP 任務(wù)有一定提升，但對主觀類任務(wù)幫助不大

引入 700 萬多模態(tài)數(shù)據(jù)后，原始語言模型在客觀與主觀語言任務(wù)上的表現(xiàn)均出現(xiàn)明顯下降。為緩解這一問題，團(tuán)隊借鑒 InternVL2.5 的方法，額外加入了 200 萬條純文本數(shù)據(jù)進(jìn)行訓(xùn)練。然而由于目前缺乏足夠高質(zhì)量的人類對齊數(shù)據(jù)，這部分純文本僅在客觀 NLP 任務(wù)上帶來部分性能恢復(fù)，對主觀任務(wù)幾乎無幫助。這表明，當(dāng)前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰(zhàn)。

語言性能維持 - 模型結(jié)構(gòu)角度

上述實驗表明，僅靠增加純文本數(shù)據(jù)來維持多模態(tài)大模型的語言能力效果有限。為此，另一類方法嘗試通過架構(gòu)設(shè)計來增強(qiáng)語言表現(xiàn)，例如 CogVLM 和 Wings 采用 MoE 結(jié)構(gòu)來提升模型性能。

然而在實際部署中發(fā)現(xiàn)，Wings 雖然設(shè)計復(fù)雜，但純語言任務(wù)性能平均下降超過 20%，無法滿足實際應(yīng)用需求；而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊，并凍結(jié)原始語言模型，從而在多模態(tài)輸入下保持其純語言能力不變。

盡管這一方式在精度上更穩(wěn)定，但也存在兩大問題：

其一，部署時需同時加載 LLM 和視覺專家模塊，顯著增加內(nèi)存開銷；

其二，當(dāng)前手機(jī) NPU 尚不支持 MoE 模型運行，導(dǎo)致模型難以在移動端真正落地。

這些挑戰(zhàn)說明，提升語言能力與實現(xiàn)高效部署之間仍需更好的權(quán)衡策略。

為完整評估 CogVLM 方法在多模態(tài)訓(xùn)練中的效果，基于 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型進(jìn)行實驗。為緩解部署中的內(nèi)存壓力，僅在 1/4 的 Transformer 層中加入視覺專家模塊，分別嘗試插入在前 1/4（Pre）、后 1/4（Post）和每隔 1/4（Skip）的位置。同時，對其余層的注意力和前饋模塊加入 LoRA 權(quán)重。在此基礎(chǔ)上，將三種 CogVLM 策略與全量微調(diào)和全 LoRA 訓(xùn)練進(jìn)行對比，并列出訓(xùn)練中涉及的可學(xué)習(xí)參數(shù)量（包括 ViT 和投影層）。

這一實驗有助于理解不同多模態(tài)訓(xùn)練策略在性能和參數(shù)效率之間的權(quán)衡。得到兩個主要結(jié)論：

1、與全量微調(diào)相比，LoRA 和 CogVLM 方法都會不同程度地削弱多模態(tài)大模型的性能。

由于可訓(xùn)練參數(shù)數(shù)量受限，LoRA 和 CogVLM 的多模態(tài)性能仍略低于全量微調(diào)，但整體已可達(dá) 90% 以上。其中，CogVLM 在多模態(tài)表現(xiàn)上優(yōu)于 LoRA。值得注意的是，全量微調(diào)雖然多模態(tài)能力最強(qiáng)，但會顯著削弱純文本任務(wù)的效果；相比之下，LoRA 和 CogVLM 采用不共享基座模型的部署策略，在提升多模態(tài)能力的同時，能夠保持純文本性能不受影響。

2、對于 CogVLM，將視覺專家模塊均勻插入至整個模型的 1/4 層位置，能夠?qū)崿F(xiàn)最佳的 MLLM 性能表現(xiàn)。

在 CogVLM 方法中，將視覺專家模塊添加到每 1/4 層的位置（即每隔若干層插入一次，覆蓋總層數(shù)的 1/4），能使多模態(tài)大模型的性能達(dá)到全量微調(diào)的 96% 以上。同時，CogVLM 的訓(xùn)練方式不會影響純文本任務(wù)表現(xiàn)，基于此，團(tuán)隊選擇以此方法為基礎(chǔ)設(shè)計了 GenieBlue。

GenieBlue 的設(shè)計

1、模型結(jié)構(gòu)

基于 CogVLM 結(jié)構(gòu)進(jìn)行改進(jìn)，重點考慮了當(dāng)前手機(jī) NPU 對 MoE 架構(gòu)的限制。CogVLM 的核心思想是將文本和多模態(tài)信息分開處理，采用 MoE 架構(gòu)由不同專家分別負(fù)責(zé)文本和視覺 Token。而設(shè)計原則則繞開 MoE，通過為 LLM 和多模態(tài)模型部署選擇不同權(quán)重，保持原始 LLM 架構(gòu)在多模態(tài)推理時不變。

GenieBlue 框架如上圖所示。為節(jié)省手機(jī)端模型存儲和部署內(nèi)存，在 LLM 中每 1/4 的位置復(fù)制一組 Transformer 層，其余層加入 LoRA 模塊。

在多模態(tài)訓(xùn)練階段，凍結(jié)原始 LLM，僅對 ViT、投影層、復(fù)制的 Transformer 塊和新增的 LoRA 參數(shù)進(jìn)行訓(xùn)練。

推理時采用不共基座的部署策略。純文本任務(wù)使用未修改的原始 LLM 計算；多模態(tài)任務(wù)則用訓(xùn)練好的復(fù)制 Transformer 塊替換對應(yīng)層，同時在其余層添加 LoRA 參數(shù)。這種不共基座策略有效避免了 MoE 架構(gòu)，將 LLM 和多模態(tài)模型推理解耦。實際 NPU 部署時，只需替換權(quán)重并加載 LoRA 模塊，簡化了部署流程，提高了效率。

基于 250 萬預(yù)訓(xùn)練數(shù)據(jù)和 900 萬微調(diào)數(shù)據(jù)，使用 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型，將提出的 GenieBlue 與全量微調(diào)和 CogVLM 方法進(jìn)行了對比評測。

GenieBlue-Skip 實現(xiàn)了最佳的多模態(tài)性能表現(xiàn)，且優(yōu)于 CogVLM-Skip 方法。

2、不共基座部署方案

通過將 LLM 和 MLLM 的推理過程分離，采用 GenieBlue 的不共基座部署策略可以有效保持原始 LLM 的純語言能力。

為驗證該策略的重要性，在 LLM 基準(zhǔn)測試中對比了共基座和不共基座兩種部署方式。共基座表示將 LLM 和多模態(tài)模型推理流程合并，純文本任務(wù)推理時也使用全訓(xùn)練的 Transformer 層和 LoRA 模塊。此外還展示了 BlueLM-3B 和 Qwen2.5-3B 在全量微調(diào)和全 LoRA 訓(xùn)練下的 NLP 性能。

采用不共基座的部署策略，在純文本任務(wù)上表現(xiàn)出顯著優(yōu)于共基座部署的語言能力。

訓(xùn)練和部署方案

基于對訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)的分析，最終確定了 GenieBlue-Skip 模型結(jié)構(gòu)及不共基座部署策略。

1、訓(xùn)練方案

采用 GenieBlue-Skip 結(jié)構(gòu)，嚴(yán)格按照 BlueLM-V-3B 的訓(xùn)練方案和數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練分兩階段：第一階段使用 250 萬預(yù)訓(xùn)練數(shù)據(jù)，僅訓(xùn)練 MLP 投影層，凍結(jié) ViT 和 LLM；第二階段用 6.45 億微調(diào)數(shù)據(jù)，微調(diào) ViT、投影層、復(fù)制的 Transformer 塊及新增的 LoRA 參數(shù)，保持原始 LLM 凍結(jié)。訓(xùn)練中，ViT 采用 SigLIP，LLM 為 BlueLM-3B，LoRA 秩設(shè)置為 8。

2、部署方案

將 GenieBlue 部署在搭載高通驍龍 8 Elite（第四代）SoC 的 iQOO 13 手機(jī) NPU 上，采用高通 QNN SDK 進(jìn)行模型部署。ViT 和投影層采用 W8A16 量化，LLM 采用 W4A16 量化，新增的 LoRA 參數(shù)同樣使用 W8A16 量化。目前支持單 Patch 的 ViT 推理。需要特別說明的是，驍龍 8 Elite 的 NPU 平臺暫不支持 MoE 架構(gòu)的部署。

GenieBlue 的準(zhǔn)確率和部署效果

團(tuán)隊驗證了 GenieBlue 的多模態(tài)、純語言準(zhǔn)確率以及在手機(jī) NPU 上的部署效率。

1、多模態(tài)準(zhǔn)確率

GenieBlue 與參數(shù)量小于 40 億的其他 MLLM 進(jìn)行了對比。GenieBlue 的多模態(tài)準(zhǔn)確率略低于 Qwen2.5-VL-3B，但保留了 BlueLM-V-3B 約 97% 的性能。此外，GenieBlue 在平均表現(xiàn)上略優(yōu)于 InternVL2-8B。

2、純語言準(zhǔn)確率

GenieBlue 最大特點是采用不共基座部署策略，能夠保持原始語言模型性能不受影響。在多個代表性基準(zhǔn)測試上對其語言能力進(jìn)行了評測。作為對比，選擇了通過加入純文本數(shù)據(jù)保持語言性能的 Qwen2.5VL-3B。GenieBlue 在語言能力上無任何下降，而 Qwen2.5VL-3B 尤其在主觀任務(wù)中存在一定程度的性能退化。這表明，與單純增加純文本數(shù)據(jù)相比，目前探索模型結(jié)構(gòu)設(shè)計更有助于維持語言模型的純文本能力。

3、部署效率

在搭載高通驍龍 8 Elite（第四代）SoC 的設(shè)備上，采用不共基座部署策略實現(xiàn)了 GenieBlue，支持單 Patch 的 ViT 推理，并展示了 BlueLM-V-3B 與 GenieBlue 的部署效率對比。由于增加了 LoRA 參數(shù)，GenieBlue 的模型加載時間稍長，存儲和內(nèi)存需求略增，輸出速度略有下降，但 30token/s 的速度完全滿足移動設(shè)備的日常使用需求。

總結(jié)

本文從移動設(shè)備實際部署出發(fā)，聚焦如何保持純語言能力，深入分析了訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面的影響，探索有效策略。基于這些分析提出 GenieBlue ——專為移動端打造的高效且硬件友好的多模態(tài)大模型，能夠融合語言理解與多模態(tài)能力。GenieBlue 在訓(xùn)練時凍結(jié)原始語言模型參數(shù)，利用復(fù)制的 Transformer 層和輕量的 LoRA 模塊獲得多模態(tài)能力，既保持了語言性能，又實現(xiàn)了有競爭力的多模態(tài)表現(xiàn)。在智能手機(jī) NPU 上的部署驗證了其實際可行性和高效性，是移動端邊緣計算的有力解決方案。團(tuán)隊期待此項工作為該領(lǐng)域未來研究帶來有益啟示。

論文地址：

https://arxiv.org/pdf/2503.06019

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

點亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

vivo 突破手機(jī) AI 部署難題，繞開 MoE 架構(gòu)限制，驍龍 8 Elite 流暢運行

宙世代

一起剪

相關(guān)閱讀

限時3天！華為手機(jī)免費貼膜、維修免人工費

小鵬G7發(fā)布磁吸紙巾盒：售價75元 不到小米一半

8.8mm全球最薄折疊屏！京東方聯(lián)合榮耀打造Magic V5柔性O(shè)LED

500億元補(bǔ)貼12個月！淘寶閃購再加碼

常州夫妻向世界傳遞“好聲音”，攢下173億元財富

三星史上最薄折疊屏！Galaxy Z Fold7真機(jī)首曝：中框跟卡托差不多厚

大疆尋找地面

先進(jìn)封裝戰(zhàn)況加劇

小米 YU7「車規(guī)級」紙巾盒被罵賣太貴，雷軍回應(yīng)

梧桐樹資本劉乾坤：首倡“文明級創(chuàng)新”，民營創(chuàng)投的破局路

格靈深瞳6篇論文入選ICCV 2025，涵蓋視覺基座模型、人臉3D重建等領(lǐng)域

別劃走！這就是你在尋找的智能體體檢報告

富士康要求中國員工從印度撤離！蘋果剛準(zhǔn)備在印度擴(kuò)大iPhone 17產(chǎn)能

微軟再裁9000人引員工不滿：一邊稱盈利最強(qiáng) 一邊啟動裁員

最新評論

量子位

熱門推薦

小鵬G7發(fā)布磁吸紙巾盒：售價75元不到小米一半