在 AI 邁入多模態(tài)時代的當(dāng)下," 讓大模型上手機(jī) "成為產(chǎn)業(yè)落地的焦點。
現(xiàn)有 MLLM 在手機(jī)端部署時常面臨兩大難題:
1、純語言任務(wù)性能下降:現(xiàn)有的端側(cè) MLLM 在純文本的任務(wù)上表現(xiàn)不盡人意;
2、手機(jī) NPU 不支持 MoE 架構(gòu):而 MoE 架構(gòu)恰恰是多模態(tài)訓(xùn)練中保持語言能力的常用手段(比如 CogVLM,Wings)。
vivo AI 研究院聯(lián)合港中文以及上交團(tuán)隊為了攻克這些難題,從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面,系統(tǒng)性地分析了如何在 MLLM 訓(xùn)練中維持純語言能力,并基于此提出了 GenieBlue ——專為移動端手機(jī) NPU 設(shè)計的高效 MLLM 結(jié)構(gòu)方案。目前已被 ICCV 2025 接收。
1、現(xiàn)有端側(cè) LLM 在支持多模態(tài)功能后,純語言任務(wù)準(zhǔn)確率下降超 10%。GenieBlue 通過凍結(jié)原始 LLM 參數(shù),并引入復(fù)制的 Transformer 層和輕量化的 LoRA 模塊,在多模態(tài)訓(xùn)練的過程中保留原始的語言能力。
2、通過大規(guī)模微調(diào),GenieBlue 達(dá)到與主流 MLLM 相媲美的多模態(tài)能力,并完全保留原始純語言性能。
3、避開當(dāng)前 NPU 不支持的 MoE 架構(gòu),采用不共享基座的推理策略。在搭載高通驍龍 8 Elite(第四代)芯片的手機(jī)上實現(xiàn)流暢運行。
技術(shù)背景
1、當(dāng)前的端側(cè) MLLM 無法取得令人滿意的純語言能力
在 MATH(客觀難題)、AlignBench 和 MT-Bench(主觀題)上測試主流開源 MLLM 的純語言能力,并與原始 LLM 進(jìn)行了對比。
其中,Wings 是 NeurIPS 2024 提出的多模態(tài)訓(xùn)練中保持語言能力的方案。測試結(jié)果表明,當(dāng)前多模態(tài)大模型雖然在圖文任務(wù)上表現(xiàn)優(yōu)異,但在純語言任務(wù)上普遍存在顯著性能下降,降幅大多超過 10%。相比之下,GenieBlue 在保持多模態(tài)能力的同時,未出現(xiàn)任何純語言能力的損失。
由于 MoE 架構(gòu)對內(nèi)存帶寬和容量要求較高,主流移動端 NPU 平臺尚未提供支持。測試顯示,包括聯(lián)發(fā)科天璣 9400 和高通驍龍 8 Elite 在內(nèi)的旗艦 SoC,其 NPU 均無法有效部署標(biāo)準(zhǔn) MoE 模型。
基于上述兩個發(fā)現(xiàn),團(tuán)隊從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩個方面詳細(xì)探討了多模態(tài)訓(xùn)練過程中保持純語言性能的方法。
語言性能維持 - 數(shù)據(jù)角度
在 MLLM 訓(xùn)練過程中,保持純語言能力最直接常用的方法是在訓(xùn)練數(shù)據(jù)中加入純文本數(shù)據(jù)。目前 InternVL2.5 和 Qwen2.5-VL 都采用了這種方法。但這種方法存在兩個主要問題:一是難以收集大量高質(zhì)量的純文本指令微調(diào)數(shù)據(jù),特別是針對主觀性 NLP 任務(wù)的數(shù)據(jù);二是在 MLLM 訓(xùn)練中加入大量純文本數(shù)據(jù)會顯著增加訓(xùn)練時間。
為了驗證該方法的有效性,從 ViT 與 LLM 開始全量微調(diào)一個 MLLM。具體地,模型基于面向手機(jī)端部署的 BlueLM-V-3B 架構(gòu),ViT 部分使用 SigLIP,LLM 部分使用 BlueLM-3B 或 Qwen2.5-3B。訓(xùn)練流程參考 Cambrian-1,先用提供的 250 萬對齊數(shù)據(jù)預(yù)訓(xùn)練,再用 700 萬數(shù)據(jù)進(jìn)行微調(diào)。為對比,在微調(diào)階段額外加入 200 萬純文本數(shù)據(jù),主要來自 InternVL2.5,如下表所示。
在訓(xùn)練中引入了包含 200 萬樣本的額外純語言數(shù)據(jù),發(fā)現(xiàn)模型的多模態(tài)能力幾乎未受影響。這一現(xiàn)象表明,在多模態(tài)大模型訓(xùn)練過程中,適量加入純文本數(shù)據(jù)對模型的多模態(tài)表現(xiàn)并無顯著影響。
2、純文本數(shù)據(jù)對客觀類 NLP 任務(wù)有一定提升,但對主觀類任務(wù)幫助不大
引入 700 萬多模態(tài)數(shù)據(jù)后,原始語言模型在客觀與主觀語言任務(wù)上的表現(xiàn)均出現(xiàn)明顯下降。為緩解這一問題,團(tuán)隊借鑒 InternVL2.5 的方法,額外加入了 200 萬條純文本數(shù)據(jù)進(jìn)行訓(xùn)練。然而由于目前缺乏足夠高質(zhì)量的人類對齊數(shù)據(jù),這部分純文本僅在客觀 NLP 任務(wù)上帶來部分性能恢復(fù),對主觀任務(wù)幾乎無幫助。這表明,當(dāng)前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰(zhàn)。
語言性能維持 - 模型結(jié)構(gòu)角度
上述實驗表明,僅靠增加純文本數(shù)據(jù)來維持多模態(tài)大模型的語言能力效果有限。為此,另一類方法嘗試通過架構(gòu)設(shè)計來增強(qiáng)語言表現(xiàn),例如 CogVLM 和 Wings 采用 MoE 結(jié)構(gòu)來提升模型性能。
然而在實際部署中發(fā)現(xiàn),Wings 雖然設(shè)計復(fù)雜,但純語言任務(wù)性能平均下降超過 20%,無法滿足實際應(yīng)用需求;而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊,并凍結(jié)原始語言模型,從而在多模態(tài)輸入下保持其純語言能力不變。
盡管這一方式在精度上更穩(wěn)定,但也存在兩大問題:
其一,部署時需同時加載 LLM 和視覺專家模塊,顯著增加內(nèi)存開銷;
其二,當(dāng)前手機(jī) NPU 尚不支持 MoE 模型運行,導(dǎo)致模型難以在移動端真正落地。
這些挑戰(zhàn)說明,提升語言能力與實現(xiàn)高效部署之間仍需更好的權(quán)衡策略。
為完整評估 CogVLM 方法在多模態(tài)訓(xùn)練中的效果,基于 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型進(jìn)行實驗。為緩解部署中的內(nèi)存壓力,僅在 1/4 的 Transformer 層中加入視覺專家模塊,分別嘗試插入在前 1/4(Pre)、后 1/4(Post)和每隔 1/4(Skip)的位置。同時,對其余層的注意力和前饋模塊加入 LoRA 權(quán)重。在此基礎(chǔ)上,將三種 CogVLM 策略與全量微調(diào)和全 LoRA 訓(xùn)練進(jìn)行對比,并列出訓(xùn)練中涉及的可學(xué)習(xí)參數(shù)量(包括 ViT 和投影層)。
這一實驗有助于理解不同多模態(tài)訓(xùn)練策略在性能和參數(shù)效率之間的權(quán)衡。得到兩個主要結(jié)論:
由于可訓(xùn)練參數(shù)數(shù)量受限,LoRA 和 CogVLM 的多模態(tài)性能仍略低于全量微調(diào),但整體已可達(dá) 90% 以上。其中,CogVLM 在多模態(tài)表現(xiàn)上優(yōu)于 LoRA。值得注意的是,全量微調(diào)雖然多模態(tài)能力最強(qiáng),但會顯著削弱純文本任務(wù)的效果;相比之下,LoRA 和 CogVLM 采用不共享基座模型的部署策略,在提升多模態(tài)能力的同時,能夠保持純文本性能不受影響。
2、對于 CogVLM,將視覺專家模塊均勻插入至整個模型的 1/4 層位置,能夠?qū)崿F(xiàn)最佳的 MLLM 性能表現(xiàn)。
在 CogVLM 方法中,將視覺專家模塊添加到每 1/4 層的位置(即每隔若干層插入一次,覆蓋總層數(shù)的 1/4),能使多模態(tài)大模型的性能達(dá)到全量微調(diào)的 96% 以上。同時,CogVLM 的訓(xùn)練方式不會影響純文本任務(wù)表現(xiàn),基于此,團(tuán)隊選擇以此方法為基礎(chǔ)設(shè)計了 GenieBlue。
GenieBlue 的設(shè)計
1、模型結(jié)構(gòu)
基于 CogVLM 結(jié)構(gòu)進(jìn)行改進(jìn),重點考慮了當(dāng)前手機(jī) NPU 對 MoE 架構(gòu)的限制。CogVLM 的核心思想是將文本和多模態(tài)信息分開處理,采用 MoE 架構(gòu)由不同專家分別負(fù)責(zé)文本和視覺 Token。而設(shè)計原則則繞開 MoE,通過為 LLM 和多模態(tài)模型部署選擇不同權(quán)重,保持原始 LLM 架構(gòu)在多模態(tài)推理時不變。
在多模態(tài)訓(xùn)練階段,凍結(jié)原始 LLM,僅對 ViT、投影層、復(fù)制的 Transformer 塊和新增的 LoRA 參數(shù)進(jìn)行訓(xùn)練。
推理時采用不共基座的部署策略。純文本任務(wù)使用未修改的原始 LLM 計算;多模態(tài)任務(wù)則用訓(xùn)練好的復(fù)制 Transformer 塊替換對應(yīng)層,同時在其余層添加 LoRA 參數(shù)。這種不共基座策略有效避免了 MoE 架構(gòu),將 LLM 和多模態(tài)模型推理解耦。實際 NPU 部署時,只需替換權(quán)重并加載 LoRA 模塊,簡化了部署流程,提高了效率。
基于 250 萬預(yù)訓(xùn)練數(shù)據(jù)和 900 萬微調(diào)數(shù)據(jù),使用 BlueLM-3B 和 Qwen2.5-3B 兩種語言模型,將提出的 GenieBlue 與全量微調(diào)和 CogVLM 方法進(jìn)行了對比評測。
2、不共基座部署方案
通過將 LLM 和 MLLM 的推理過程分離,采用 GenieBlue 的不共基座部署策略可以有效保持原始 LLM 的純語言能力。
為驗證該策略的重要性,在 LLM 基準(zhǔn)測試中對比了共基座和不共基座兩種部署方式。共基座表示將 LLM 和多模態(tài)模型推理流程合并,純文本任務(wù)推理時也使用全訓(xùn)練的 Transformer 層和 LoRA 模塊。此外還展示了 BlueLM-3B 和 Qwen2.5-3B 在全量微調(diào)和全 LoRA 訓(xùn)練下的 NLP 性能。
訓(xùn)練和部署方案
基于對訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)的分析,最終確定了 GenieBlue-Skip 模型結(jié)構(gòu)及不共基座部署策略。
1、訓(xùn)練方案
采用 GenieBlue-Skip 結(jié)構(gòu),嚴(yán)格按照 BlueLM-V-3B 的訓(xùn)練方案和數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練分兩階段:第一階段使用 250 萬預(yù)訓(xùn)練數(shù)據(jù),僅訓(xùn)練 MLP 投影層,凍結(jié) ViT 和 LLM;第二階段用 6.45 億微調(diào)數(shù)據(jù),微調(diào) ViT、投影層、復(fù)制的 Transformer 塊及新增的 LoRA 參數(shù),保持原始 LLM 凍結(jié)。訓(xùn)練中,ViT 采用 SigLIP,LLM 為 BlueLM-3B,LoRA 秩設(shè)置為 8。
2、部署方案
將 GenieBlue 部署在搭載高通驍龍 8 Elite(第四代)SoC 的 iQOO 13 手機(jī) NPU 上,采用高通 QNN SDK 進(jìn)行模型部署。ViT 和投影層采用 W8A16 量化,LLM 采用 W4A16 量化,新增的 LoRA 參數(shù)同樣使用 W8A16 量化。目前支持單 Patch 的 ViT 推理。需要特別說明的是,驍龍 8 Elite 的 NPU 平臺暫不支持 MoE 架構(gòu)的部署。
GenieBlue 的準(zhǔn)確率和部署效果
團(tuán)隊驗證了 GenieBlue 的多模態(tài)、純語言準(zhǔn)確率以及在手機(jī) NPU 上的部署效率。
1、多模態(tài)準(zhǔn)確率
GenieBlue 與參數(shù)量小于 40 億的其他 MLLM 進(jìn)行了對比。GenieBlue 的多模態(tài)準(zhǔn)確率略低于 Qwen2.5-VL-3B,但保留了 BlueLM-V-3B 約 97% 的性能。此外,GenieBlue 在平均表現(xiàn)上略優(yōu)于 InternVL2-8B。
GenieBlue 最大特點是采用不共基座部署策略,能夠保持原始語言模型性能不受影響。在多個代表性基準(zhǔn)測試上對其語言能力進(jìn)行了評測。作為對比,選擇了通過加入純文本數(shù)據(jù)保持語言性能的 Qwen2.5VL-3B。GenieBlue 在語言能力上無任何下降,而 Qwen2.5VL-3B 尤其在主觀任務(wù)中存在一定程度的性能退化。這表明,與單純增加純文本數(shù)據(jù)相比,目前探索模型結(jié)構(gòu)設(shè)計更有助于維持語言模型的純文本能力。
在搭載高通驍龍 8 Elite(第四代)SoC 的設(shè)備上,采用不共基座部署策略實現(xiàn)了 GenieBlue,支持單 Patch 的 ViT 推理,并展示了 BlueLM-V-3B 與 GenieBlue 的部署效率對比。由于增加了 LoRA 參數(shù),GenieBlue 的模型加載時間稍長,存儲和內(nèi)存需求略增,輸出速度略有下降,但 30token/s 的速度完全滿足移動設(shè)備的日常使用需求。
本文從移動設(shè)備實際部署出發(fā),聚焦如何保持純語言能力,深入分析了訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面的影響,探索有效策略。基于這些分析提出 GenieBlue ——專為移動端打造的高效且硬件友好的多模態(tài)大模型,能夠融合語言理解與多模態(tài)能力。GenieBlue 在訓(xùn)練時凍結(jié)原始語言模型參數(shù),利用復(fù)制的 Transformer 層和輕量的 LoRA 模塊獲得多模態(tài)能力,既保持了語言性能,又實現(xiàn)了有競爭力的多模態(tài)表現(xiàn)。在智能手機(jī) NPU 上的部署驗證了其實際可行性和高效性,是移動端邊緣計算的有力解決方案。團(tuán)隊期待此項工作為該領(lǐng)域未來研究帶來有益啟示。
論文地址:
https://arxiv.org/pdf/2503.06019
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點亮星標(biāo)
科技前沿進(jìn)展每日見