量子位 20小時前

GitHub 一周 2000 星！國產統一圖像生成模型神器升級，理解質量雙 up，還學會了“反思”

國產開源統一圖像生成模型，技術重大升級！

新進展來自智源研究院：

一模支持文生圖、圖像編輯、主題驅動圖像生成的OmniGen，2.0 新版本正式發布。

具體來說，OmniGen2在保持簡潔架構的基礎上，顯著增強了上下文理解能力、指令遵循能力和圖像生成質量。

同時，OmniGen2 全面繼承了其基座多模態大模型在上下文理解與生成方面的能力，同步支持圖像和文字生成，進一步打通了多模態技術生態。

模型上線即引發開源社區廣泛討論，發布一周 GitHub 星標突破2000，X 上相關話題瀏覽量數十萬。

現在科研體驗版已開放，可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力（鏈接見文末）。

官方還承諾，OmniGen2 模型權重、訓練代碼及訓練數據將全面開源，為社區開發者提供優化與擴展的基礎。

多種玩法，提示詞就能解鎖

OmniGen2 的玩法簡單，只需要輸入提示詞，就能解鎖豐富的圖像編輯與生成能力。

1. 基于自然語言指令的圖像編輯

OmniGen2 支持基于自然語言指令的圖片編輯功能，可實現局部修改操作，包括物體增刪、顏色調整、人物表情修改、背景替換等。

2. 多模態上下文參考的圖像生成

OmniGen2 可從輸入圖像中提取指定元素，并基于這些元素生成新圖像。例如，將物品 / 人物置于新的場景中。當前 OmniGen2 更擅長保持物體相似度而不是人臉相似度。

3. 文生圖

OmniGen2 能夠生成任意比例的圖片。

從創新架構到圖像生成反思機制

再來看看具體技術細節。

分離式架構 + 雙編碼器策略

OmniGen2 采取了分離式架構解耦文本和圖像，同時采用了 ViT 和 VAE 的雙編碼器策略。

不同于其他工作，ViT 和 VAE 獨立作用于 MLLM 和 Diffusion Transformer 中，提高圖像一致性的同時保證原有的文字生成能力。

數據生成流程重構

OmniGen2 也在探索解決阻礙領域發展的基礎數據和評估方面的難題。

相關的開源數據集大多存在固有的質量缺陷，尤其是在圖像編輯任務中，圖像質量和質量準確度都不高。而對于圖片上下文參考生成任務，社區中缺乏相應的大規模多樣化的訓練數據。這些缺陷極大地導致了開源模型和商業模型之間顯著的性能差距。

為了解決這個問題，OmniGen2 開發了一個從視頻數據和圖像數據中生成圖像編輯和上下文參考數據的構造流程。

圖像生成反思機制

受到大型語言模型自我反思能力的啟發，OmniGen2 還探索了將反思能力整合到多模態生成模型中的策略。

基于 OmniGen2 的基礎模型構建了面對圖像生成的反思數據。

反思數據由文本和圖像的交錯序列組成，首先是一個用戶指令，接著是多模態模型生成的圖像，然后是針對之前生成輸出的逐步反思。

每條反思都涉及兩個關鍵方面：

對與原始指令相關的缺陷或未滿足要求的分析；

為解決前一幅圖像的局限性而提出的解決方案。

經過訓練的模型具備初步的反思能力，未來目標是進一步使用強化學習進行訓練。

新基準

OmniGen2 在已有基準上取得了頗具競爭力的結果，包括文生圖，圖像編輯。

然而，對于圖片上下文參考生成（in-context generation）任務，目前還缺乏完善的公共基準來系統地評估和比較不同模型的關鍵能力。

現有的上下文圖像生成基準在捕獲實際應用場景方面存在不足。它們不考慮具有多個輸入圖像的場景，并且受到上下文類型和任務類型的限制。同時，先前的基準使用 CLIP-I 和 DINO 指標來評估上下文生成的圖像的質量。這些指標依賴于輸入和輸出之間的圖像級相似性，這使得它們不適用于涉及多個主題的場景，并且缺乏可解釋性。

為了解決這一限制，團隊引入了OmniContext 基準，其中包括8 個任務類別，專門用于評估個人、物體和場景的一致性。

數據的構建采用多模態大語言模型初篩和人類專家手工標注相結合的混合方法。

作為首個在該基準上接受評估的模型，OmniGen2 取得了7.18的總體得分，超越了 BAGEL 等其他領先的開源模型，證明其能較好地平衡提示詞遵循能力和主體一致性，在多種任務場景下都能穩定發揮。

此外，OmniGen2 依托智源研究院自研的大模型訓練推理并行框架 FlagScale，開展推理部署優化工作。通過深度重構模型推理鏈路，并融合 TeaCache 緩存加速策略，實現 32% 的推理效率提升，大幅縮短響應時間并強化服務效能。

同時，框架支持一鍵式跨機多實例彈性部署，有效提升集群資源整體利用率。團隊將持續推進軟硬協同優化，構建高效推理部署能力體系。

OmniGen2 的模型權重、訓練代碼及訓練數據將全面開源，為開發者提供優化與擴展的新基礎，推動統一圖像生成模型從構想加速邁向現實。

OmniGen2 相關鏈接

Github: https://github.com/VectorSpaceLab/OmniGen2/

論文：https://arxiv.org/abs/2506.18871

模型：https://huggingface.co/BAAI/OmniGen2

科研體驗版鏈接：https://genai.baai.ac.cn

* 本文系量子位獲授權刊載，觀點僅為原作者所有。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星標

科技前沿進展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

abs

熱門推薦

DeepSeek-R2！？神秘模型驚現競技場，真實身份引網友猜測量子位
華為多路徑推理破解大模型數學瓶頸，準確率超97% 量子位
Grok 4意外提前曝光，xAI巨額融資700億，馬斯克宣布“重寫人類知識庫” 量子位
vivo突破手機AI部署難題，繞開MoE架構限制，驍龍8 Elite流暢運行量子位
Gemini負責人爆料！多模態統一token表示，視覺至關重要量子位
GitHub一周2000星！國產統一圖像生成模型神器升級，理解質量雙up，還學會了“反思” 量子位
一份假簡歷領5份硅谷AI工資，印度老哥真是不得了量子位
謝賽寧團隊新作：不用提示詞精準實現3D畫面控制量子位
大模型越反思越錯，原來是長鏈推理通過自我說服加重幻覺量子位

查看更多內容

Blockchain News

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

GitHub 一周 2000 星！國產統一圖像生成模型神器升級，理解質量雙 up，還學會了“反思”

宙世代

一起剪

相關閱讀

曝iPhone 17 Pro Max電池將達到5000mAh：蘋果史上最大

折疊屏競速：榮耀蘋果加碼，AI重構高端戰場

金融業初試智能體：讓AI長出“腦、眼、四肢”

YU7 剛出就剎車起火？這還真怪不了小米。

小鵬G7發布磁吸紙巾盒：售價75元 不到小米一半

500億元補貼12個月！淘寶閃購再加碼

小鵬G7 Ultra行業首發本地端VLA+VLM大模型 9月起推送上車

大疆尋找地面

沒有首發評測原因找到了！RTX 5050實測：不及銳炫B580和RTX 4060

小米 YU7「車規級」紙巾盒被罵賣太貴，雷軍回應

梧桐樹資本劉乾坤：首倡“文明級創新”，民營創投的破局路

富士康要求中國員工從印度撤離！蘋果剛準備在印度擴大iPhone 17產能

阿里，3800億AI新長征

卡夫亨氏因李斯特菌污染召回部分培根產品；泡泡瑪特回應6300萬英鎊英國買樓：假消息；韓國三養食品投資1.5億美元在中國浙江建首個海外工廠

最新評論

量子位

熱門推薦

小鵬G7發布磁吸紙巾盒：售價75元不到小米一半