關于ZAKER 合作
量子位 20小時前

GitHub 一周 2000 星!國產統一圖像生成模型神器升級,理解質量雙 up,還學會了“反思”

國產開源統一圖像生成模型,技術重大升級!

新進展來自智源研究院:

一模支持文生圖、圖像編輯、主題驅動圖像生成的OmniGen,2.0 新版本正式發布。

具體來說,OmniGen2在保持簡潔架構的基礎上,顯著增強了上下文理解能力、指令遵循能力和圖像生成質量

同時,OmniGen2 全面繼承了其基座多模態大模型在上下文理解與生成方面的能力,同步支持圖像和文字生成,進一步打通了多模態技術生態

模型上線即引發開源社區廣泛討論,發布一周 GitHub 星標突破2000,X 上相關話題瀏覽量數十萬

現在科研體驗版已開放,可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力(鏈接見文末)。

官方還承諾,OmniGen2 模型權重、訓練代碼及訓練數據將全面開源,為社區開發者提供優化與擴展的基礎。

多種玩法,提示詞就能解鎖

OmniGen2 的玩法簡單,只需要輸入提示詞,就能解鎖豐富的圖像編輯與生成能力。

1. 基于自然語言指令的圖像編輯

OmniGen2 支持基于自然語言指令的圖片編輯功能,可實現局部修改操作,包括物體增刪、顏色調整、人物表情修改、背景替換等。

2. 多模態上下文參考的圖像生成

OmniGen2 可從輸入圖像中提取指定元素,并基于這些元素生成新圖像。例如,將物品 / 人物置于新的場景中。當前 OmniGen2 更擅長保持物體相似度而不是人臉相似度。

3. 文生圖

OmniGen2 能夠生成任意比例的圖片。

從創新架構到圖像生成反思機制

再來看看具體技術細節。

分離式架構 + 雙編碼器策略

OmniGen2 采取了分離式架構解耦文本和圖像,同時采用了 ViT 和 VAE 的雙編碼器策略。

不同于其他工作,ViT 和 VAE 獨立作用于 MLLM 和 Diffusion Transformer 中,提高圖像一致性的同時保證原有的文字生成能力。

數據生成流程重構

OmniGen2 也在探索解決阻礙領域發展的基礎數據和評估方面的難題。

相關的開源數據集大多存在固有的質量缺陷,尤其是在圖像編輯任務中,圖像質量和質量準確度都不高。而對于圖片上下文參考生成任務,社區中缺乏相應的大規模多樣化的訓練數據。這些缺陷極大地導致了開源模型和商業模型之間顯著的性能差距。

為了解決這個問題,OmniGen2 開發了一個從視頻數據和圖像數據中生成圖像編輯和上下文參考數據的構造流程。

圖像生成反思機制

受到大型語言模型自我反思能力的啟發,OmniGen2 還探索了將反思能力整合到多模態生成模型中的策略。

基于 OmniGen2 的基礎模型構建了面對圖像生成的反思數據

反思數據由文本和圖像的交錯序列組成,首先是一個用戶指令,接著是多模態模型生成的圖像,然后是針對之前生成輸出的逐步反思。

每條反思都涉及兩個關鍵方面:

對與原始指令相關的缺陷或未滿足要求的分析;

為解決前一幅圖像的局限性而提出的解決方案。

經過訓練的模型具備初步的反思能力,未來目標是進一步使用強化學習進行訓練。

新基準

OmniGen2 在已有基準上取得了頗具競爭力的結果,包括文生圖,圖像編輯。

然而,對于圖片上下文參考生成(in-context generation)任務,目前還缺乏完善的公共基準來系統地評估和比較不同模型的關鍵能力。

現有的上下文圖像生成基準在捕獲實際應用場景方面存在不足。它們不考慮具有多個輸入圖像的場景,并且受到上下文類型和任務類型的限制。同時,先前的基準使用 CLIP-I 和 DINO 指標來評估上下文生成的圖像的質量。這些指標依賴于輸入和輸出之間的圖像級相似性,這使得它們不適用于涉及多個主題的場景,并且缺乏可解釋性。

為了解決這一限制,團隊引入了OmniContext 基準,其中包括8 個任務類別,專門用于評估個人、物體和場景的一致性

數據的構建采用多模態大語言模型初篩和人類專家手工標注相結合的混合方法。

作為首個在該基準上接受評估的模型,OmniGen2 取得了7.18的總體得分,超越了 BAGEL 等其他領先的開源模型,證明其能較好地平衡提示詞遵循能力和主體一致性,在多種任務場景下都能穩定發揮 。

此外,OmniGen2 依托智源研究院自研的大模型訓練推理并行框架 FlagScale,開展推理部署優化工作。通過深度重構模型推理鏈路,并融合 TeaCache 緩存加速策略,實現 32% 的推理效率提升,大幅縮短響應時間并強化服務效能。

同時,框架支持一鍵式跨機多實例彈性部署,有效提升集群資源整體利用率。團隊將持續推進軟硬協同優化,構建高效推理部署能力體系。

OmniGen2 的模型權重、訓練代碼及訓練數據將全面開源,為開發者提供優化與擴展的新基礎,推動統一圖像生成模型從構想加速邁向現實。

OmniGen2 相關鏈接

Github: https://github.com/VectorSpaceLab/OmniGen2/

論文:https://arxiv.org/abs/2506.18871

模型:https://huggingface.co/BAAI/OmniGen2

科研體驗版鏈接:https://genai.baai.ac.cn

* 本文系量子位獲授權刊載,觀點僅為原作者所有。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

點亮星標

科技前沿進展每日見

相關標簽
abs
主站蜘蛛池模板: 成人午夜视频在线播放| 一本大道香蕉大vr在线吗视频| 亚洲av永久无码嘿嘿嘿| 亚洲熟妇色自偷自拍另类| 午夜网站在线观看免费网址免费| 国产国产精品人在线观看| 国产精品三级在线观看| 国产黄A三级三级三级| 女人扒开腿让男人桶个爽| 手机在线看片国产日韩生活片| 日韩人妻一区二区三区免费| 欧美中文字幕在线视频| 欧美黑人vs亚裔videos| 男人扒开女人下身添免费| 精品少妇人妻av一区二区| 老师好大好爽办公室视频| 被民工蹂躏的雯雅婷| 黄色毛片在线看| 鲁一鲁中文字幕久久| 香蕉视频久久久| 香港三级韩国三级人妇三| 香蕉人人超人人超碰超国产| 高龄五十路中出| 蜜桃丶麻豆91制片厂| 色偷偷亚洲女人天堂观看欧| 老司机永久免费视频| 美女和男生一起差差差| 色婷婷丁香六月| 美女毛片一区二区三区四区| 精品水蜜桃久久久久久久| 福利一区二区视频| 波多野结衣中文字幕电影| 永久免费看bbb| 欧美国产精品久久| 日韩一级黄色影片| 把数学课代表按在地上c视频| 差差漫画页面登录在线看| 天堂资源最新版在线官网| 国产美女精品一区二区三区| 国产精品一区二区三区久久| 国产免费观看网站|