AI 的 " 創造力 " 居然是一種技術缺陷??
兩位物理學家以生物系統自我組裝的過程為參考,提出并驗證了一個大膽的假設——
擴散模型的去噪過程就像細胞的分化重組,圖像生成 AI 無法精確 " 復制 " 的原因也可能和它的 " 基因 "(架構)有關。
AI 的 " 創造力 " 本質上是一種確定性過程——是模型架構直接且必然產生的結果。
他們的假設從何而來?他們又做了什么來證明這個假設?
讓我們一起來看。
事情的起因:算法的獨特創造力
人工智能系統在進化的過程中越來越模仿人類的思維能力,并展現出了一種獨特又怪誕的 " 創造力 " 天賦。(所謂 AI 味?)
以擴散模型為例,作為 DALL · E、Imagen 和 Stable Diffusion 等圖像生成工具的核心,其設計初衷是精確擬合訓練數據的分布,生成與訓練圖像完全一致的副本。
然而在實踐中,它們似乎在即興創作,將圖像中的元素融合以創造出新的東西——不是無意義的彩色團塊,而是具有語義意義的連貫圖像。
是什么賦予了它們即興發揮的能力?
巴黎高等師范學院人工智能研究員、物理學家朱利奧 · 比羅利(Giulio Biroli)將這種現象稱為擴散模型的 " 悖論 ":
如果它們完美工作,就應該只是記憶。
但它們并沒有——實際上它們能夠生成新的樣本。
為了生成圖像,擴散模型使用一種稱為去噪的過程:它們將圖像轉換為數字噪聲(像素的無序集合),然后重新組裝。就像反復將一幅畫通過碎紙機,直到只剩下細小的塵埃,然后將碎片重新拼合在一起。
有兩位物理學家提出了一個大膽的假設:會不會是在重組的過程中有什么信息丟失了呢?一張拼圖可以按說明書拼回原型,但如果說明書不見了呢?
他們用論文證明了他們的猜想,這篇論文已被 ICML 2025 收錄。
驚人的發現:現實與 AI 的 " 多余手指 " 共性
這兩位物理學家會提出這樣的假設,和他們的背景密切相關:
論文的第一作者梅森 · 坎姆(Mason Kamb)長期以來一直癡迷于形態發生學——即生命系統自我組裝的動態過程。而他的研究生導師(也是論文的另一作者)蘇里亞 · 岡古利(Surya Ganguli)同時在神經生物學和電氣工程領域也有任職。他們都有跨學科的背景。
要理解人類和其他動物胚胎的發育過程,有一種方法是通過 " 圖靈模式 " ——這個理論得名于 20 世紀數學家艾倫 · 圖靈,解釋了細胞群如何自行組織形成不同的器官和肢體。
根據圖靈模式,細胞的協調完全是在局部層面完成的:并沒有一個 " 總指揮 " 來監管數萬億個細胞,確保它們都符合最終的身體構造方案。
換句話說,單個細胞并沒有一個完整的身體藍圖作為工作依據,它們只是根據鄰近細胞發出的信號采取行動并做出調整。
這種自下而上的系統通常運行順暢,但偶爾也會出錯——例如產生多指畸形的手。
唉?多指畸形的手?第一批 AI 生成的圖像,最經常被批評的不就是多指畸形的手嗎???
AI 研究人員到那時已經知道,在生成圖像時擴散模型會采取一些技術捷徑:局部性和等變性。
局部性是指,擴散模型一次只關注一組或一 " 塊 " 像素;
而等變性的規則是:如果你將輸入圖像在任何一個方向上移動幾個像素,系統會自動調整以在生成的圖像中做出相同的改變——是模型保持連貫結構的方式,沒有它,創建逼真圖像將更加困難。
由于這些特性,擴散模型不會關注某個特定區域塊將如何嵌入最終圖像中。它們只是專注于一次生成一個區域塊,然后使用一個稱為分數函數的數學模型自動將它們嵌入位置,這個分數函數可以被視為一種數字化的圖靈模式。
聽起來很像拼拼圖是吧?我們拼拼圖的時候也是一部分一部分、看著拼起來的。
有些藝術家會故意 " 打亂 " 拼圖的順序,創造出新的藝術作品,或者將不同畫作的部分拼貼在一起——這種藝術被稱為 " 拼貼藝術 "。
然而,研究人員長期以來將局部性和等變性視為去噪過程中的限制,是阻礙擴散模型完美復制圖像的技術難題,他們并未將它們與創造力聯系起來,因為創造力被視為一種更高級的現象。
可是坎姆并沒有這么想,恰恰相反,他認為:造成擴散模型 " 創造力 " 的原因,就是被其他人視為問題的局部性和等變性!
證明的方法:只優化局部性和等變性
為了證明這個假設,坎姆和岡古利提出了一種驗證思路:如果他們能夠設計一個系統,只優化局部性和等變性,那么這個系統應該表現得像擴散模型。
這兩位物理學家將他們的系統稱為等變局部評分機(ELS)。它不是一個訓練好的擴散模型,而是一組方程——可以僅基于局部性和等變性的機制,來解析和預測去噪圖像的組成。
總體而言,ELS 能夠以 90% 的平均準確率與訓練好的擴散模型的輸出完全匹配。
坎姆稱,這個結果 " 在機器學習中聞所未聞 "。
研究的結果似乎證明了他們的猜想:一旦加入局部性限制," 創造力 " 就會自動產生;它完全自然地來自于系統動態。
也就是說,正是那些在去噪過程中限制擴散模型注意力范圍的機制——迫使它們專注于單個圖像區塊,而不管這些區塊最終在成品中的位置——反而成就了它們的創造力。
擴散模型中出現的 " 多余手指 " 現象同樣如此,這正是模型過度專注于生成局部像素區塊、而缺乏整體背景認知的直接副產品。
這個研究展示了擴散模型的創造力可被視為去噪過程本身的副產品,且這一過程可被數學形式化,并能以前所未有的高度準確性預測。這幾乎就像神經科學家將一群人類藝術家放入核磁共振成像儀中,發現他們創造力背后存在一個可被寫成一組方程的常見神經機制一樣,無疑是可以被稱作 " 偉大 " 的。
可是,這個解釋是萬無一失的嗎?答案是否定的。
額外的問題:不利用局部性和等變性的模型似乎也表現出創造力
盡管坎布和岡古利的論文闡明了擴散模型創造力的機制,但仍有一些疑惑亟待解決:
例如,大型語言模型和其他 AI 系統似乎也表現出了創造力,但它們并不利用局部性和等變性。它們的創造力從何而來呢?
即便如此,這個發現依然具有很高的價值,就像是前面提到的,將擴散模型和神經科學的類比可能超越了單純的隱喻:兩位物理學家的研究也可能為人類思維的 " 黑箱 " 提供洞察。
" 人類和 AI 的創造力可能并沒有那么不同," 佐治亞理工學院的機器學習研究員本 · 胡佛(Ben Hoover)表示," 我們根據我們所經歷、所夢想、所見、所聽或所渴望的事物來組合事物。AI 也只是從它所見和被要求做的事情中組合基本構件。"
根據這種觀點,人類和人工智能的創造力都可能根本植根于對世界的理解不完整:我們都在盡力填補知識的空白,時不時就會產生既新穎又有價值的東西。
也許,這就是我們所說的創造力。
參考鏈接:
https://www.quantamagazine.org/researchers-uncover-hidden-ingredients-behind-ai-creativity-20250630/
論文:https://arxiv.org/abs/2412.20292
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~
進群后,你將直接獲得:
最新最專業的 AI 產品信息及分析
不定期發放的熱門產品內測碼
內部專屬內容與專業討論
點亮星標
科技前沿進展每日見