OpenAI救了Stable Diffusion！開源Dall· E3同款解碼器，來自Ilya宋飏等

2023-11-11 09:46:06

來源：量子維度

圖片來源：由無界 AI生成

沒想到，OpenAI撈了“競對”Stable Diffusion一把。

在熱火朝天的「AI春晚」上，OpenAI一口氣開源兩項工作，其中之一一致性解碼器，專門面向SD的VAE模型。

它能讓圖像生成品質更高、更穩定，比如多人臉、帶文字圖像以及線條控制方面。

大V博主分析這個解碼器應該是Dall· E 3同款，在GitHub項目頁上OpenAI也提供了Dall· E 3論文。

它具體支援的版本是Stable Diffusion 1.4/1.5。

項目頁上只放了一個例子，具體怎麼訓練沒有寫，被網友稱為“人狠話不多式開源”。

你們直接載入使用就好。

而且這個一致性解碼器頗有淵源。

它來自OpenAI聯創及首席科學家Ilya、OpenAI華人新星宋飏等人提出的一致性模型（Consistency Models）。

上半年這個模型開源時就引發業內震動，被評為能「終結擴散模型」。。

就在前不久，宋飏等人還對模型訓練方法做了優化，能進一步提升圖像生成品質。

開發者日的另一項重磅開源是語音大模型Whisper 3。它同樣出自傳奇人物之手，一作Alec Radford對GPT系列的構建起到了重要作用。

網友們不禁感慨：還是愛看OpenAI開源啊，期待繼續開放更多模型。

一致性模型完成再進化

先來看最初名震江湖的第一版一致性模型（Consistency Models）。

它旨在解決擴散模型通過逐步反覆運算、導致圖像生成緩慢的問題。僅需3.5秒即可生成64張左右256×256的圖像。

相比擴散模型，它主要有兩大優勢：

其一，無需對抗訓練（adversarial training），就能直接生成高品質的圖像樣本。

其二，相比擴散模型可能需要幾百甚至上千次反覆運算，一致性模型只需要一兩步就能搞定多種圖像任務——

包括上色、去噪、超分等，都可以在幾步之內搞定，而不需要對這些任務進行明確訓練。（當然，如果進行少樣本學習的話，生成效果也會更好）

原理上，一致性模型直接把隨機的雜訊映射到複雜圖像上，輸出都是同一軌跡上的同一點，所以實現了一步生成。

論文提出兩種訓練方法，一種是基於一致性蒸餾，利用預訓練的擴散模型生成相鄰數據對，通過最小化模型輸出之間的差異，來訓練一致性模型。

另一種方法是獨立訓練，將一致性模型作為獨立生成模型訓練。

實驗結果表明，一致性模型在一步和少步採樣方面優於現有的蒸餾技術，如漸進式蒸餾。

當作為獨立的生成模型進行訓練時，一致性模型可以與現有的一步非對抗生成模型在標準基準測試匯總媲美，如CIFAR-10、ImageNet 64×64和LSUN 256×256。

半年後發佈的第二版論文，對訓練方法進行了優化。

它通過優化權重函數、雜訊嵌入和dropout，使得一致性模型在不需要依賴學習過的特徵，也能達到很好的生成品質。

它改進了權重函數的選擇，使其隨著雜訊水準的增加而減小，這使得在較小雜訊水準處的一致性損失權重更大，從而提升樣本品質。

同時調整了雜訊嵌入層的敏感性，使其降低對微小雜訊差異的敏感性，有助於提高連續時間一致性訓練的穩定性。

並且發現了在一致性模型中使用較大dropout、移除teacher network中的EMA、將學習過的特徵距離（如LPIPS）替換Pseudo-Huber損失函數，都能能進一步提高圖像品質。

回到這次最新開源的解碼器，第一波實測體驗已經來了。

目前看到的一些效果，提升不算明顯，而且不少人反映運行速度慢。

但這還是最早期的測試，後續或許會有更多提升。

值得一提的是，領銜推出一致性模型的宋飏，年紀輕輕但是已被評為擴散模型圈OG（元老）了。

△來自英偉達AI科學家Jim Fan推特

今年，憑藉一致性模型，宋飏也名震江湖。這位大佬16歲就當理科狀元上清華了，關於他的更多故事可戳：OpenAI當紅新星宋飏：最新研究獲評「終結擴散模型」，16歲上清華

論文位址：
[1] [2]

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言