🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
蘋果「套娃」式擴散模型,訓練步數減少七成!
原文來源:量子位
蘋果的一項最新研究,大幅提高了擴散模型在高解析度圖像上性能。
利用這種方法,同樣解析度的圖像,訓練步數減少了超過七成。
在1024×1024的解析度下,圖片畫質直接拉滿,細節都清晰可見。
就像真的套娃一樣,MDM在高解析度過程中嵌套了低解析度過程,而且是多層嵌套。
高低解析度擴散過程同時進行,極大降低了傳統擴散模型在高解析度過程中的資源消耗。
另外,MDM採用了端到端訓練,不依賴特定數據集和預訓練模型,在提速的同時依然保證了生成品質,而且使用靈活。
整體與漸進相結合
然後就是利用這些不同解析度的數據進行聯合UNet建模,小UNet處理低解析度,並嵌套進處理高解析度的大UNet。
通過跨解析度的連接,不同大小的UNet之間可以共用特徵和參數。
雖然建模是聯合進行的,但訓練過程並不會一開始就針對高解析度進行,而是從低解析度開始逐步擴大。
這樣做可以避免龐大的運算量,還可以讓低解析度UNet的預訓練可以加速高解析度訓練過程。
訓練過程中會逐步將更高解析度的訓練數據加入總體過程中,讓模型適應漸進增長的解析度,平滑過渡到最終的高解析度過程。
在不同解析度的聯合訓練當中,多個解析度上的損失函數一起參與參數更新,避免了多階段訓練帶來的誤差累積。
每個解析度都有對應的數據項的重建損失,不同解析度的損失被加權合併,其中為保證生成品質,低解析度損失權重較大。
在推理階段,MDM採用的同樣是並行與漸進相結合的策略。
此外,MDM利還採用了預訓練的圖像分類模型(CFG)來引導生成樣本向更合理的方向優化,併為低解析度的樣本添加雜訊,使其更貼近高解析度樣本的分佈。
那麼,MDM的效果究竟如何呢?
更少參數匹敵SOTA
圖像方面,在ImageNet和CC12M數據集上,MDM的FID(數值越低效果越好)和CLIP表現都顯著優於普通擴散模型。
其中FID用於評價圖像本身的品質,CLIP則說明瞭圖像和文本指令之間的匹配程度。