🎉 親愛的廣場小夥伴們,福利不停,精彩不斷!目前廣場上這些熱門發帖贏獎活動火熱進行中,發帖越多,獎勵越多,快來 GET 你的專屬好禮吧!🚀
1️⃣ #TokenOfLove# |廣場音樂節打 CALL
爲偶像打 CALL,Gate 廣場送你直達 Token of Love!泫雅、SUECO、DJ KAKA、CLICK#15 —— 你最想 pick 誰?現在在廣場帶上 歌手名字 + TokenOfLove 標籤發帖應援,就有機會贏取 20 張音樂節門票。
詳情 👉 https://www.gate.com/post/status/13214134
2️⃣ #GateTravel旅行分享官# |曬旅程贏好禮
廣場家人們注意啦,Gate Travel 已經上線。帶話題發帖,分享你的 Gate Travel 旅行體驗、心願清單、使用攻略或趣味見聞,就有機會獲得旅行露營套裝、速乾套裝、國際米蘭旅行小夜燈等好禮!
詳情 👉 https://www.gate.com/post/status/13172887
3️⃣ #内容挖矿# |發帖還能賺錢
廣場長期活動進行中,最高可享 10% 手續費返佣!發布優質內容,如行情解析、交易觀點等,吸引更多用戶點讚和評論。若用戶在互動後 180 分鍾內完成現貨或合約交易,你將獲得最高 10% 的手續費返佣!
詳情 👉 https://www.gate.
Meta生成式AI連放大招:視頻生成超越Gen-2,動圖表情包隨心定製
原文來源:機器之心
提到視頻生成,很多人首先想到的可能是 Gen-2、Pika Labs。 但剛剛,Meta 宣佈,他們的視頻生成效果超過了這兩家,而且編輯起來還更加靈活。
其實,這其中涉及兩項工作。
靈活的圖像編輯由一個叫「Emu Edit」的模型來完成。 它支援通過文字對圖像進行自由編輯,包括本地和全域編輯、刪除和添加背景、顏色和幾何轉換、檢測和分割等等。 此外,它還能精確遵循指令,確保輸入圖像中與指令無關的圖元保持不變。
高解析度的視頻則由一個名叫「Emu Video」的模型來生成。 Emu Video 是一個基於擴散模型的文生視頻模型,能夠基於文本生成 512x512 的 4 秒高解析度視頻(更長的視頻在論文中也有討論)。 一項嚴格的人工評估表明,與 Runway 的 Gen-2 以及 Pika Labs 的生成效果相比,Emu Video 在生成品質和文本忠實度方面的得分都更高。 以下是它的生成效果:
EmuVideo
大型文生圖模型在網路規模的圖像 - 文本對上經過訓練,可生成高品質的多樣化圖像。 雖然這些模型可以通過使用視頻 - 文本對進一步適用於文本 - 視頻(T2V)生成,但視頻生成在品質和多樣性方面仍然落後於圖像生成。 與圖像生成相比,視頻生成更具挑戰性,因為它需要建模更高維度的時空輸出空間,而能依據的仍然只是文本提示。 此外,視頻 - 文本數據集通常比圖像 - 文本數據集小一個數量級。
視頻生成的主流模式是使用擴散模型一次生成所有視頻幀。 與此形成鮮明對比的是,在 NLP 中,長序列生成被表述為一個自回歸問題:以先前預測的單詞為條件預測下一個單詞。 因此,後續預測的條件信號(conditioning signal)會逐漸變強。 研究者假設,加強條件信號對高質量視頻生成也很重要,因為視頻生成本身就是一個時間序列。 然而,使用擴散模型進行自回歸解碼具有挑戰性,因為藉助此類模型生成單幀圖像本身就需要多次反覆運算。
因此,Meta 的研究者提出了EMU VIDEO,通過顯式的中間圖像生成步驟來增強基於擴散的文本到視頻生成的條件。
專案位址:
具體來說,他們將文生視頻問題分解為兩個子問題:(1) 根據輸入的文本提示生成圖像;(2) 根據圖像和文本的強化條件生成視頻。 直觀地說,給模型一個起始圖像和文本會使視頻生成變得更容易,因為模型只需預測圖像在未來將如何演變即可。
由於視頻 - 文本數據集比圖像 - 文本數據集要小得多,研究者還使用權重凍結的預訓練文本 - 圖像 (T2I) 模型初始化了他們的文本 - 視頻模型。 他們確定了關鍵的設計決策 —— 改變擴散雜訊調度和多階段訓練 —— 直接生成 512px 高解析度的視頻。
與直接用文本生成視頻的方法不同,他們的分解方法在推理時會顯式地生成一張圖像,這使得他們能夠輕鬆保留文生圖模型的視覺多樣性、風格和品質(如圖 1 所示)。 這使得EMU VIDEO 即使在訓練數據、計算量和可訓練參數相同的情況下,也能超越直接T2V方法。
每天都有數百萬人使用圖像編輯。 然而,流行的圖像編輯工具要麼需要相當多的專業知識,使用起來很耗時,要麼非常有限,僅提供一組預定義的編輯操作,如特定的篩檢程式。 現階段,基於指令的圖像編輯試圖讓使用者使用自然語言指令來解決這些限制。 例如,使用者可以向模型提供圖像並指示其「給鴯鶓穿上消防員服裝」這樣的指令(見圖 1)。
專案位址:
與當今許多生成式 AI 模型不同,Emu Edit 可以精確遵循指令,確保輸入圖像中與指令無關的圖元保持不變。 例如,使用者給出指令「將草地上的小狗移除」,移除物體后的圖片幾乎看不出來有什麼變化。
在方法層面,Meta 訓練的模型可以執行十六個不同的圖像編輯任務,這些任務涵蓋基於區域的編輯任務、自由格式編輯任務和計算機視覺任務,所有這些任務都被表述為生成任務,Meta 還為每個任務開發了一個獨特的資料管理 pipeline 。 Meta 發現,隨著訓練任務數量的增加,Emu Edit 的性能也會隨之提高。
其次,為了有效地處理各種各樣的任務,Meta 引入了學習任務嵌入(learned task embedding)的概念,它用於引導生成過程朝著正確的生成任務方向發展。 具體來說,對於每個任務,本文學習一個獨特的任務嵌入向量,並通過交叉注意力交互將其集成到模型中,並將其添加到時間步嵌入中。 結果證明,學習任務嵌入顯著增強了模型從自由格式指令中準確推理並執行正確編輯的能力。
今年 4 月,Meta 上線「分割一切」AI 模型,效果驚豔到很多人開始懷疑 CV 領域到底還存不存在。 短短幾個月的時間,Meta 在圖像、視頻領域又推出 Emu Video 和 Emu Edit ,我們只能說,生成式 AI 領域真的太捲了。