Mô hình khuếch tán "búp bê matryoshka" của Apple, số bước đào tạo giảm 70%!

Nguồn gốc: Qubits

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Một nghiên cứu gần đây của Apple đã cải thiện đáng kể hiệu suất của các mô hình khuếch tán trên hình ảnh có độ phân giải cao.

Sử dụng phương pháp này, số bước đào tạo giảm hơn bảy mươi phần trăm cho cùng một hình ảnh có độ phân giải.

Ở độ phân giải 1024 ×1024, chất lượng hình ảnh trực tiếp đầy đủ và các chi tiết có thể nhìn thấy rõ.

Apple đặt tên cho thành tựu này là MDM, DM là viết tắt của Diffusion Model và M đầu tiên là viết tắt của Matryoshka.

Giống như một con búp bê matryoshka thực sự, MDM lồng các quy trình có độ phân giải thấp trong các quy trình có độ phân giải cao và nó được lồng trong nhiều lớp.

Các quá trình khuếch tán độ phân giải cao và thấp được thực hiện đồng thời, giúp giảm đáng kể mức tiêu thụ tài nguyên của mô hình khuếch tán truyền thống trong quy trình độ phân giải cao.

Đối với hình ảnh có độ phân giải 256×256, trong môi trường có kích thước lô 1024, mô hình khuếch tán truyền thống cần đào tạo 1,5 triệu bước, trong khi MDM chỉ cần 390.000, tức là giảm hơn 70%.

Ngoài ra, MDM áp dụng đào tạo từ đầu đến cuối, không dựa vào các bộ dữ liệu cụ thể và các mô hình được đào tạo trước, và vẫn đảm bảo chất lượng phát điện trong khi tăng tốc và sử dụng linh hoạt.

Không chỉ có thể vẽ hình ảnh có độ phân giải cao mà video 16×256² cũng có thể được sáng tác.

Một số cư dân mạng nhận xét rằng Apple cuối cùng đã kết nối văn bản với hình ảnh.

Vậy, công nghệ "búp bê matryoshka" của MDM làm được điều đó như thế nào?

Kết hợp toàn diện và tiến bộ

Trước khi bắt đầu đào tạo, dữ liệu cần được xử lý trước và các hình ảnh có độ phân giải cao sẽ được lấy mẫu lại bằng một thuật toán nhất định để có được các phiên bản có độ phân giải khác nhau.

Dữ liệu này có độ phân giải khác nhau sau đó được sử dụng để mô hình hóa UNet chung, với xử lý UNet nhỏ có độ phân giải thấp và lồng vào xử lý UNet lớn có độ phân giải cao.

Với các kết nối có độ phân giải chéo, các tính năng và thông số có thể được chia sẻ giữa các UNets có kích thước khác nhau.

Đào tạo MDM là một quá trình dần dần.

Mặc dù mô hình hóa là chung, quá trình đào tạo không bắt đầu với độ phân giải cao, mà dần dần mở rộng quy mô từ độ phân giải thấp.

Điều này tránh được số lượng tính toán khổng lồ và cho phép đào tạo trước UNet có độ phân giải thấp để tăng tốc quá trình đào tạo độ phân giải cao.

Trong quá trình đào tạo, dữ liệu đào tạo có độ phân giải cao hơn dần dần được thêm vào quy trình tổng thể, để mô hình có thể thích ứng với độ phân giải tăng dần và chuyển đổi suôn sẻ sang quy trình độ phân giải cao cuối cùng.

Tuy nhiên, nhìn chung, sau khi bổ sung dần dần các quy trình có độ phân giải cao, đào tạo MDM vẫn là một quá trình chung từ đầu đến cuối.

Trong đào tạo chung ở các độ phân giải khác nhau, chức năng mất trên nhiều độ phân giải tham gia cập nhật tham số cùng nhau, tránh tích lũy lỗi do đào tạo nhiều giai đoạn.

Mỗi độ phân giải có tổn thất tái tạo tương ứng của mục dữ liệu và việc mất các độ phân giải khác nhau được tính trọng số và hợp nhất, trong đó trọng lượng tổn thất độ phân giải thấp lớn hơn để đảm bảo chất lượng tạo.

Trong giai đoạn suy luận, MDM cũng áp dụng kết hợp các chiến lược song song và tiến bộ.

Ngoài ra, MDM cũng sử dụng mô hình phân loại hình ảnh được đào tạo trước (CFG) để hướng dẫn các mẫu được tạo ra tối ưu hóa theo hướng hợp lý hơn và thêm nhiễu vào các mẫu có độ phân giải thấp để làm cho chúng gần hơn với việc phân phối các mẫu có độ phân giải cao.

Vậy, MDM hiệu quả như thế nào?

Ít thông số hơn để khớp với SOTA

Về hình ảnh, trên bộ dữ liệu ImageNet và CC12M, FID của MDM (giá trị càng thấp thì càng tốt) và CLIP hoạt động tốt hơn đáng kể so với các mô hình khuếch tán thông thường.

FID được sử dụng để đánh giá chất lượng của chính hình ảnh và CLIP mô tả mức độ phù hợp giữa hình ảnh và hướng dẫn văn bản.

So với các mô hình SOTA như DALL E và IMAGEN, hiệu suất của MDM cũng gần gũi, nhưng các thông số đào tạo của MDM ít hơn nhiều so với các mô hình này.

Không chỉ tốt hơn các mô hình khuếch tán thông thường, MDM còn vượt trội so với các mô hình khuếch tán tầng khác.

Kết quả của các thí nghiệm cắt bỏ cho thấy càng nhiều bước đào tạo độ phân giải thấp, việc tăng cường hiệu ứng MDM càng rõ ràng. Mặt khác, càng nhiều cấp độ lồng nhau, càng cần ít bước đào tạo để đạt được cùng một điểm CLIP.

Việc lựa chọn các thông số CFG là kết quả của sự đánh đổi giữa FID và CLIP sau nhiều lần kiểm tra (điểm CLIP cao so với cường độ CFG tăng).

Địa chỉ giấy:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)