Thật bất ngờ, OpenAI đã tận dụng lợi thế của "đối thủ" Khuếch tán ổn định.
Tại "AI Spring Festival Gala" nóng bỏng, OpenAI đã mở nguồn hai tác phẩm trong một lần, một trong số đó là ** Bộ giải mã nhất quán **, dành riêng cho mô hình VAE của SD.
Nó cho phép tạo hình ảnh chất lượng cao hơn và ổn định hơn, chẳng hạn như nhiều khuôn mặt, hình ảnh có văn bản và điều khiển đường kẻ.
Blogger Big V phân tích rằng bộ giải mã này phải là ** Dall · E 3 với cùng một mô hình **, trên trang dự án GitHub OpenAI cũng cung cấp Dall· E 3 Luận án.
Phiên bản mà nó hỗ trợ cụ thể là Stable Diffusion 1.4 / 1.5.
Chỉ có một ví dụ trên trang dự án và đào tạo cụ thể không được viết, được gọi là "mã nguồn mở bởi những người không nói nhiều".
Bạn chỉ có thể tải và sử dụng nó.
Và bộ giải mã mạch lạc này có rất nhiều thứ để cung cấp.
Nó đến từ các mô hình nhất quán được đề xuất bởi Ilya, người đồng sáng tạo và nhà khoa học chính của OpenAI, và Song Yang, một ngôi sao đang lên của OpenAI của Trung Quốc.
Trong nửa đầu năm, khi mô hình này được mã nguồn mở đã gây ra một cú sốc trong ngành và được đánh giá là "mô hình khuếch tán cuối cùng".
Cách đây không lâu, Song Yang và cộng sự cũng đã tối ưu hóa phương pháp đào tạo mô hình, có thể cải thiện hơn nữa chất lượng tạo hình ảnh.
Một mã nguồn mở lớn khác của ngày phát triển là mẫu giọng nói Whisper 3. Đó cũng là tác phẩm của các huyền thoại, với Alec Radford đóng một vai trò quan trọng trong việc xây dựng loạt GPT.
Cư dân mạng không khỏi thở dài: Tôi vẫn thích nhìn thấy mã nguồn mở OpenAI, và tôi mong muốn tiếp tục mở ra nhiều mô hình hơn.
** Mô hình nhất quán hoàn thành quá trình tái tiến hóa **
Hãy bắt đầu với phiên bản đầu tiên của Mô hình nhất quán.
Nó được thiết kế để giải quyết vấn đề tạo ảnh chậm gây ra bởi sự lặp lại dần dần của các mô hình khuếch tán. Chỉ mất 3,5 giây để tạo ra 64 hình ảnh khoảng 256×256.
Nó có hai ưu điểm chính so với mô hình khuếch tán:
Đầu tiên, các mẫu hình ảnh chất lượng cao có thể được tạo trực tiếp mà không cần đào tạo đối thủ.
Thứ hai, so với mô hình khuếch tán, có thể yêu cầu hàng trăm hoặc thậm chí hàng ngàn lần lặp lại, mô hình nhất quán chỉ cần một hoặc hai bước để hoàn thành nhiều tác vụ hình ảnh khác nhau.
Tô màu, khử nhiễu, siêu phân giải, v.v., tất cả đều có thể được thực hiện trong một vài bước mà không cần đào tạo rõ ràng cho các tác vụ này. (Tất nhiên, hiệu ứng thế hệ sẽ tốt hơn nếu việc học được thực hiện với ít bức ảnh hơn)
Về nguyên tắc, mô hình nhất quán trực tiếp ánh xạ nhiễu ngẫu nhiên thành các hình ảnh phức tạp và đầu ra là cùng một điểm trên cùng một quỹ đạo, do đó nó nhận ra thế hệ một bước.
Bài báo đề xuất hai phương pháp đào tạo, một là dựa trên chưng cất nhất quán, sử dụng mô hình khuếch tán được đào tạo trước để tạo ra các cặp dữ liệu liền kề và đào tạo một mô hình nhất quán bằng cách giảm thiểu sự khác biệt giữa các đầu ra mô hình.
Một cách tiếp cận khác là đào tạo độc lập, trong đó mô hình nhất quán được đào tạo như một mô hình được tạo ra độc lập.
Kết quả thí nghiệm cho thấy mô hình nhất quán vượt trội so với các kỹ thuật chưng cất hiện có, chẳng hạn như chưng cất tiến bộ, về mặt lấy mẫu một bước và bước thấp.
Khi được đào tạo như một mô hình tạo độc lập, một mô hình nhất quán có thể được so sánh với các mô hình tạo không đối nghịch một bước hiện có trong các tập hợp điểm chuẩn tiêu chuẩn, chẳng hạn như CIFAR-10, ImageNet 64×64 và LSUN 256×256.
Ấn bản thứ hai của bài báo, được xuất bản nửa năm sau đó, ** tối ưu hóa phương pháp đào tạo **.
Bằng cách tối ưu hóa chức năng cân, nhúng tiếng ồn và bỏ học, mô hình nhất quán có thể đạt được chất lượng thế hệ tốt mà không cần dựa vào các tính năng đã học.
Nó cải thiện sự lựa chọn của chức năng trọng lượng để nó giảm khi độ ồn tăng, dẫn đến trọng lượng mất tính nhất quán lớn hơn ở mức tiếng ồn nhỏ hơn, do đó cải thiện chất lượng của mẫu.
Đồng thời, độ nhạy của lớp nhúng tiếng ồn được điều chỉnh để giảm độ nhạy cảm với sự chênh lệch tiếng ồn nhỏ, giúp cải thiện độ ổn định của việc đào tạo nhất quán thời gian liên tục.
Người ta thấy rằng chất lượng hình ảnh có thể được cải thiện hơn nữa bằng cách sử dụng điểm bỏ học lớn, xóa EMA khỏi mạng giáo viên và thay thế chức năng mất Pseudo-Huber bằng khoảng cách tính năng đã học (như LPIPS) trong mô hình đồng thuận.
Một điều nữa
Quay trở lại với bộ giải mã nguồn mở mới nhất, làn sóng trải nghiệm đo lường đầu tiên đã đến.
Hiện tại, một số hiệu ứng được nhìn thấy là không rõ ràng và nhiều người báo cáo rằng tốc độ chạy chậm.
Nhưng đây vẫn là thử nghiệm sớm nhất và có thể có nhiều cải tiến hơn trong tương lai.
Điều đáng nói là Song Yang, người dẫn đầu việc ra mắt mô hình nhất quán, còn trẻ nhưng đã được đánh giá là một OG (kỳ cựu) trong giới mô hình khuếch tán.
△Từ nhà khoa học AI của Nvidia Jim Fan Twitter
Năm nay, với mô hình nhất quán, Song Yang cũng nổi tiếng. Anh chàng to lớn này đã đến Đại học Thanh Hoa năm 16 tuổi với tư cách là sinh viên khoa học hàng đầu, và nhiều câu chuyện về anh ta có thể được chọc: Ngôi sao đang lên nổi tiếng của OpenAI Song Yang: Nghiên cứu mới nhất đã được trao giải "Mô hình khuếch tán kết thúc", và anh ta đã đến Đại học Thanh Hoa ở tuổi 16
Địa chỉ:
[1]
[2]
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
OpenAI tiết kiệm khuếch tán ổn định! E3 với cùng một bộ giải mã, từ Ilya Song Yang, v.v
Nguồn: Quantum Dimension
Tại "AI Spring Festival Gala" nóng bỏng, OpenAI đã mở nguồn hai tác phẩm trong một lần, một trong số đó là ** Bộ giải mã nhất quán **, dành riêng cho mô hình VAE của SD.
Nó cho phép tạo hình ảnh chất lượng cao hơn và ổn định hơn, chẳng hạn như nhiều khuôn mặt, hình ảnh có văn bản và điều khiển đường kẻ.
Chỉ có một ví dụ trên trang dự án và đào tạo cụ thể không được viết, được gọi là "mã nguồn mở bởi những người không nói nhiều".
Nó đến từ các mô hình nhất quán được đề xuất bởi Ilya, người đồng sáng tạo và nhà khoa học chính của OpenAI, và Song Yang, một ngôi sao đang lên của OpenAI của Trung Quốc.
Trong nửa đầu năm, khi mô hình này được mã nguồn mở đã gây ra một cú sốc trong ngành và được đánh giá là "mô hình khuếch tán cuối cùng".
Cách đây không lâu, Song Yang và cộng sự cũng đã tối ưu hóa phương pháp đào tạo mô hình, có thể cải thiện hơn nữa chất lượng tạo hình ảnh.
Cư dân mạng không khỏi thở dài: Tôi vẫn thích nhìn thấy mã nguồn mở OpenAI, và tôi mong muốn tiếp tục mở ra nhiều mô hình hơn.
** Mô hình nhất quán hoàn thành quá trình tái tiến hóa **
Hãy bắt đầu với phiên bản đầu tiên của Mô hình nhất quán.
Nó được thiết kế để giải quyết vấn đề tạo ảnh chậm gây ra bởi sự lặp lại dần dần của các mô hình khuếch tán. Chỉ mất 3,5 giây để tạo ra 64 hình ảnh khoảng 256×256.
Đầu tiên, các mẫu hình ảnh chất lượng cao có thể được tạo trực tiếp mà không cần đào tạo đối thủ.
Thứ hai, so với mô hình khuếch tán, có thể yêu cầu hàng trăm hoặc thậm chí hàng ngàn lần lặp lại, mô hình nhất quán chỉ cần một hoặc hai bước để hoàn thành nhiều tác vụ hình ảnh khác nhau.
Tô màu, khử nhiễu, siêu phân giải, v.v., tất cả đều có thể được thực hiện trong một vài bước mà không cần đào tạo rõ ràng cho các tác vụ này. (Tất nhiên, hiệu ứng thế hệ sẽ tốt hơn nếu việc học được thực hiện với ít bức ảnh hơn)
Về nguyên tắc, mô hình nhất quán trực tiếp ánh xạ nhiễu ngẫu nhiên thành các hình ảnh phức tạp và đầu ra là cùng một điểm trên cùng một quỹ đạo, do đó nó nhận ra thế hệ một bước.
Một cách tiếp cận khác là đào tạo độc lập, trong đó mô hình nhất quán được đào tạo như một mô hình được tạo ra độc lập.
Kết quả thí nghiệm cho thấy mô hình nhất quán vượt trội so với các kỹ thuật chưng cất hiện có, chẳng hạn như chưng cất tiến bộ, về mặt lấy mẫu một bước và bước thấp.
Khi được đào tạo như một mô hình tạo độc lập, một mô hình nhất quán có thể được so sánh với các mô hình tạo không đối nghịch một bước hiện có trong các tập hợp điểm chuẩn tiêu chuẩn, chẳng hạn như CIFAR-10, ImageNet 64×64 và LSUN 256×256.
Bằng cách tối ưu hóa chức năng cân, nhúng tiếng ồn và bỏ học, mô hình nhất quán có thể đạt được chất lượng thế hệ tốt mà không cần dựa vào các tính năng đã học.
Nó cải thiện sự lựa chọn của chức năng trọng lượng để nó giảm khi độ ồn tăng, dẫn đến trọng lượng mất tính nhất quán lớn hơn ở mức tiếng ồn nhỏ hơn, do đó cải thiện chất lượng của mẫu.
Đồng thời, độ nhạy của lớp nhúng tiếng ồn được điều chỉnh để giảm độ nhạy cảm với sự chênh lệch tiếng ồn nhỏ, giúp cải thiện độ ổn định của việc đào tạo nhất quán thời gian liên tục.
Người ta thấy rằng chất lượng hình ảnh có thể được cải thiện hơn nữa bằng cách sử dụng điểm bỏ học lớn, xóa EMA khỏi mạng giáo viên và thay thế chức năng mất Pseudo-Huber bằng khoảng cách tính năng đã học (như LPIPS) trong mô hình đồng thuận.
Một điều nữa
Quay trở lại với bộ giải mã nguồn mở mới nhất, làn sóng trải nghiệm đo lường đầu tiên đã đến.
Hiện tại, một số hiệu ứng được nhìn thấy là không rõ ràng và nhiều người báo cáo rằng tốc độ chạy chậm.
Nhưng đây vẫn là thử nghiệm sớm nhất và có thể có nhiều cải tiến hơn trong tương lai.
Năm nay, với mô hình nhất quán, Song Yang cũng nổi tiếng. Anh chàng to lớn này đã đến Đại học Thanh Hoa năm 16 tuổi với tư cách là sinh viên khoa học hàng đầu, và nhiều câu chuyện về anh ta có thể được chọc: Ngôi sao đang lên nổi tiếng của OpenAI Song Yang: Nghiên cứu mới nhất đã được trao giải "Mô hình khuếch tán kết thúc", và anh ta đã đến Đại học Thanh Hoa ở tuổi 16
Địa chỉ:
[1]
[2]