У 2017 році стаття «Увага — це все, що вам потрібно» стала сенсацією, вперше представивши модель Transformer на основі механізму самоуваги, звільняючи від традиційних обмежень RNN і CNN, ефективно подолавши проблему довгострокової залежності завдяки паралельній обробці. На конференції GTC 2024 генеральний директор Nvidia Джен-Сун Хуанг запросив усіх семи авторів Transformer виступити разом.
Transformer виник у зв'язку з ефективнісними труднощами машинного перекладу
! [Сім авторів з'являються разом](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(джерело: NVIDIA)
Джен-Сун Хуанг запитав, з якими проблемами вони зіткнулися на початку, що надихнуло команду створити Transformer. Illia Polosukhin відповів: «Якщо ви хочете випустити модель, яка дійсно може читати результати пошуку, наприклад, обробляти купи документів, вам потрібні моделі, які можуть швидко обробляти цю інформацію. Тодішні рекуррентні нейронні мережі (RNN) не могли задовольнити такі вимоги.»
Якоб Ушкорейт додав: «Ми генеруємо дані для навчання набагато швидше, ніж здатні навчити наші найсучасніші архітектури. Насправді, ми використовуємо більш прості архітектури, такі як мережі прямого зв'язку, які використовують n-gram як вхідні ознаки. Ці архітектури, принаймні в масштабах Google з величезними даними для навчання, зазвичай перевершують складніші та більш просунуті моделі, оскільки швидкість навчання є вищою.»
Ноам Шазер надав ключові інсайти: «Схоже, це проблема, яку потрібно терміново вирішити. Ми почали помічати ці закони масштабування приблизно в 2015 році, ви можете побачити, що з ростом розміру моделі, її розумовий рівень також підвищується. І величезне розчарування в тому, що RNN обробляти надзвичайно складно. Потім я випадково почув, як ці хлопці обговорюють, га, давайте замінимо це на конволюції або механізм уваги. Я подумав, чудово, давайте зробимо це. Я люблю порівнювати Transformer з переходом від парової машини до двигуна внутрішнього згоряння. Ми могли б завершити промислову революцію за допомогою парової машини, але це було б надзвичайно болісно, а двигун внутрішнього згоряння зробив усе набагато краще.»
Довгострокова залежність: ефективне захоплення відносин між словами на великій відстані за допомогою механізму самостійної уваги.
Ефективність навчання: Значно підвищує швидкість навчання моделі, що робить можливим масштабне попереднє навчання.
Ці технологічні прориви зробили Transformer основою сучасного штучного інтелекту. Великі мовні моделі, такі як ChatGPT, BERT, GPT-4, ґрунтуються на архітектурі Transformer. Проте через сім років творці вважають, що настав час для нових проривів.
потрапив у пастку ефективності первісної моделі
Aidan Gomez зізнався: «Я вважаю, що цьому світу потрібно щось краще, ніж Transformer, і я думаю, що всі ми тут сподіваємося, що воно буде замінено чимось, що перенесе нас на новий рівень продуктивності». Llion Jones додав: «Ми застрягли на первинних моделях, хоча технічно це може бути не найпотужніше, що ми маємо зараз. Але кожен знає, які особисті інструменти він хоче: ви хочете зробити кращі контекстні вікна, ви хочете швидше генерувати токени. Вони зараз використовують занадто багато обчислювальних ресурсів. Я вважаю, що всі витратили багато даремних обчислень.»
Яків Ушкорейт вказує на ключову проблему: «Але я вважаю, що це в основному про те, як розподілити ресурси, а не про те, скільки ресурсів загалом витрачено. Наприклад, ми не хочемо витратити занадто багато грошей на просту задачу або занадто мало на занадто складну задачу, в результаті чого не отримаємо рішення.»
Ілля Полосухін навів яскравий приклад: «Цей приклад схожий на 2+2, якщо ви правильно введете його в цю модель, вона використовуватиме трильйон параметрів. Тому я вважаю, що адаптивні обчислення є однією з речей, які повинні з'явитися далі, ми знаємо, скільки обчислювальних ресурсів слід витратити на конкретні проблеми.» Ця критика виявляє основний недолік сучасних AI моделей: відсутність адаптивності, витрачання однакових обчислювальних ресурсів на прості і складні проблеми, що призводить до величезних втрат.
Ноам Шазер з економічної точки зору аналізує: «Я вважаю, що поточні моделі занадто економічні, а їхній масштаб ще занадто малий. Кожна операція обходиться приблизно в 10-18 доларів. Якщо ви спостерігаєте модель з п’ятисот мільярдів параметрів, і кожен токен проходить трильйон обчислень, це приблизно один долар за мільйон токенів, що в 100 разів дешевше, ніж купити і прочитати кишенькову книгу». Ця точка зору є парадоксальною, але глибокою: AI наразі занадто дешевий, що призводить до зловживання, а не до цінування обчислювальних ресурсів.
Майбутній напрямок: адаптивні обчислення та здатність до розумування
Лукаш Кайзер розкрив важливий факт: «Ми не досягли успіху в нашій первісній меті, ми почали Transformer з наміром змоделювати процес еволюції токенів. Це не просто лінійний процес генерації, а поступова еволюція слів або коду». Це зізнання показує, що хоча Transformer і був успішним, але не повністю реалізував бачення його творців.
Яков Ушкорейт зазначив наступний напрямок: «Наступним кроком є розумування. Ми всі усвідомлюємо важливість розумування, але багато роботи наразі все ще виконується інженерами вручну. Ми сподіваємося, що модель зможе створювати контент, який ми хочемо, незалежно від того, чи це відео, текст або 3D-інформація, вони повинні бути інтегровані разом». Це вказує на те, що майбутня архітектура ШІ потребуватиме більш потужних можливостей розумування та мультимодальної інтеграції.
Aidan Gomez додав: «Чи можемо ми реалізувати багатозадачність і паралельність? Якщо ви дійсно хочете створити таку модель, допоможіть нам розробити таку модель, це дуже хороший спосіб.» Lukasz Kaiser вважає: «Розумування насправді походить з даних, нам потрібно зробити дані більш насиченими.» Ці обговорення вказують на кілька ключових напрямків AI-архітектури після Transformer: адаптивні обчислення, посилене розумування, мультимодальна інтеграція та більш ефективне використання даних.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Попередження творця Transformer: ШІ застряг у первісній архітектурі, Джен-Сун Хуанг закликає семи авторам вийти з кризи
У 2017 році стаття «Увага — це все, що вам потрібно» стала сенсацією, вперше представивши модель Transformer на основі механізму самоуваги, звільняючи від традиційних обмежень RNN і CNN, ефективно подолавши проблему довгострокової залежності завдяки паралельній обробці. На конференції GTC 2024 генеральний директор Nvidia Джен-Сун Хуанг запросив усіх семи авторів Transformer виступити разом.
Transformer виник у зв'язку з ефективнісними труднощами машинного перекладу
! [Сім авторів з'являються разом](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(джерело: NVIDIA)
Джен-Сун Хуанг запитав, з якими проблемами вони зіткнулися на початку, що надихнуло команду створити Transformer. Illia Polosukhin відповів: «Якщо ви хочете випустити модель, яка дійсно може читати результати пошуку, наприклад, обробляти купи документів, вам потрібні моделі, які можуть швидко обробляти цю інформацію. Тодішні рекуррентні нейронні мережі (RNN) не могли задовольнити такі вимоги.»
Якоб Ушкорейт додав: «Ми генеруємо дані для навчання набагато швидше, ніж здатні навчити наші найсучасніші архітектури. Насправді, ми використовуємо більш прості архітектури, такі як мережі прямого зв'язку, які використовують n-gram як вхідні ознаки. Ці архітектури, принаймні в масштабах Google з величезними даними для навчання, зазвичай перевершують складніші та більш просунуті моделі, оскільки швидкість навчання є вищою.»
Ноам Шазер надав ключові інсайти: «Схоже, це проблема, яку потрібно терміново вирішити. Ми почали помічати ці закони масштабування приблизно в 2015 році, ви можете побачити, що з ростом розміру моделі, її розумовий рівень також підвищується. І величезне розчарування в тому, що RNN обробляти надзвичайно складно. Потім я випадково почув, як ці хлопці обговорюють, га, давайте замінимо це на конволюції або механізм уваги. Я подумав, чудово, давайте зробимо це. Я люблю порівнювати Transformer з переходом від парової машини до двигуна внутрішнього згоряння. Ми могли б завершити промислову революцію за допомогою парової машини, але це було б надзвичайно болісно, а двигун внутрішнього згоряння зробив усе набагато краще.»
)# Три основні проблеми, які вирішує Transformer
Паралельна обробка: позбутися обмежень послідовної обробки RNN, реалізувати справжні паралельні обчислення
Довгострокова залежність: ефективне захоплення відносин між словами на великій відстані за допомогою механізму самостійної уваги.
Ефективність навчання: Значно підвищує швидкість навчання моделі, що робить можливим масштабне попереднє навчання.
Ці технологічні прориви зробили Transformer основою сучасного штучного інтелекту. Великі мовні моделі, такі як ChatGPT, BERT, GPT-4, ґрунтуються на архітектурі Transformer. Проте через сім років творці вважають, що настав час для нових проривів.
потрапив у пастку ефективності первісної моделі
Aidan Gomez зізнався: «Я вважаю, що цьому світу потрібно щось краще, ніж Transformer, і я думаю, що всі ми тут сподіваємося, що воно буде замінено чимось, що перенесе нас на новий рівень продуктивності». Llion Jones додав: «Ми застрягли на первинних моделях, хоча технічно це може бути не найпотужніше, що ми маємо зараз. Але кожен знає, які особисті інструменти він хоче: ви хочете зробити кращі контекстні вікна, ви хочете швидше генерувати токени. Вони зараз використовують занадто багато обчислювальних ресурсів. Я вважаю, що всі витратили багато даремних обчислень.»
Яків Ушкорейт вказує на ключову проблему: «Але я вважаю, що це в основному про те, як розподілити ресурси, а не про те, скільки ресурсів загалом витрачено. Наприклад, ми не хочемо витратити занадто багато грошей на просту задачу або занадто мало на занадто складну задачу, в результаті чого не отримаємо рішення.»
Ілля Полосухін навів яскравий приклад: «Цей приклад схожий на 2+2, якщо ви правильно введете його в цю модель, вона використовуватиме трильйон параметрів. Тому я вважаю, що адаптивні обчислення є однією з речей, які повинні з'явитися далі, ми знаємо, скільки обчислювальних ресурсів слід витратити на конкретні проблеми.» Ця критика виявляє основний недолік сучасних AI моделей: відсутність адаптивності, витрачання однакових обчислювальних ресурсів на прості і складні проблеми, що призводить до величезних втрат.
Ноам Шазер з економічної точки зору аналізує: «Я вважаю, що поточні моделі занадто економічні, а їхній масштаб ще занадто малий. Кожна операція обходиться приблизно в 10-18 доларів. Якщо ви спостерігаєте модель з п’ятисот мільярдів параметрів, і кожен токен проходить трильйон обчислень, це приблизно один долар за мільйон токенів, що в 100 разів дешевше, ніж купити і прочитати кишенькову книгу». Ця точка зору є парадоксальною, але глибокою: AI наразі занадто дешевий, що призводить до зловживання, а не до цінування обчислювальних ресурсів.
Майбутній напрямок: адаптивні обчислення та здатність до розумування
Лукаш Кайзер розкрив важливий факт: «Ми не досягли успіху в нашій первісній меті, ми почали Transformer з наміром змоделювати процес еволюції токенів. Це не просто лінійний процес генерації, а поступова еволюція слів або коду». Це зізнання показує, що хоча Transformer і був успішним, але не повністю реалізував бачення його творців.
Яков Ушкорейт зазначив наступний напрямок: «Наступним кроком є розумування. Ми всі усвідомлюємо важливість розумування, але багато роботи наразі все ще виконується інженерами вручну. Ми сподіваємося, що модель зможе створювати контент, який ми хочемо, незалежно від того, чи це відео, текст або 3D-інформація, вони повинні бути інтегровані разом». Це вказує на те, що майбутня архітектура ШІ потребуватиме більш потужних можливостей розумування та мультимодальної інтеграції.
Aidan Gomez додав: «Чи можемо ми реалізувати багатозадачність і паралельність? Якщо ви дійсно хочете створити таку модель, допоможіть нам розробити таку модель, це дуже хороший спосіб.» Lukasz Kaiser вважає: «Розумування насправді походить з даних, нам потрібно зробити дані більш насиченими.» Ці обговорення вказують на кілька ключових напрямків AI-архітектури після Transformer: адаптивні обчислення, посилене розумування, мультимодальна інтеграція та більш ефективне використання даних.