Шоста річниця Transformer: Навіть NeurIPS Oral не вдалося отримати, а 8 авторів заснували кілька штучних єдинорогів

Деякі люди приєдналися до OpenAI, деякі заснували стартапи, а деякі залишилися за Google AI. Саме вони спільно розпочали сьогоднішню еру розвитку ШІ.

Від ChatGPT до технології малювання штучного інтелекту, недавня хвиля проривів у сфері штучного інтелекту, можливо, сталася завдяки Transformer.

Сьогодні виповнюється шоста річниця представлення знаменитого паперу-трансформера.

Папір посилання:

Шість років тому на платформу попереднього друку arXiv була завантажена стаття з перебільшеною назвою, фразу «xx is All You Need» повторювали розробники в області ШІ, і вона навіть стала трендом у назві paper. , і Transformer більше не означає Transformers, тепер він представляє найпередовішу технологію в галузі ШІ.

Через шість років, оглядаючись на цю статтю того року, ми можемо знайти багато цікавих або маловідомих місць, як підсумував Джим Фан, науковець зі штучного інтелекту в Nvidia.

## ** «Механізм уваги» не запропонований автором Трансформера**

Модель Transformer відмовляється від традиційних блоків CNN і RNN, і вся структура мережі повністю складається з механізмів уваги.

Хоча назва паперу Transformer — «Увага — це все, що вам потрібно», завдяки цьому ми продовжуємо просувати механізм уваги, але зверніть увагу на цікавий факт: не дослідники Transformer винайшли увагу, а вони поставили це механізм доведений до крайності.

Механізм привернення уваги був запропонований командою під керівництвом піонера глибокого навчання Йошуа Бенгіо в 2014 році:

* «Нейронний машинний переклад шляхом спільного навчання вирівнюванню та перекладу», назва відносно проста. *

У цій статті ICLR 2015 Бенгіо та інші запропонували комбінацію RNN + «вектор контексту» (тобто уваги). Незважаючи на те, що це одна з найбільших віх у сфері НЛП, вона набагато менш відома, ніж Трансформер, стаття команди Бенгіо на сьогоднішній день була процитована 29 000 разів, а Трансформер – 77 000.

Механізм уваги штучного інтелекту природним чином побудований на основі зорової уваги людини. У людському мозку є вроджена здатність: коли ми дивимося на картинку, ми спочатку швидко скануємо картинку, а потім фіксуємо цільову область, на якій потрібно зосередитися.

Якщо ви не відпустите будь-яку місцеву інформацію, ви неминуче будете робити багато марної роботи, яка не сприяє виживанню. Подібним чином запровадження подібних механізмів у мережах глибокого навчання може спростити моделі та прискорити обчислення. По суті, увага полягає в тому, щоб відфільтрувати невелику кількість важливої інформації з великої кількості інформації та зосередитися на цій важливій інформації, ігноруючи більшість неважливої інформації.

В останні роки механізм уваги широко використовується в різних сферах глибокого навчання, наприклад, у комп’ютерному зорі для захоплення сприйнятливих полів на зображеннях або в НЛП для визначення місцезнаходження ключових токенів або функцій. Велика кількість експериментів довела, що модель із механізмом уваги досягла значного покращення продуктивності в таких завданнях, як класифікація зображень, сегментація, відстеження, покращення та розпізнавання природної мови, розуміння, відповіді на запитання та переклад.

Модель Transformer, яка вводить механізм уваги, можна розглядати як комп’ютер послідовності загального призначення. Механізм уваги дозволяє моделі призначати різні ваги уваги відповідно до кореляції різних позицій у послідовності під час обробки вхідної послідовності. Це дозволяє Transformer фіксувати залежності на великій відстані та контекстну інформацію, тим самим покращуючи ефект обробки послідовності.

Але того року ані в Transformer, ані в першій статті не говорилося про послідовний комп’ютер загального призначення. Натомість автори бачать у ньому механізм вирішення вузької та специфічної проблеми – машинного перекладу. Отже, коли ми простежимо походження AGI у майбутньому, ми, можливо, зможемо відстежити його назад до «непомітного» Перекладача Google.

Хоча він був прийнятий NeurIPS 2017, він навіть не отримав усної оцінки

Хоча стаття Transformer зараз дуже впливова, вона навіть не отримала усної оцінки, не кажучи вже про нагороду, на найкращій у світі конференції штучного інтелекту NeurIPS 2017. Того року на конференцію було подано загалом 3240 статей, з яких 678 було відібрано як доповіді на конференції. Доповідь Transformer була однією з прийнятих. Серед них 40 були усними доповідями, 112 доповідями Spotlight і 3 були найкращими Документи, нагорода «Випробування часом», «Трансформер» пропустила нагороду.

Незважаючи на те, що він не отримав нагороду NeurIPS 2017, вплив Transformer очевидний для всіх.

Джим Фан прокоментував: Судді не винні в тому, що людям важко усвідомити важливість впливового дослідження до того, як воно стане впливовим. Однак є також документи, яким пощастило бути відкритими в першу чергу, як-от ResNet, запропонований Хе Каймінгом та іншими, які того року перемогли як найкраща стаття CVPR 2016. Це дослідження цілком заслужено та справедливо визнано саміт AI. Але зараз у 2017 році дуже розумні дослідники можуть бути не в змозі передбачити зміни, спричинені LLM.Як і в 1980-х роках, мало хто міг передбачити цунамі, спричинене глибоким навчанням, починаючи з 2012 року.

## Вісім авторів, їхнє життя чудове

На той час було 8 авторів цієї статті, вони були з Google та Університету Торонто. Через п’ять років більшість авторів статті залишили початкову установу.

26 квітня 2022 року було офіційно засновано компанію під назвою «Адепт» із 9 співзасновниками, включаючи двох авторів статті Transformer, Ашіша Васвані та Нікі Пармара.

Ашиш Васвані отримав ступінь доктора філософії в Університеті Південної Каліфорнії під керівництвом китайських вчених Девіда Чіанга та Лян Хуанга, зосередившись на ранньому застосуванні сучасного глибокого навчання в моделюванні мови. У 2016 році він приєднався до Google Brain і очолював дослідження Transformer, залишивши Google у 2021 році.

Нікі Пармар закінчила Університет Південної Каліфорнії зі ступенем магістра та приєдналася до Google у 2016 році. Під час своєї роботи вона розробила кілька успішних моделей відповідей на запитання та схожості тексту для пошуку та реклами Google. Вона очолила ранню роботу з розширення моделі Transformer для створення зображень, комп’ютерного бачення тощо. У 2021 році вона також покине Google.

Після відходу вони заснували Adept і обіймали посади головного наукового співробітника (Ашіш Васвані) і головного технічного директора (Нікі Пармар) відповідно. Бачення Adept полягає в тому, щоб створити штучний інтелект під назвою «напарник зі штучним інтелектом», який буде навчений використовувати різноманітні програмні засоби та API.

У березні 2023 року Adept оголосив про завершення раунду фінансування серії B на суму 350 мільйонів доларів США. Однак до того часу, як Adept збільшив державне фінансування, Нікі Пармар і Ашіш Васвані покинули Adept, щоб створити власний новий стартап зі штучним інтелектом. Однак нова компанія наразі закрита, і ми не маємо доступу до деталей компанії.

Інший автор статті, Ноам Шазір, був одним із найважливіших перших співробітників Google. Він приєднався до Google наприкінці 2000 року, поки остаточно не залишив у 2021 році, а потім став генеральним директором стартап-компанії під назвою «Character.AI».

Окрім Ноама Шазіра, засновником Character.AI є Даніель Де Фрейтас, обидва вони є членами команди Google LaMDA. Раніше в Google створили LaMDA, мовну модель, яка підтримує розмовні програми.

У березні цього року Character.AI оголосила про завершення фінансування в розмірі 150 млн доларів США з оцінкою в 1 млрд доларів США. Це одна з небагатьох стартап-компаній, які мають потенціал для конкуренції з OpenAI, повідомляє агентство. ChatGPT, і це також рідко зростає лише за 16 місяців. Для компаній-єдинорогів. Його додаток Character.AI — це чат-бот з моделлю нейронної мови, який може генерувати людські текстові відповіді та брати участь у контекстних розмовах.

Character.AI був запущений в Apple App Store і Google Play Store 23 травня 2023 року з понад 1,7 мільйонами завантажень за перший тиждень. У травні 2023 року сервіс додав платну підписку c.ai+ за 9,99 доларів США на місяць, яка надає користувачам пріоритетний доступ до чату, швидший час відповіді та ранній доступ до нових функцій, серед інших переваг.

Ейдан Н. Гомес залишив Google ще в 2019 році, потім працював дослідником у FOR.ai, а зараз є співзасновником і генеральним директором Cohere.

Cohere – це генеративний стартап зі штучним інтелектом, заснований у 2019 році. Його основна діяльність включає надання моделей НЛП і допомогу компаніям у покращенні взаємодії людини з комп’ютером. Трьома засновниками є Іван Чжан, Нік Фросст і Ейдан Гомес, де Гомес і Фросст є колишніми членами команди Google Brain. У листопаді 2021 року Google Cloud оголосила, що співпрацюватиме з Cohere, Google Cloud використовуватиме свою потужну інфраструктуру для забезпечення платформи Cohere, а Cohere використовуватиме TPU Cloud для розробки та розгортання своїх продуктів.

Примітно, що Cohere щойно залучив 270 мільйонів доларів у рамках серії C, що зробило його єдинорогом 2,2 мільярда доларів.

Лукаш Кайзер покинув Google у 2021 році, пропрацював у Google 7 років і 9 місяців, а зараз є дослідником в OpenAI. Під час роботи вченим-дослідником у Google він брав участь у розробці нейронних моделей SOTA для машинного перекладу, синтаксичного аналізу та інших алгоритмічних і генеративних завдань, а також був співавтором системи TensorFlow, бібліотеки Tensor2Tensor.

Якоб Ушкорейт залишив Google у 2021 році та працював у Google 13 років, перш ніж приєднатися до Inceptive як співзасновник. Inceptive — це фармацевтична компанія штучного інтелекту, яка займається використанням глибокого навчання для розробки препаратів РНК.

Під час роботи в Google Якоб Ушкорейт допоміг створити команду розуміння мови для Google Assistant і на початку роботи над Google Translate.

Ілля Полосухін залишив Google у 2017 році і зараз є співзасновником і технічним директором NEAR.AI (компанія, що базується на блокчейні).

Єдиний, хто все ще працює в Google, це Llion Jones, цього року він працює 9 років у Google.

Минуло 6 років з моменту публікації статті «Увага — це все, що вам потрібно». Деякі з перших авторів вирішили піти, а деякі залишилися в Google. У будь-якому випадку, вплив Transformer продовжується.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити