Чи не забагато великої моделі?

Першоджерело: Yuanchuan Science and Technology Review

Джерело зображення: Створено Unbounded AI

Минулого місяця в індустрії ШІ спалахнула «війна тварин».

З одного боку – лама (llama) від Meta, яка історично була популярна серед спільноти розробників завдяки своїй природі з відкритим вихідним кодом. Після ретельного вивчення паперу та вихідного коду Llama NEC швидко «самостійно роробила» японську версію ChatGPT, допомагаючи Японії вирішити проблему шиї зі штучним інтелектом.

**З іншого боку розташована велика модель, яка називається Falcon (Сокіл). **У травні цього року був запущений Falcon-40B, який обійшов ламу в рейтингу Open Source LLM (Large Language Model) Ranking.

Список, підготовлений Hugging face, спільнотою моделей з відкритим вихідним кодом, містить набір критеріїв для вимірювання можливостей LLM і ранжує їх. Таблиця лідерів в основному складається з Llama і Falcon, які по черзі прокручують чарти.

Після запуску Llama 2 сім'я лам повернула собі місто; Але на початку вересня Falcon запустив версію 180B, знову досягнувши вищих рейтингів.

Falcon розгромив Llama 2, набравши 68,74 бала

Цікаво, що розробником «Сокола» є не технологічна компанія, а Інститут науково-технічних інновацій, що базується в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Джерела в уряді сказали: «Ми беремо участь у цій грі, щоб підірвати основних гравців».[4] 。

Наступного дня після виходу версії 180B міністр штучного інтелекту ОАЕ Омар був обраний журналом Time як один зі «100 найвпливовіших людей у сфері штучного інтелекту»; Поряд з цим близькосхідним обличчям були «хрещений батько штучного інтелекту» Хінтон, Альтман з OpenAI і Робін Лі.

Міністр штучного інтелекту ОАЕ

Сьогодні сфера ШІ вже вийшла на стадію «групового танцю»: всі країни та підприємства з невеликими фінансовими ресурсами мають більш-менш плани щодо створення «ХХ національної версії ChatGPT». Тільки в колах Перської затоки є не один гравець – Саудівська Аравія щойно закупила понад 3000 H100 для своїх університетів у серпні для навчання LLM.

Чжу Сяоху, венчурний капітал GSR River, якось поскаржився в колі друзів: «Тоді я дивився зверхньо на інновації бізнес-моделі (Інтернету) і відчував, що немає жодних бар'єрів: сто полків війна, сто машин війна, сто трансляційна війна; Я не очікувала, що жорстке технологічне підприємництво – це все одно стомодельна війна...»

Як може складна жорстка технологія, яка, як кажуть, є країною, виробляє 100 000 кішок на мю?

Трансформер пожирає світ

Американські стартапи, китайські технологічні гіганти та близькосхідні нафтові барони змогли помріяти про великі моделі завдяки знаменитій статті: «Увага — це все, що вам потрібно».

У 2017 році 8 комп'ютерних вчених Google розкрили світові алгоритм Transformer у цій статті. Ця стаття в даний час є третьою найбільш цитованою статтею в історії штучного інтелекту, і поява Transformer натиснула на спусковий гачок цього витка буму штучного інтелекту.

Незалежно від національності, нинішні великі моделі, включаючи серію GPT, що потрясає світ, стоять на плечах Transformer.

До цього «навчити машини читати» було визнаною академічною проблемою. На відміну від розпізнавання зображень, коли люди читають текст, вони не тільки звертають увагу на слова та речення, які вони зараз бачать, але й розуміють їх у контексті.

Наприклад, слово «Трансформер» насправді можна перекласти як «Трансформер», але читачі цієї статті точно не зрозуміють його саме так, адже всі знають, що це стаття не про голлівудські фільми. **

Однак в перші роки введення нейронних мереж були незалежні один від одного, і вони не мали можливості зрозуміти великий абзац тексту або навіть всю статтю, тому виникла проблема перекладу «кімната з киплячою водою» в «кімнату відкритої води».

Лише у 2014 році Ілля Суцкевер, фахівець з інформатики, який працював у Google, а потім перейшов до OpenAI, був першим, хто почав давати результати. Він використовував рекурентні нейронні мережі (RNN) для обробки природної мови, швидко виділивши продуктивність Google Translate серед конкурентів.

RNN пропонує «дизайн петлі», щоб кожен нейрон приймав як вхідну інформацію поточного моменту, так і вхідну інформацію попереднього моменту, так що нейронна мережа має можливість «комбінувати контекст».

Рекурентні нейронні мережі

Поява RNN розпалила пристрасть до досліджень в академічних колах, і Ноам Шазір, автор статті Transformer, також був залежний від неї. Однак розробники швидко зрозуміли, що RNN мають серйозний недолік:

**Алгоритм використовує послідовні обчислення, які можуть вирішити проблему контексту, але він не є ефективним і складним для обробки великої кількості параметрів. **

Громіздкий дизайн RNN швидко набрид Шазелю. Так що з 2015 року Шазель і 7 друзів розробляють альтернативи RNN, і в результаті вийшов Transformer[8] 。

Ноам Шазір

У порівнянні з РНМ, трансформація Трансформера має два моменти:

По-перше, на зміну шлейфовому дизайну RNN приходить позиційне кодування, тим самим реалізується паралельні обчислення - ця зміна значно підвищує ефективність навчання Transformer, таким чином стаючи здатним обробляти великі дані, підштовхуючи ШІ до ери великих моделей; По-друге, ще більше посилено здатність до подальшого посилення контексту.

У міру того, як Transformer вирішував багато дефектів за один раз, він поступово перетворився на єдине рішення NLP (обробка природної мови), яке має сенс «Трансформер не народжується в природі, НЛП схожий на довгу ніч». Навіть Ілля відмовився від РНН, який власноруч тримав вівтар, і перейшов на Трансформер.

Іншими словами, Трансформер є дідусем всіх сучасних великих моделей, тому що він перетворив велику модель з теоретичної дослідницької задачі в чисто інженерну проблему. **

[9]Діаграма дерева розвитку технології LLM, корінь сірого дерева - це трансформатор

У 2019 році OpenAI розробила GPT-2 на базі Transformer, який свого часу здивував академічне коло. У відповідь Google швидко розгорнув потужніший штучний інтелект під назвою Meena.

У порівнянні з GPT-2, Meena не має базових інновацій алгоритмів, але має у 8,5 разів більше параметрів навчання та в 14 разів більше обчислювальної потужності, ніж GPT-2. Шазел, автор статті «Трансформер», був настільки вражений «насильницькою купою», що написав на місці записку «Міна пожирає світ».

Поява Transformer значно сповільнила інновації базових алгоритмів в академічних колах. Інженерні елементи, такі як інженерія даних, масштаб обчислювальної потужності та архітектура моделі, все частіше стають важливими переможцями та переможеними у змаганні зі штучним інтелектом, і до тих пір, поки технологічні компанії з певними технічними можливостями можуть вручну розтерти велику модель.

Тому, коли комп'ютерник Ендрю Нг виступав з промовою в Стенфордському університеті, він згадав один момент: «ШІ — це набір інструментів, включаючи контрольоване навчання, навчання без учителя, навчання з підкріпленням, а тепер і генеративний штучний інтелект». Все це технології загального призначення, подібні до інших технологій загального призначення, таких як електрика та Інтернет.[10] "

OpenAI, як і раніше, є лідером LLM, але напівпровідникова аналітична компанія Semi Analysis вважає, що конкурентоспроможність GPT-4 походить від інженерних рішень — якщо відкритий вихідний код, будь-який конкурент може швидко відтворитися.

Аналітик прогнозує, що може пройти небагато часу, перш ніж інші великі технологічні компанії зможуть створювати великі моделі з такою ж продуктивністю, як GPT-4[11] 。

Рів, побудований на склі

Наразі «стомодельна війна» – це вже не риторичний прийом, а об'єктивна реальність.

Відповідні звіти свідчать, що станом на липень цього року кількість вітчизняних великих моделей досягла 130, що вище, ніж 114 у США, успішно досягнувши обгону на поворотах, а різних міфів та легенд майже недостатньо для того, щоб вітчизняні технологічні компанії взяли собі назви[12] 。

Крім Китаю і Сполучених Штатів, ряд більш заможних країн також спочатку досягли принципу «одна країна, одна модель»:* * Крім Японії і Об'єднаних Арабських Еміратів, є також індійська урядова велика модель Bhashini, південнокорейська інтернет-компанія Naver HyperClova X і так далі. **

Битва, що стоїть перед нами, здається, повернулася в епоху інтернет-першопрохідців, коли бульбашки та «можливості банкнот» бомбардували.

Як вже говорилося раніше, Transformer перетворює великі моделі в суто інженерні проблеми, поки у когось є гроші і відеокарти, решта втрачається на параметри. Однак, хоча вхідний квиток отримати не складно, це не означає, що кожен має можливість стати ВАТ в епоху ШІ.

«Війна тварин», згадана на початку, є типовим випадком: хоча Falcon обійшов ламу в рейтингу, важко сказати, наскільки сильно вона вплинула на Meta. **

Як ми всі знаємо, підприємства відкривають вихідні коди власних результатів наукових досліджень не тільки для того, щоб поділитися з громадськістю благополуччям науки і техніки, а й для того, щоб мобілізувати мудрість народу. Оскільки професори університетів, науково-дослідні установи та малі та середні підприємства продовжують використовувати та вдосконалювати Llama, Meta може застосувати ці результати у власних продуктах.

**Для моделі з відкритим вихідним кодом активна спільнота розробників є її основною компетенцією. **

Ще у 2015 році, коли була створена лабораторія штучного інтелекту, Meta задала основний тон відкритого вихідного коду; Цукерберг також заробив свої статки в бізнесі соціальних мереж, і він добре розбирається в питанні «хорошої роботи в сфері зв'язків з громадськістю».

Наприклад, у жовтні Meta запустила кампанію «AI Creator Incentive»: розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта та навколишнє середовище, матимуть можливість отримати $500 000 фінансування у розмірі $500 000.

Сьогодні серія Llama від Meta є флюгером LLM з відкритим вихідним кодом.

Станом на початок жовтня, загалом 8 із 10 найкращих списків LLM з відкритим вихідним кодом Hugging face засновані на Llama 2 і використовують його ліцензію з відкритим вихідним кодом. Тільки на обличчі Hugging налічується понад 1 500 LLM, що використовують протокол з відкритим вихідним кодом Llama 2[13] 。

Станом на початок жовтня номер один LLM на обличчі Hugging базується на Llama 2

Звичайно, можна покращити продуктивність, як Falcon, але до цього дня більшість LLM на ринку все ще мають видимий розрив у продуктивності з GPT-4.

Наприклад, днями GPT-4 очолив тест AgentBench з результатом 4,41. Стандарт AgentBench спільно запущений Університетом Цінхуа, Університетом штату Огайо та Каліфорнійським університетом у Берклі для оцінки здатності LLM міркувати та приймати рішення в багатовимірному середовищі відкритої генерації, включаючи завдання у 8 різних середовищах, таких як операційна система, база даних, граф знань та карткова битва.

Результати тестів показали, що Клод, який фінішував другим, мав лише 2,77 бала, і розрив все одно був очевидним. Що стосується цих величезних LLM з відкритим вихідним кодом, їхні результати тестів коливаються в районі 1 бала, що становить менше 1/4 від GPT-4[14] 。

Результати тестування AgentBench

Ви знаєте, GPT-4 був випущений у березні цього року, що все ще є результатом після того, як глобальні колеги наздоганяли його понад пів року. Причиною цього розриву є досвід, накопичений командою вчених OpenAI з високою «щільністю IQ» та довгостроковими дослідженнями LLM, тому він завжди може бути далеко попереду.

Іншими словами, основною здатністю великої моделі є не параметр, а побудова екології (відкритий вихідний код) або чистих міркувань (закритий вихідний код). **

У міру того, як спільнота з відкритим вихідним кодом стає більш активною, продуктивність LLM може зближуватися, оскільки всі вони використовують схожі модельні архітектури та схожі набори даних.

Ще одна більш інтуїтивна головоломка: крім Midjourney, жодна велика модель, здається, не заробляє гроші.

Якір вартості

У серпні цього року багато уваги привернула цікава стаття під назвою «OpenAI може збанкрутувати до кінця 2024 року»[16] 。 Основну думку статті можна підсумувати майже одним реченням: OpenAI спалює гроші занадто швидко. **

У матеріалі згадувалося, що з моменту розробки ChatGPT збитки OpenAI стрімко зростають, втративши близько $540 млн лише за 2022 рік, і залишається лише чекати, поки заплатять інвестори Microsoft.

Незважаючи на те, що назва статті є сенсаційною, вона також розповідає про поточну ситуацію багатьох великих модельних провайдерів: ** Існує серйозний дисбаланс між витратами та доходами. **

Вартість занадто висока, що призводить до нинішньої залежності від штучного інтелекту, щоб заробити багато грошей тільки NVIDIA, максимум додати Broadcom.

За даними консалтингової компанії Omdia, у другому кварталі цього року Nvidia продала понад 300 000 одиниць H100. Це ШІ-чіп, ефективність навчання ШІ надзвичайно висока, а технологічні компанії та науково-дослідні установи по всьому світу розкуповуються. Якби 300 000 проданих H100 були складені один на одного, вони важили б еквівалент 4,5 літаків Boeing 747[18] 。

Продуктивність Nvidia також зросла, злетівши на 854% у річному обчисленні, що колись шокувало щелепу Уолл-стріт. До речі, поточна ціна H100 на ринку секонд-хенду припускається до $40 000-50 000, але його матеріальна вартість становить лише близько $3 000.

Висока вартість обчислювальних потужностей стала певною мірою опором розвитку галузі. Sequoia Capital підрахувала: ** очікується, що глобальні технологічні компанії витрачатимуть $200 млрд на рік на будівництво інфраструктури великих моделей; На противагу цьому, великі моделі можуть генерувати лише до 75 мільярдів доларів на рік із розривом щонайменше 125 мільярдів доларів[17] 。 **

Дженсен Хуанг з H100

Крім того, за деякими винятками, такими як Midjourney, більшість компаній-розробників програмного забезпечення ще не придумали, як заробити гроші після сплати величезних витрат. Зокрема, два провідні старші брати в індустрії, Microsoft і Adobe, трохи спіткнулися.

Microsoft і OpenAI співпрацювали над розробкою інструменту генерації коду штучного інтелекту GitHub Copilot, який стягує 10 доларів на місяць, але через вартість приміщень Microsoft втрачає 20 доларів, а активні користувачі можуть навіть змусити Microsoft платити 80 доларів на місяць. Виходячи з цих припущень, Microsoft 365 Copilot за 30 доларів не є збитком.

За збігом обставин, Adobe, яка щойно випустила інструмент штучного інтелекту Firefly, також швидко запустила систему допоміжних балів, щоб запобігти інтенсивному використанню користувачами та втраті грошей компанії. Як тільки користувач використовує більше кредитів, що виділяються щомісяця, Adobe уповільнює роботу служби.

Ви повинні знати, що Microsoft і Adobe вже є гігантами програмного забезпечення з чіткими бізнес-сценаріями і великою кількістю готових платних користувачів. Більшість параметрів складено в небі, і найбільший сценарій застосування – чат.

Безперечно, що без появи OpenAI та ChatGPT ця революція штучного інтелекту могла б взагалі не відбутися; Але в даний час цінність навчання великих моделей може бути під знаком питання.

Більше того, оскільки конкуренція за гомогенізацію посилюється, і на ринку з'являється все більше і більше моделей з відкритим вихідним кодом, може залишитися менше місця для простих постачальників великих моделей.

Популярність iPhone 4 пов'язана не з 45-нм процесором формату A4, а з тим, що в ньому можна грати в Plants vs. Zombies і Angry Birds.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити