Які оптимізації та прориви будуть досягнуті, коли велика модель буде боротися за 2.0

Оригінальний текст: The Paper, автор: Che Xingyun

Джерело зображення: створено Unbounded AI‌

У червні цього року великі виробники оновили свої ChatGPT-подібні продукти. 9 червня Xunfei запустив оновлену версію Xinghuo Cognitive Big Model; 13 червня, після випуску продукту, схожого на ChatGPT, 360 знову провела конференцію 360 Smart Brain Big Model Application Conference.

На відміну від великих моделей, випущених приблизно в лютому, оновлені продукти, випущені різними компаніями останнім часом, більш упереджені до прикладного рівня, і мета полягає в тому, щоб полегшити роботу тисяч домогосподарств.

Судячи з поточного випуску, 360 Intellectual Brain спочатку мав можливості крос-модального генерування. Окрім генерування тексту, таблиць і зображень із тексту, генерування тексту та зображень із зображень, генерування тексту з відео та вирізання відео з тексту та інші базові творіння Крім того, він також переосмислює «цифрову людину», щоб надати користувачам настроюваний і ексклюзивний «штучний інтелект», який «має душу, людський дизайн і пам’ять».

На даний момент сценарієм застосування з найближчою відстанню між 360 Smart Brain і користувачами є існуюче сімейне відро 360. Чжоу Хуні сказав на прес-конференції, що «360 Smart Brain 4.0» буде підключено до 360 Security Guard, 360 Browser, 360 Search, і т. д. Людино-машинна співпраця.

На прес-конференції Чжоу Хуні змінив свою попередню точку зору: «Я якось сказав, що розрив між внутрішньою великомасштабною моделлю та ChatGPT становить два роки, і тепер я хочу повернути це речення». Рівень на рівні. з GPT3.5, і якщо він розвиватиметься з такою швидкістю, він миттєво наздожене або навіть перевершить GPT4.

Чи бачив Чжоу Хун'і такі величезні зміни протягом чотирьох місяців від випуску початкової версії до офіційного випуску 360 Smart Brain?

Науково-технічний гігант полює на велику модель

«Звіт про дослідження великомасштабної моделі штучного інтелекту Китаю», опублікований на Чжунгуаньцуньському форумі 2023 року, показує, що наразі великомасштабні моделі штучного інтелекту Китаю демонструють тенденцію до активного розвитку. За неповною статистикою, на даний момент по всій країні випущено 79 масштабних моделей з параметрами понад 1 млрд.

Однак параметри великомасштабних моделей великих технологічних компаній є відносно великими: параметри великої моделі Alibaba Tongyi Qianwen перевищують 10 трильйонів, параметри великої моделі Tencent Hunyuan і великої моделі Huawei Pangu перевищують один трильйон. , а велика модель Baidu Wenxin має параметри понад один трильйон. Обсяг параметрів великомасштабної моделі становить понад 200 мільярдів, а обсяг параметрів великої моделі JD Yanxi становить 100 мільярдів; обсяг параметрів технологічних компаній у вертикальних галузей, як правило, понад 100 мільярдів, а обсяг параметрів великої моделі науково-дослідних установ на рівні ста мільярдів і нижче.

З точки зору системи компонування великої моделі, великі технологічні компанії виконали комплексну компоновку «чотири в одному» на рівні обчислювальної потужності, рівні платформи, рівні моделі та рівні додатків. Baidu, Ali та Huawei мають комплексний план незалежних досліджень і розробок від чіпів до додатків, як-от «ядро Kunlun + платформа літаючого весла + велика модель Wenxin + галузеве застосування» Baidu, «чіп Hanguang 800 + основа M6-OFA» компанії Ali. + Велика модель Tongyi + галузеве застосування», Huawei «Чіп Shengteng + MindSpore framework + велика модель Pangu + галузеве застосування».

Крім того, Kingsoft Office також випустив WPS AI 31 травня. Наразі WPSAI підключено до офісних компонентів Kingsoft Office, таких як легкі документи, текст, таблиці, презентації та PDF-файли. У майбутньому він закріпить AIGC, розуміння прочитаного , запитання та відповідь, взаємодія людини та комп’ютера, розвиток у стратегічному напрямку та доступ до повної лінійки продуктів Kingsoft Office.

Швидкий приплив різних великих виробників у цей трек головним чином пов’язаний із швидким спостереженням і введенням заходів з боку регулюючих органів для регулювання розвитку галузі.Під супроводом структури верхнього рівня кожен великий виробник може природно інвестуйте в дослідження та розробки та впевнено запускайте продукти.

З тих пір, як масштабна модель була запущена партіями в березні цього року, регуляторна політика штучного інтелекту поступово прояснилася, що також вказало напрямок для галузевих застосувань.

Оглядаючись на розвиток усієї галузі, 11 квітня для коментарів було оприлюднено «Метод управління генеративним штучним інтелектом», а 30 травня Інститут інформаційно-комунікаційних технологій спільно готує відкриту модель штучного інтелекту «Kite». ліцензії, а наступним кроком стане видача ліцензії на відкриту модель штучного інтелекту Zhikite (проект для коментарів).

Згодом міста першого рівня спільно оприлюднили «План реалізації для Пекіна прискорення будівництва всесвітньо впливового джерела інновацій штучного інтелекту (2023-2025)»; рік)».

У цьому контексті Чжоу Хуні вважає, що вітчизняна велика модель швидко скоротить розрив із ChatGPT, який, здається, легко зрозуміти.

Яка різниця між 360 Smart Brain

Згідно з планом Zhou Hongyi, велика модель 360 буде заснована на безперервному вдосконаленні великої моделі з урахуванням сценізації, продукціалізації, вирівнювання та вертикалізації.

Згідно з цією стратегією розвитку, 360 Smart Brain може охопити споживачів (персональний AI-помічник користувача), малі та середні підприємства (вертикальна програма SaaS), підприємства/уряди/міста (приватизована модель розгортання), промисловість (вертикальна модель промисловості) та інші чотири основні сценарії застосування.

Щоб краще задовольнити потреби вищезазначених різних сценаріїв, загальна великомасштабна модель має завершити перетворення від введення тексту до виведення тексту, до розуміння зображень і відео та здатності створювати зображення та відео на існуючих Основа, що еквівалентна створенню великомасштабної моделі. З «вухами» та «очима» закладається основа для створення «цифрової людини».

Традиційним цифровим людям потрібно лише виводити дані відповідно до встановленого сценарію, але в епоху великих моделей цифрових людей 360 можна налаштувати, щоб люди були розроблені, мали спогади та досвід. Наразі в 360 є понад 200 символів платформа digital human square, розділена на дві категорії: цифрові знаменитості та цифрові співробітники. 360 сподівається, що в майбутньому кожен матиме власного ШІ-помічника та матиме можливість спілкуватися з давніми людьми у віртуальному просторі, у часі та просторі.

На демонстраційній зустрічі Чжоу Хун’ї запитав «Чжуге Ляна», як, на його думку, сьогодні це стало матеріалом для привидів і тварин, і цифровий чоловік відповів тоном Чжуге Ляна: доля минулого і сьогодення неминуча. У сьогоднішній ситуації світ переживає неспокій. Я хоч і старий, але до світу прагну. Сучасні молоді люди використовують мене як матеріал для привидів і тварин, і я з готовністю приймаю цю зміну. А молодим друзям бажаю сміливо йти вперед попереду та творити краще майбутнє.

У той же час Чжоу Хун'ї також підкреслив, що форма цифрових людей у майбутньому також матиме власні цілі, можливості планування та декомпозиції, щоб різні вертикальні моделі можна було викликати для виконання завдань.

Однак ці функції насправді є оптимізацією на основі існуючих широкомасштабних модельних додатків і не відкрили нового поля. Але насправді, коли велика модель зробила прорив, найкреативнішим сценарієм застосування є безпілотне водіння.

** Водіння без водія має шанс виїхати на швидкісну смугу **

Озираючись на сферу безпілотного водіння, з 2016 року великі виробники розгортають цю сферу, але до цього року жоден із них не може досягти справжнього безпілотного водіння.

На даний момент система безпілотного водіння рівня L2+ потребує 10+ камер, 1-2 лідарів або 3-5 міліметрових радарів для надання багатовимірних даних, які можна використовувати для навчання моделі після ручного маркування. Після появи великих моделей, здатних розпізнавати зображення, витрати часу і матеріалів на ручне маркування різко знизяться.

Згідно з прес-конференцією Momo Zhixing DriveGPT у квітні 2023 року, для отримання такої інформації, як смуги руху, учасники руху, світлофори тощо, вартість ручного маркування в галузі становить близько 5 юанів за зображення, а вартість Momo DriveGPT становить 0,5 юаня. Ми вважаємо, що після того, як широкомасштабна модельна підготовка технологічних компаній досягне зрілості, гранична вартість автоматичного маркування одного зображення наблизиться до нуля, а середня вартість, як очікується, ще зменшиться.

За словами Чжана Пенга, віце-президента Kaiwang Data Products Project, у лютому 2023 року, на даний момент ручне маркування є основним методом маркування даних, доповненим машинним маркуванням, і 95% маркування даних все ще є в основному ручним. Втручання великих моделей може значно підвищити ефективність цієї галузі. Беручи приклад Tesla, у 2021 році команда ручного маркування налічуватиме понад 1000 людей, а у 2022 році команда звільнить понад 200 людей.

Крім того, очікується, що в епоху великих моделей сторонні технологічні гіганти допоможуть OEM-виробникам створювати власні алгоритми автономного водіння та замкнуті системи даних, надаючи повний ланцюжок інструментів, покладаючись при цьому на можливості генерування даних великих моделей. скоротити розрив у полі даних, очікується, що настане ера автономного водіння Android.

В даний час великі моделі використовуються для забезпечення замкнутого циклу даних, моделювання, алгоритмів сприйняття, алгоритмів регулювання та контролю та інших полів. І такі гіганти, як Microsoft і Nvidia, змагаються за макет у великих моделях і автономне водіння, або викличуть нові іскри.

Крім того, поява великих моделей також сприяє розподілу праці в галузі, дозволяє уникнути «перевинаходження велосипеда» та прискорює ітерацію датчиків і чіпів, і очікується, що вартість системи значно знизиться. Очікується, що розробники великомасштабних моделей і гравці в ланцюжку індустрії автономного водіння отримають всебічну вигоду.

Візьмемо Baidu Apollo як приклад. Спочатку він використовує графічну інформацію для попереднього навчання оригінальної моделі, використовує алгоритми для ідентифікації, визначення місцезнаходження та сегментування даних зображень перегляду вулиць і поміщає їх у кодер для формування базової бібліотеки, тобто створює відповідність між зображеннями та текстовою інформацією на основі пулу даних перегляду вулиць.

По-друге, ви можете шукати та досліджувати певні сцени (наприклад, швидкісні транспортні засоби, інвалідні візки, діти тощо) за допомогою тексту та зображень, а також проводити спеціальне навчання на моделі автомобіля, що значно покращує використання даних про запас.

Baidu використовує напівконтрольований метод, щоб повністю використовувати 2D і 3D дані для навчання великої моделі сприйняття. Завдяки дистиляції малої моделі в кілька етапів продуктивність маленької моделі покращується, і в той же час маленька модель налаштовується для навчання за допомогою автоматичного маркування, яке використовується для покращення здатності 3D-візуального сприйняття на великій відстані та покращення ефект сприйняття мультимодальної моделі сприйняття.

Інший провідний гравець, SenseTime, також публічно заявив, що AIGC можна використовувати для створення реальних дорожніх сцен і складних зразків для навчання автоматичної системи водіння, а мультимодальні дані можна використовувати як вхідні дані для великої моделі для покращення верхньої межі сприйняття системою кутових сцен.

У той же час мультимодальна велика модель автономного водіння може реалізувати інтегровану інтеграцію сприйняття та прийняття рішень, а 3D-середовище може бути реконструйовано за допомогою декодера середовища на вихідному кінці для реалізації візуального розуміння середовища; декодер поведінки може генерувати повне планування шляху; декодер мотивації може використовуватися Природною мовою описується процес міркування, що робить систему автономного водіння безпечнішою та надійнішою.

Після того як велика модель реалізує вищезазначені функції, поріг для безпілотного водіння ставатиме все нижчим у майбутньому.Поки провідні виробники прискорюють прогрес проектів безпілотного водіння, вони також можуть дозволити більшій кількості нових гравців приєднатися до цієї сфери та розробляти дороги, які вимагають доріг на додаток до дорожньої навігації.Трек функції планування, як-от подальша оптимізація планування шляху робота-підмітальника.

Дивлячись на це зараз, після централізованого випуску великомасштабних моделей з лютого по березень, періоду розробки продукту з квітня по травень і поступового уточнення напрямків політики червень увійшов у період централізованого випуску великомасштабних AI. масштабні моделі продуктів і програм. Це також безпосередньо призводить до зниження ціни OpenAI API.

У доступному для огляду майбутньому технологія штучного інтелекту продовжуватиме вдосконалюватися, а додатки розвиватимуться. Водночас усе більше і більше великих технологічних компаній випускатимуть продукти, які відповідають цьому напряму, що продовжуватиме сприяти процвітанню галузі та приносити більше GPT-подібні продукти, які відповідають ринковому попиту, такі як Tencent, який має величезну базу користувачів, також випустив технічне рішення для великих моделей 19 червня.

Коли ці компанії об’єднаються, галузь розвиватиметься швидше, а це також означає, що кінцеві користувачі C незабаром зможуть використовувати цей продукт.Щодо того, хто за це заплатить, кожен виробник повинен покладатися на свої власні здібності.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити