ШІ починає вводити душу в цифрових людей

巴比特_

2023-05-15 03:21:16

Автор: Фредді

Підтримка даних: великі дані Піфагора (

Джерело: Gelonghui

Джерело зображення: створено інструментом Unbounded AI

Останніми днями вітчизняні «непопулярні співаки» знову стали популярними завдяки каверам на пісні ШІ.

Користувачі мережі Station B використовували модель AI для створення клону AI співачки Stefanie Sun, який насправді схожий на «Lin Chiling» і «Guo Degang» на автомобільній навігації. Візьміть власне аудіо співака для тренування та згенеруйте "Sun Yanzi" з точно таким же тембром.

Тоді таким дивним чином реалізувалося бажання дати айдолам співати улюблені пісні.

Джерело: Станція Б

Ігровий процес за кордоном ще більш обурливий.

23-річна інтернет-зірка зі Сполучених Штатів із 1,8 мільйонами шанувальників відтворила свій клон штучного інтелекту за допомогою GPT-4, а потім закохалася в понад 1000 користувачів мережі одночасно, стягуючи 1 долар за хвилину.

Лише за тиждень вона заробила 71 600 доларів.

**Набагато більше, тепер її «хлопців» все ще стрімко зростає, і їх кількість зросла майже до 10 000 осіб, а час очікування в черзі, щоб «закохатися» в неї, становить аж 96 годин. . **

Деякі аналітики вважають, що, судячи з тенденції, їй неважко заробляти 5 мільйонів доларів на місяць, і якщо не технічні обмеження, то ці гроші можуть бути астрономічною.

Ці явища вже можуть повністю продемонструвати, що ера нових технологічних дивідендів, принесених AI+, швидко наближається.

01Цифрова людська армія вливається в кімнату прямого ефіру

Жива доставка з товаром є найбільш потенційним сценарієм для реалізації віртуального IP.

Покоління Z використовує такі інструменти, як соціальні мережі, відео та онлайн-шопінг, набагато випереджає середній рівень усієї мережі. Новий геймплей, який поєднує цифрових людей і віртуальні простори, приніс їм відчуття досвіду та інтерактивності. Більшість основних шанувальники віртуального IP - це молодіжна група 18-24 років.

Ця тенденція дозволяє брендам побачити можливість зробити продукти проривними колами.

У 2020 році віртуальні співаки Луо Тяньї та Ле Чженлінг прийдуть у зал прямих трансляцій Taobao, щоб привезти товари для Bausch & Lomb, Midea, L'Occitane та інших брендів. Кількість глядачів цієї прямої трансляції досягла 2,7 мільйона, а майже 2 мільйони людей дали винагороди та взаємодії.

Тоді це викликало широке обговорення, і настала ера прямих трансляцій **віртуальних цифрових людей. **

І завдяки зростанню широкомасштабних моделей штучного інтелекту, розпочатому chatGPT цього року, сфера віртуальних цифрових людей відкрила ще один раунд більш величних вибухів.

Велика кількість віртуальних цифрових людей почала скупчуватися в залі прямого ефіру.

У квітні цього року віртуальна цифрова людина "朏朏" Tianyu Digital завершила доступ до моделі ChatGPT і завершила дебют прямого мовлення.Він може не тільки відповідати на запитання клієнтів у режимі реального часу, але й відповідати на різні запитання незалежно.

Джерело: Douyin

У короткому відео було багато таких сцен: Весь офіс компанії порожній, лише ряди столів із десятками штучних красунь на екранах комп’ютерів ведуть пряму трансляцію.... ..

Джерело: коротке відео

Ця компанія може вести пряму трансляцію протягом дня, лише покладаючись на 2D суперреалістичні аватари, сценарії та фони, підготовлені заздалегідь.**Хоча окремі ефекти не такі хороші, як прямі трансляції, вартість смішно низька, і це також може бути скопійований за наднизькими цінами, перемога полягає в кількісних виграшах, і не неможливо по-справжньому лягти й дозволити ШІ заробляти гроші. **

Все це свідчить про те, що в області цифрових людей починається революція в ефективності контенту на основі «AI+».

Віртуальні цифрові люди поділяються на багато типів відповідно до технології виробництва, сценаріїв застосування та характеристик зображення.

На відміну від популярних айдолів у 3D, більшість реалістичних цифрових людей у 2D, які говорять у кімнаті прямого ефіру, базуються на реальних прототипах, а їхні голоси та вирази відтворюються.

Віртуальний ведучий може здійснювати роботу в прямому ефірі 7*24, за викликом, не турбуючись про проблему скасування налаштувань людини, що зменшує вартість праці в операціях прямого ефіру.

За цим AIGC змінює процес виробництва цифрових людей.

Виробництво 2D цифрових людей використовує глибоке навчання. Треба лише визначити дизайн зображення. Після збору та попередньої обробки графічних і аудіоданих вони завантажуються в модель для навчання. У порівнянні з 3D, метод виробництва простіший і більший стандартизовано, а ефективність виробництва постійно покращується.

Цей метод фабричної складальної лінії значно скоротив поріг виробництва, вартість і цикл цифрових людей.

**У той же час із технологічною ітерацією та зниженням витрат на кінці виробництва почали з’являтися цифрові людські рішення для невеликих клієнтів. **

У квітні Tencent Cloud випустила цифрову платформу для виробництва людей. Цифрові аватари, яким потрібно генерувати реальні зображення, можуть купувати послуги на платформі. Просто завантажте зображення, аудіо та відео, щоб реалізувати налаштування, і стягувати плату відповідно до різних тембрів і тривалості відео.

Окрім створення цифрових людей, він також може надати повний набір цифрових рішень для трансляції людей у прямому ефірі. Функції включають аудіо реальної людини, що передає кімнату для прямого мовлення, та отримання розумних відповідей на коментарі користувачів. Ціна потребує лише тисячі юанів .

**А деякі оператори каналів навіть продають прив’язки ШІ в пакетах менше ніж за 200 юанів. **

Більшість цих ведучих зображень походять з авторизації модельних агентств.Хоча якість трансляції погана, є явні сліди вирізів, а голос не має особливостей.

Але для звичайних малих і середніх підприємств немає великого V, щоб принести товар, і вони не можуть дозволити собі витрачати мільйони на налаштування високоякісної IP.Якщо вони хочуть зменшити операційні витрати та швидко почати обсяги, кілька тисяч цифрових юанів достатньо.

Digital Human Studio, Siji

Якщо підприємство хоче самостійно модифікувати код і створювати різних цифрових людей, воно також може придбати вихідний код у постачальника технологій.Цифрові люди транслюють пряму трансляцію та заробляють гроші.

Але історія цифрової людини зі штучним інтелектом ще не закінчена.

02 Душа, наповнена AI

У звіті «Статус та аналіз можливостей цифрового людського ринку в Китаї зі штучним інтелектом» IDC розділила цифрових людей на п’ять рівнів. Наразі розробка цифрових людей пройшла етапи від ручного виробництва до моделювання штучного інтелекту. Вони спочатку мають людський вигляд, але вони можуть лише приймати прості інтерактивні рішення.

Коли рівень інтелекту досягає L4 і L5, керовані штучним інтелектом цифрові люди можуть приймати більшість сценічних рішень і підтримувати більш модальну взаємодію в реальному часі, подібно до особистого дворецького ШІ Залізної людини «Джарвіса».

**Розвиток віртуальних цифрових людей за останні 30 років, технологічний розвиток і ринковий попит в основному розвивалися навколо двох моментів: один – це візуальні ефекти; інший – інтерактивний досвід. **

Віртуальні цифрові люди вперше з’явилися в іграх, анімаціях і фільмах, відтворюючи емоційний зв’язок із модними речами та розширення цінності IP.

Ранні IP-адреси персонажів розмальовувалися вручну, і дії потрібно було малювати одну за одною. У 1982 році Хаясі Мінмі, героїня японського мультфільму «Макроси», стала першою віртуальною співачкою, яка випустила музичний альбом.

Співачка першого покоління Лін Мінмей

У фільмах зображення можна моделювати за допомогою комп’ютера, але дію мають виконувати люди. Технології CG, захоплення руху та інші технології поступово стають популярними. Покладаючись на зелені екрани та обладнання для захоплення, актори можуть виконувати будь-які ролі.

Після тисячоліття, від «Володаря перснів» у 2002 році до минулорічного «Аватара 2», відтворення ефектів персонажів було ретельним, що принесло велику зручність художній творчості.

Зображення Володаря кілець «Голум», зроблене реальними людьми

Поки що розвиток цифрових людських технологій крок за кроком наближається до межі схожості на «людину». Це не тільки вимагає, щоб зовнішній вигляд і візуальні ефекти на одязі були наближені до реальності, але також включає водіння (подання реального делікатні вирази та рухи) і візуалізація (зробити зображення більш деталізованим і в режимі реального часу).

Проте я все одно відчуваю, що чогось не вистачає.

У 1970 році Масахіро Морі, японський фахівець з робототехніки, висунув теорію «Таємної долини».Оскільки роботи схожі на людей зовнішнім виглядом і діями, люди будуть відчувати позитивні емоції до роботів.

Коли роботи та люди досягають певного рівня схожості, навіть найменша відмінність буде збільшена та принесе негатив і образу. І коли схожість між роботами та людьми буде зростати, люди повернуться до позитивних почуттів щодо них.

На відміну від фільмів, прикладні сценарії з сильнішими соціальними атрибутами мають вищі вимоги до взаємодії цифрових людей у реальному часі, і вони не задовольняються лише створенням гарної «вази».

**З точки зору взаємодії, моделі природної мови заповнюють прогалину. **

GPT, чия здатність генерувати текст вразила всіх, додав дві смужки до «IQ» цифрових людей.

Велика модель НЛП є технічним наріжним каменем віртуальних людей, керованих штучним інтелектом. Простіше кажучи, вона дозволяє віртуальним цифровим людям говорити красномовно, зменшити витрати на виробництво стандартизованого контенту та навчитися виконувати такі ролі, як інтелектуальне обслуговування клієнтів, модератор та Гід. У довгостроковій перспективі, з покращенням персоналізації та емоційного розуміння, також буде реалізовано забезпечення товариства та догляду за людьми похилого віку та стати «особистим вчителем» для дітей.

Крім того, штучний інтелект також може керувати рухами рота, щоб встановити зв’язок відображення з текстом. Зі збільшенням рівня реалізму мікровирази ставатимуть більш рясними. Під час розмови вирази та рухи рота можуть збігатися. «Людськоподібний за формою» і «людиноподібний за духом».

Інформаційне агентство Сіньхуа: перший у світі цифровий астронавт: Сяо Чжен

Midjourney — вибуховий продукт на основі дифузійної моделі, випущений у липні минулого року, навчає AI малювання через інструкції введення тексту.

Пара, ілюстрація Midjourney

** Деякі організації підрахували, що поточний річний дохід досяг 100 мільйонів доларів США. **

Є майстер станції B, який використав Midjourney, щоб відновити реалістичне зображення бабусі. Починаючи з зовнішнього вигляду, лінії старіння шкіри та сиве волосся повні деталей, а також минуле аудіо для відтворення голосу бабусі, і, нарешті, згенероване зображення бабусі через D-ID Digital подвійний.

Щоб загладити маленький жаль, що не попрощався з бабусею, онук почав діалог із цифровою «бабусею» перед собою, і «бабуся» сердечно відповіла, що й було власне матеріалом для відповідей, наданим ChatGPT.

Джерело: Станція Б

Саме через ці все нові й нові спроби з боку клієнта, у свою чергу, велика кількість навчальних матеріалів постійно додається до «персоніфікації» ШІ, що прискорює збагачення даних моделі ШІ та, нарешті, дозволяє ШІ влити душу в цифрових людей і принести більше можливостей.

03 Епілог

Дослідження віртуальних аватарів триває вже понад 30 років. Від ручного малювання до створених людиною, а потім до керованих штучним інтелектом, розвиток реалістичного та інтерактивного досвіду відкрив широкий спектр сценаріїв застосування, що просочуються в океан. .

AIGC допомагає повністю оцифрувати зовнішній вигляд, голос та інші характеристики звичайних людей, а нижній поріг виробництва відкриває простір для уяви ринку.

IDC прогнозує, що до 2026 року розмір китайського ринку цифрової людини зі штучним інтелектом сягне 10,24 мільярда юанів, але те, наскільки хороший досвід він може принести нам, визначає остаточну долю цифрової людини.

У той же час цифрова людина зі штучним інтелектом має потенціал порталу взаємодії людини з комп’ютером наступного покоління. У майбутньому ми можемо більше не зіткнутися з холодними екранами, а з жвавими цифровими людьми.

Можливо, як сказав хрещений батько штучного інтелекту, люди є лише перехідним етапом еволюції інтелекту для створення цифрового інтелекту.Тепер у нас нарешті є цифровий клон, який виглядає як людина, розмовляє як ми і може думати як ми в майбутньому. (повний текст)

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.