Від Web2 до Web3: чому я оптимістично ставлюся до AI

Автор: Zixi.eth, Matrix Partners Китай Інвестор Джерело: X (раніше Twitter) @Zixi41620514

Останнім часом я почав зосереджуватися на треку штучного інтелекту Web2/Web3, спільноті моделей з відкритим вихідним кодом у треку глобальної моделі, доріжці даних та різному проміжному програмному забезпеченні, яке обслуговує велику модель – наприклад, повному процесі для моделі Foundation у галузевій моделі та деяких додатках. Ми запрошуємо до спілкування з нами будь-яких підприємців, ми віримо, що штучний інтелект буде довгостроковим треком.

У першому випуску я розповім, що індустрія маркування даних у доріжці даних, яку ми нещодавно виклали, також є дуже задовільною метою для мене цього року.

Розробку штучного інтелекту можна розділити на підготовку даних з процесами збору, очищення, анотування та вдосконалення даних як основну частину, а також розробку алгоритмів з побудовою, навчанням, налаштуванням та розгортанням моделей як основну частину. Серед них, через різноманітні потреби ШІ в нову еру в даних, такі як мультимодальність, висока точність і сильна кастомізація, залежність даних ШІ від людської праці в нову епоху також дуже висока, і також необхідно ще більше покращити безперебійну взаємодію між ШІ та людьми для підвищення ефективності. Маркування даних означає ідентифікацію та диференціацію елементів ознак у вибірках даних, необхідних для навчання моделі. Оскільки розробка ШІ все ще перебуває на стадії контрольованого навчання, вивчення та верифікація інформації конотації даних та логіка між даними в процесі навчання моделей алгоритмів ШІ, представлених глибоким навчанням, реалізуються на основі ідентифікації ознак даних, а анотація даних необхідна, що є одним із основних завдань підготовки даних і навіть розробки проектів штучного інтелекту. Подібно до решти робочого процесу підготовки даних, маркування даних сильно залежить від праці. Тривалі робочі цикли та величезні витрати на оплату праці стали одними з основних факторів, що стримують розвиток індустрії штучного інтелекту. Больові точки на стороні пропозиції послуг анотації даних спричинили ринковий попит на інструменти автоматизації та сприяли розвитку та широкомасштабному застосуванню технології інтелектуальних анотацій даних.

Рисунок 1: Від збору даних до наборів даних, які можна використовувати штучним інтелектом

! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-aef9208402-dd1a6f-cd5cc0.webp «7135831»)

В даний час, в області інтелектуального водіння, що є найбільшою сферою застосування анотацій даних, все ще потрібна велика кількість людей для маркування різних сценаріїв, таких як кішки і собаки, телефонні стовпи, коляски і т.д. Наприклад, Scale AI є важливим постачальником даних для OpenAI, і вони створили власні студії анотацій даних у країнах третього світу по всьому світу, щоб допомогти OpenAI в анотації текстових/графічних даних.

Однак з розвитком ШІ частка попередніх анотацій у робочому процесі поступово зростає. У перші дні анотування даних в основному робилося вручну для створення та накопичення наборів даних машинного навчання. Незважаючи на те, що дані відносно неефективні та дорогі, вони мають велику перевагу, якщо є анотації. З часом фокус ручної анотації поступово змістився зі Сполучених Штатів до країн третього світу, таких як Венесуела та Філіппіни, щоб зменшити витрати.

У міру розвитку моделі точність автоматизованої анотації даних покращується, і модель може бути використана для допомоги в ручній анотації, наприклад, попередня обробка даних моделі, а потім надсилання їх людині, або результати анотацій, надані автоматизованою моделлю, переглядаються та виправляються вручну. У порівнянні з суто ручною анотацією, анотація за допомогою штучного інтелекту прискорює швидкість анотацій даних. В даний час одна з найбільших у світі компаній з маркування даних, така як Scale AI, працює над зменшенням частки участі людини в процесі маркування даних.

Незважаючи на те, що попереднє анотування досягло хороших результатів в області комп'ютерного зору, в нову еру мов і великих моделей попереднє анотування ще дуже незріле і не може повністю замінити людську працю. Причини наступні:1. Низька точність, особливо при роботі зі складними завданнями і крайніми випадками. 2. Проблеми упередженості вибірки та модельних галюцинацій. 3. Деякі вертикалі вимагають великих наборів даних, анотованих профільними експертами. 4. Масштабованість попередньої анотації погана, особливо для малих мов або незвичайних сценаріїв, вартість висока, а якість низька, і її все одно потрібно заповнювати вручну.

Таким чином, попередня анотація не повністю замінить ручну анотацію в короткостроковій перспективі, і вони будуть співіснувати. Незважаючи на те, що відсоток ручних анотацій може зменшуватися, аудитори все одно зобов'язані переглядати анотації даних під час процесу анотації.

Малюнок: Процес маркування даних під попереднім маркуванням

! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-6c94f3b716-dd1a6f-cd5cc0.webp «7135843»)

Індустрія анотацій даних не нова, вона почала з'являтися в 17/18 році з появою інтелектуального водіння. На наведеній нижче діаграмі показаний прогнозований розмір ринку постачальників маркування даних у Китаї, і варто зазначити, що розмір ринку маркування даних у Сполучених Штатах приблизно в 3-5 разів більший, ніж у Китаї.

Індустрія маркування даних є відносно фрагментованим ринком, не схожим на сферу з надзвичайно високими технічними бар'єрами, а більше на сферу з технічними, людськими та організаційними бар'єрами управління, на які припадає одна третина кожна. Основна конкурентоспроможність у цій галузі в основному відображається в таких аспектах:1. Ціна 2. Якість 3. Охоплення експертизи та знань (різноманітність?)4. швидкість

Ціна очевидна, адже всім людям потрібно багато дешевих даних. Ціновий тиск спричиняє певну форму географічного арбітражу, тоді як у розвинених Сполучених Штатах виплата зарплати за заповнення мітки даних може коштувати 1 долар, тоді як у менш розвиненому Китаї це коштує лише 0,5 долара, а на Філіппінах це може коштувати лише 0,1 долара. Тому одне з рішень на ринку – віддавати замовлення країнам першого світу, а потім набирати людей у країнах третього світу для вирішення проблеми через безпосередньо керовані студії.

Якість даних також проста для розуміння, а високоякісні дані потрібні у сфері великих моделей та інтелектуального водіння. Якщо якість даних, що подаються в модель, низька, продуктивність великої моделі також постраждає. Одним із ефективних рішень для вирішення проблеми якості даних є генерація необроблених даних за допомогою попереднього маркування моделі, а потім вручну анотування, а потім постійне виконання навчання з підкріпленням та зворотного зв'язку з людьми для покращення якості маркування даних. Або команда повинна бути дуже чіткою щодо процесу маркування даних для нижчестоящих клієнтів і вміти розробляти стандартні операційні процедури (СОП), щоб персонал, який анотує дані, міг анотувати відповідно до СОП для підвищення якості.

Але як ви розумієте експертизу та охоплення знаннями? Розглянемо три приклади:

  1. Це досить складне завдання за загальною моделлю. Анотування великих текстових моделей може бути відносно простим, але вам потрібно знайти людей, які можуть анотувати кілька мов, таких як китайська/англійська/французька/німецька/російська/арабська, і те, як компанія, що маркує дані, може найняти та керувати такою кількістю розподілених людей у глобальному масштабі, буде складним завданням.

  2. Розгляньте стартап додатків штучного інтелекту у сфері голосових ботів/цифрових людей. Стартапи часто не мають часу, робочої сили та грошей, щоб створити власну команду з анотації даних. Їм потрібно було знайти аутсорсингову команду, яка б допомогла позначити китайські мовні сім'ї, такі як сичуаньський акцент, кантонський акцент, шанхайський акцент, північно-східний акцент тощо, а також англійські мовні сім'ї, такі як північноамериканський англійський акцент, британський англійський акцент та сінгапурський англійський акцент. Знайти хорошу студію анотацій даних на ринку, яка впорається з цими завданнями, може бути дуже складно. Якщо прийняті прямі продажі або субпідряд, від отримання замовлень до підбору персоналу може пройти один-два місяці робочого часу, що серйозно вплине на ефективність поставок.

  3. Розглянемо більш нішеву сферу, де стартап, який фокусується на юридичних моделях, вимагає великої кількості анотацій юридичних даних. До галузі права все ще висуваються досить високі професійні вимоги, і стартапам необхідно знайти провайдера анотацій даних, який відповідає наступним критеріям:1. Як мінімум десяток людей, які розбираються в законі, а також, можливо, повинні будуть охопити китайське законодавство, законодавство Гонконгу, американське законодавство і т.д .; Повинен розуміти китайську та англійську мови; 3. Вартість не може бути занадто високою. Якщо ви попросите юриста наклеїти ярлик, він може неохоче виконувати цю роботу через вищу зарплату юриста. Тому поточним рішенням для такого роду сегментації може бути лише внутрішній набір шкільних стажерів для роботи над анотацією даних. Для режиму управління прямими продажами і субпідряду ще досить складно завершити трек таких підрозділів.

Таким чином, основних гравців ринку можна розділити на три категорії:1. Виконується власними силами великих компаній (наприклад, краудсорсинг Baidu);2. Стартапи з прямою/субпідрядною моделлю (проаналізовано нижче); Студії анотації даних малого та середнього розміру.

Діаграма: Розмір ринку даних на ринку штучного інтелекту в Китаї

! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-edbb9fdd9b-dd1a6f-cd5cc0.webp «7135849»)

Перш ніж ми зануримося в цю тему, давайте подивимося на поточні провідні стартапи в цій сфері:

  1. Scale AI: Основний бізнес Scale AI в Сполучених Штатах охоплює чотири аспекти: анотація даних, управління та оцінка (контроль якості анотованих даних та підвищення ефективності анотації), автоматизація (допоміжна анотація для підвищення ефективності) та синтез даних (коли моделі стає все більше, а реальних даних недостатньо, необхідно автоматично синтезувати модель подачі даних, а про доріжку синтетичних даних ми поговоримо пізніше). Scale AI спочатку фокусувався на анотації автономного водіння, а два роки тому 80-90% замовлень компанії припадало на автономне водіння (2D, 3D, LiDAR тощо), і ця частка останніми роками зменшилася. Джерело замовлень компанії є відповіддю на галузеві тенденції постачальників, і в останні роки уряд, електронна комерція, роботи, великі моделі та інші сфери швидко розвивалися в поєднанні з гострою здатністю команди вловлювати галузеві тенденції, щоб вона могла підтримувати високу частку ринку в кожному сегменті. Крім того, Scale AI запустила власну послугу «Модель як послуга», яка допомагає клієнтам допрацьовувати, розміщувати та розгортати моделі.

Існує два типи моделей зарядки:

  • На основі споживання: наприклад, масштабоване зображення починається з 2 центів за зображення та 6 центів за етикетку, масштабоване відео починається з 13 центів за відеокадр і 3 центи за етикетку, масштабований текст починається з 5 центів за завдання та 3 центи за етикетку, а масштабний документ AI починається з 2 центів за завдання та 7 центів за етикетку.

  • Проект-база, яка базується на обсязі даних в контракті і т.д., фактично є проектним доходом, вартість одиниці якого коливається від сотень тисяч доларів до десятків мільйонів доларів.

З прогнозованим доходом у 290 мільйонів доларів у 2022 році та поточною оцінкою в 7 мільярдів доларів, Scale AI є найбільшою у світі компанією з анотації даних. Інвестори компанії також дуже розкішні.

  1. Гаїтянський AAC: Гаїтянський AAC Китаю також відіграє важливу роль у сфері анотації даних. Компанія має багатий досвід в анотації даних, очищенні даних, аналізі даних тощо. Однак інформація про його детальну бізнес-модель, методи стягнення плати та фінансування поки що не зрозуміла.

  2. Appen: Австралійська Appen є ще однією з провідних світових компаній з анотації даних. Подібно до Scale AI, Appen надає такі послуги, як анотація даних, збір голосових даних і переклад. Компанія має велику кількість анотаторів по всьому світу, щоб надавати клієнтам високоякісні послуги з анотації даних. Детальна бізнес-модель та фінансування Appen також заслуговують на подальше поглиблене вивчення.

! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-2e082f1e24-dd1a6f-cd5cc0.webp «7135866»)

! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-d87ea871ea-dd1a6f-cd5cc0.webp «7135867»)

Ці три компанії займають значні позиції у світовому просторі анотацій даних, займаючи лідируючі позиції в цій галузі в США, Китаї та Австралії відповідно. Перш ніж ми зануримося в бізнес-моделі стартапів і ринкову конкуренцію, розуміння цих провідних компаній допоможе забезпечити більш повне розуміння контексту галузі в цілому.

Haitian AAC є компанією, акції якої котируються на біржі А, але це не зовсім компанія, що займається маркуванням даних. У порівнянні зі створенням власної команди для створення анотацій даних, Haitian по суті є постачальником технічних послуг, передаючи замовлення на аутсорсинг різним студіям. Ядро експансії гаїтянського AAC в Китаї залежить від: 1. Має глибоке накопичення мовних анотацій, охоплюючи понад 190 мов (на них припадає 70-80% доходу) 2. Ефект масштабу 3. Хороша здатність до інтернаціоналізації. У Китаї індустрія маркування даних дуже дика і рання, дуже розпорошена і безладна, а також не вистачає галузевих стандартів і норм.

! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-5eb8a04957-dd1a6f-cd5cc0.webp «7135868»)

! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-557bc22bf7-dd1a6f-cd5cc0.webp «7135871»)

Ми можемо поглянути на порівняння бізнес-моделей між (Appen) та гаїтянською, щоб побачити бізнес-модель прямих продажів/аутсорсингу та досвід валового прибутку.
Малюнок: Прямі/аутсорсингові бізнес-моделі...

! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-90760efac6-dd1a6f-cd5cc0.webp «7135872»)

! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-bc79aa85ac-dd1a6f-cd5cc0.webp «7135873»)

З такою кількістю передчуттів читачі з хорошою пам'яттю не замислювалися про те, як наш заголовок змінює анотацію даних за допомогою блокчейну. У повному тексті ще не йшлося про блокчейн, як його змінити?

Майбутнє ШІ має бути відкритим і суверенним, будь то дані, обчислювальні потужності або моделі, він повинен забезпечувати загальний і відкритий доступ до суспільства на основі забезпечення високої якості та ефективності. Усі учасники, які допомагають просувати штучний інтелект, повинні мати права власності на власні внески та результати, а також розумний розподіл та винагороду за вигоди.

Наша нещодавня інвестиційна компанія Quest Labs має на меті переосмислити відносини між штучним інтелектом і людьми в нову епоху та використовувати штучний інтелект і технологію блокчейн, щоб змінити та вирішити існуючі больові точки в галузі. Як необхідна лопата у верхньому ланцюжку індустрії штучного інтелекту, сервіс даних є першою проблемою, яку Quest хоче вирішити. Сприяти ефективності виробництва даних за допомогою штучного інтелекту та переосмислити економічну модель і збір цінності публічних наборів даних у нову еру за допомогою блокчейну, які доповнюють один одного, щоб постійно виробляти високоцінні дані та покращувати здатність і пізнання анотаторів штучного інтелекту.

1.AI та людський спільний інтелект:

  • Інтелектуальна інфраструктура, орієнтована на штучний інтелект, яка дозволяє та стимулює людські команди плавно взаємодіяти з моделями другого пілота,提供高精度数据,并迭代提高质量,以在життєвий цикл中生成高价值数据
  • Децентралізований ринок, що працює на базі Humans Ops Tool, який максимізує ефективність децентралізованого управління робочою силою та оптимізує співпрацю та комунікацію в глобальній мережі розподілених команд
  1. Розкриття даних, конфіденційність і право власності
  • Платформа глибоко стимулює трафік і адгезію користувачів за допомогою платного грошового потоку та токенів, а також постійно стимулює ефект маховика даних, фіксуючи поведінку та історичні дані як попиту, так і пропозиції, щоб постійно вчитися один у одного. Алгоритми використовуються для рекомендацій і формулювання фреймворків попиту на дані для забезпечення майбутньої комерційної цінності (жорсткий майнінг доменів), що охоплюють велику кількість сценаріїв вертикальної сегментації. Усі учасники міток даних можуть почати надавати набори даних заздалегідь, щоб бути викликаними та комерціалізованими, а також отримувати грошові потоки та винагороди у вигляді токенів, що в кінцевому підсумку стане цінною відкритою мережею даних штучного інтелекту в нову епоху.
  • Шифрування даних та захист конфіденційності: ZK та FHE використовуються для кращого шифрування даних користувача для обробки та зберігання.
  • Технологія блокчейн використовується для відстеження та перевірки права власності учасників на дані, включаючи різні виходи, такі як збір та анотація, та їх відповідні значення.
  1. Нова економічна модель
  • За допомогою Meituan, глобальної платформи для обслуговування даних зі штучним інтелектом, яка автоматично поєднує штучний інтелект, ми перейдемо від централізованої планової економіки до ринкової.
  • Забезпечте довіру до репутації + система розрахунків за оптимізацію цифрової валюти за допомогою технології блокчейн, нескінченно розширюйте потік людей на стороні пропозиції, щоб зробити точне зіставлення, щоб правильні люди могли робити правильні речі, щоб бути ефективними та якісними. Завдяки дублюванню сервісів маркування даних та бідного населення, замасковане працевлаштування + фінансова інклюзія досягається.
  1. Токени надаються користувачам, щоб стимулювати безперервне навчання та високоякісні послуги та результати, і в той же час стимулювати користувачів надавати якісний та ефективний зворотний зв'язок для оптимізації моделі платформи для підвищення ефективності та продуктивності всього конвеєра (взаємне безперервне навчання людини та штучного інтелекту).
  • Розумний розподіл вигоди та захоплення вартості відповідно до POPW за допомогою токенів, краще зменшуйте CAC, а потім збільшуйте утримання

З точки зору світу web2, це дистриб'юторська платформа для анотацій даних, трохи схожа на Didi та Meituan Takeaway. Але з точки зору web3 це Axie Infinity+YGG з реальним грошовим потоком. На бичачому ринку 2021 року об'єднання Axie та YGG привело до Web3 значну кількість користувачів з третього світу, і цей тип ігрової гільдії нагодував дуже велику кількість сімей третього світу під час епідемії, особливо Філіппіни. Ринок також дав Axie та YGG дуже хорошу прибутковість, і це дуже цікаві Альфи. Як інвестор у поєднання Web2 та Web3, ми дуже готові підтримувати проєкти та команди, які використовують технологію блокчейн для внеску в реальний бізнес, і ми з нетерпінням чекаємо на результати команди в майбутньому. Це також напрямок, у якому ми бачимо, що небагато технологій Web3 можуть окрилити Web2-бізнес.

ETH1.16%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити