От Web2 к Web3: почему я настроен оптимистично в отношении ИИ

Автор: Zixi.eth, Matrix Partners China Investor Источник: X (ранее Twitter) @Zixi41620514

В последнее время я начал фокусироваться на треке Web2/Web3 AI, сообществе моделей с открытым исходным кодом в треке глобальных моделей, треке данных и различном промежуточном программном обеспечении, обслуживающем большую модель - например, полный сервис процессов для базовой модели в отраслевой модели и некоторые приложения. Мы приглашаем к общению с нами самых разных предпринимателей, мы верим, что ИИ будет долгосрочным треком.

В первом выпуске я расскажу о том, что индустрия маркировки данных в недавно намеченном нами треке данных также является для меня очень удовлетворительной целью в этом году.

Разработку ИИ можно разделить на подготовку данных с процессами сбора, очистки, аннотирования и улучшения данных в качестве основной части и разработку алгоритмов с построением, обучением, настройкой и развертыванием модели в качестве основного корпуса. Среди них, из-за диверсифицированных потребностей ИИ в новую эру в данных, таких как мультимодальность, высокая точность и сильная кастомизация, зависимость данных ИИ от человеческого труда в новую эпоху также очень высока, а также необходимо дальнейшее улучшение бесперебойного взаимодействия между ИИ и людьми для повышения эффективности. Маркировка данных относится к идентификации и дифференциации элементов признаков в выборках данных, необходимых для обучения модели. Поскольку развитие ИИ все еще находится на стадии контролируемого обучения, изучение и проверка информации о коннотации данных и логики между данными в процессе обучения моделей алгоритмов ИИ, представленных глубоким обучением, реализуются на основе идентификации признаков данных, а аннотация данных необходима, что является одной из основных задач подготовки данных и даже разработки проектов искусственного интеллекта. Как и остальная часть рабочего процесса подготовки данных, маркировка данных сильно зависит от трудозатрат. Длительные циклы работы и огромные трудозатраты стали одним из основных факторов, ограничивающих развитие индустрии ИИ. Болевые точки со стороны предложения услуг аннотирования данных сформировали рыночный спрос на инструменты автоматизации и способствовали разработке и широкомасштабному применению интеллектуальной технологии аннотирования данных.

Рисунок 1: От сбора данных к наборам данных, пригодным для использования ИИ

! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-aef9208402-dd1a6f-cd5cc0.webp «7135831»)

В настоящее время в области интеллектуального вождения, которая является следствием крупнейшего применения аннотирования данных, по-прежнему требуется большое количество людей для обозначения различных сценариев, таких как кошки и собаки, телефонные столбы, коляски и т. д. Например, Scale AI является важным поставщиком данных для OpenAI, и они создали свои собственные студии аннотирования данных в странах третьего мира по всему миру, чтобы помочь OpenAI в аннотировании текстовых и графических данных.

Однако с развитием ИИ доля предварительного аннотирования в рабочем процессе постепенно увеличивается. В первые дни аннотирование данных в основном выполнялось вручную для создания и накопления наборов данных машинного обучения. Несмотря на относительную неэффективность и дороговизну, данные, предоставляемые машине, имеют большое преимущество при наличии аннотаций. Со временем акцент ручного аннотирования постепенно сместился с Соединенных Штатов на страны третьего мира, такие как Венесуэла и Филиппины, чтобы снизить затраты.

По мере развития модели точность автоматического аннотирования данных повышается, и модель может быть использована для помощи в ручном аннотировании, например, при предварительной обработке данных моделью и последующей отправке их в аннотацию человеку, или результаты аннотаций, предоставленные автоматизированной моделью, просматриваются и исправляются вручную. По сравнению с чисто ручным аннотированием, аннотирование с помощью ИИ ускоряет аннотирование данных. В настоящее время одна из крупнейших в мире компаний по маркировке данных, такая как Scale AI, работает над сокращением доли участия человека в процессе маркировки данных.

Несмотря на то, что предварительное аннотирование достигло хороших результатов в области компьютерного зрения, в новую эру языков и больших моделей предварительное аннотирование все еще очень незрело и не может полностью заменить человеческий труд. Причины следующие:1. Низкая точность, особенно при работе со сложными задачами и крайними случаями. 2. Проблемы с предвзятостью выборки и модельными галлюцинациями. 3. Для некоторых вертикалей требуются большие наборы данных, аннотированные экспертами в предметной области. 4. Масштабируемость предварительной аннотации оставляет желать лучшего, особенно для небольших языков или редких сценариев, стоимость высокая, а качество низкое, и ее все равно нужно выполнять вручную.

Подводя итог, можно сказать, что предварительное аннотирование не сможет полностью заменить ручное аннотирование в краткосрочной перспективе, и они будут сосуществовать. Несмотря на то, что процент ручных аннотаций может уменьшиться, аудиторы по-прежнему обязаны проверять аннотации данных в процессе аннотирования.

Рисунок: Процесс маркировки данных при предварительной маркировке

! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-6c94f3b716-dd1a6f-cd5cc0.webp «7135843»)

Индустрия аннотирования данных не нова, она начала зарождаться в 17/18 году с развитием интеллектуального вождения. На графике ниже показан прогнозируемый объем рынка поставщиков маркировки данных в Китае, и стоит отметить, что объем рынка маркировки данных в Соединенных Штатах примерно в 3-5 раз больше, чем в Китае.

Индустрия маркировки данных представляет собой относительно фрагментированный рынок, не похожий на область с чрезвычайно высокими техническими барьерами, а скорее на область с техническими, человеческими и организационными управленческими барьерами, составляющими одну треть каждый. Основная конкурентоспособность в этой области в основном отражается в следующих аспектах:1. Цена 2. Качество 3. Охват опытом и знаниями (разнообразие?)4. скорость

Цена очевидна, ведь всем людям нужно много дешевых данных. Ценовое давление приводит к форме географического арбитража, в то время как в развитых Соединенных Штатах выплата зарплаты может стоить 1 доллар США, в то время как в менее развитом Китае это стоит всего 0,5 доллара, а на Филиппинах это может стоить всего 0,1 доллара. Поэтому одно из решений на рынке — отдавать заказы странам первого мира, а затем нанимать людей из стран третьего мира для решения проблемы через студии, управляемые напрямую.

Качество данных также легко понять, а высококачественные данные требуются в области больших моделей и интеллектуального вождения. Если качество данных, передаваемых в модель, низкое, производительность большой модели также пострадает. Одним из эффективных решений проблемы качества данных является генерация необработанных данных путем предварительной маркировки модели, а затем ручное аннотирование, а затем непрерывное обучение с подкреплением и обратная связь с человеком для повышения качества маркировки данных. Кроме того, команда должна четко понимать процесс маркировки данных для клиентов, находящихся на последующих этапах, и иметь возможность разрабатывать стандартные операционные процедуры (СОП), чтобы сотрудники, занимающиеся аннотированием данных, могли делать заметки в соответствии с СОП для повышения качества.

Но как понимать экспертизу и охват знаний? Возьмем три примера:

  1. Это довольно сложная задача в рамках общей модели. Аннотирование больших текстовых моделей может быть относительно простым, но вам нужно найти людей, которые могут аннотировать несколько языков, таких как китайский/английский/французский/немецкий/русский/арабский, и то, как компания, занимающаяся маркировкой данных, может нанять и управлять таким количеством распределенных людей в глобальном масштабе, будет непросто.

  2. Рассмотрим стартап AI-приложения в области голосовых ботов/цифровых людей. У стартапов часто нет времени, рабочей силы и денег, чтобы создать собственную команду по аннотированию данных. Им нужно было найти внешнюю команду, которая помогла бы обозначить китайские языковые семьи, такие как сычуаньский акцент, кантонский акцент, шанхайский акцент, северо-восточный акцент и т. д., а также англоязычные семьи, такие как североамериканский английский акцент, британский английский акцент и сингапурский английский акцент. Найти на рынке хорошую студию аннотирования данных, которая может справиться с этими задачами, может быть очень сложно. Если будут приняты прямые продажи или субподряд, то от получения заказов до подбора персонала может пройти один-два месяца рабочего времени, что серьезно скажется на эффективности поставок.

  3. Рассмотрим более нишевую область, где стартап, ориентированный на юридические модели, требует большого количества аннотаций юридических данных. К сфере юриспруденции по-прежнему предъявляются достаточно высокие профессиональные требования, и стартапам необходимо найти поставщика аннотаций данных, соответствующего следующим критериям:1. Не менее десятка человек, которые разбираются в законе, а также, возможно, должны освещать китайское право, законодательство Гонконга, американское право и т.д.; Должен понимать китайский и английский языки; 3. Стоимость не может быть слишком высокой. Если вы попросите юриста сделать маркировку, он может не захотеть выполнять эту работу из-за более высокой зарплаты юриста. Таким образом, текущим решением для такого рода сегментации может быть только набор школьных стажеров для работы над аннотацией данных. Для управленческого режима прямых продаж и субподряда все еще достаточно сложно завершить трек таких подразделений.

Таким образом, основных игроков рынка можно разделить на три категории:1. Выполняется собственными силами крупными компаниями (например, краудсорсинг Baidu);2. Стартапы с моделью прямого/субподряда (анализируется ниже); Малые и средние студии аннотирования данных.

График: Размер рынка данных на рынке искусственного интеллекта в Китае

! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-edbb9fdd9b-dd1a6f-cd5cc0.webp «7135849»)

Прежде чем мы углубимся в тему, давайте взглянем на текущие ведущие стартапы в этой области:

  1. Scale AI: Основной бизнес Scale AI в США охватывает четыре аспекта: аннотирование данных, управление и оценка (контроль качества аннотированных данных и повышение эффективности аннотирования), автоматизация (вспомогательное аннотирование для повышения эффективности) и синтез данных (когда модели становится все больше и больше, а реальных данных недостаточно, необходимо автоматически синтезировать модель подачи данных, а о треке синтетических данных мы поговорим позже). Scale AI изначально ориентировался на аннотацию автономного вождения, а два года назад 80-90% заказов компании поступали от автономного вождения (2D, 3D, LiDAR и т.д.), а в последние годы эта доля снизилась. Источник заказов компании является ответом на отраслевую тенденцию поставщиков, и в последние годы правительство, электронная коммерция, роботы, большие модели и другие области быстро развиваются в сочетании с острой способностью команды улавливать отраслевые тенденции, поэтому она может поддерживать высокую долю рынка в каждом сегменте. Кроме того, Scale AI запустила собственную услугу «Модель как услуга», которая помогает клиентам точно настраивать, размещать и развертывать модели.

Существует два типа моделей зарядки:

  • База потребления: например, Scale Image начинается с 2 центов за изображение и 6 центов за метку, Scale Video начинается с 13 центов за видеокадр и 3 центов за метку, Scale Text начинается с 5 центов за задание и 3 цента за этикетку, а Scale Document AI начинается с 2 центов за задание и 7 центов за этикетку.

  • Проект-база, которая основывается на объеме данных в договоре и т.д., на самом деле является проектным доходом, стоимость единицы которого колеблется от сотен тысяч долларов до десятков миллионов долларов.

С прогнозируемым доходом в 290 миллионов долларов в 2022 году и текущей оценкой в 7 миллиардов долларов США, Scale AI является крупнейшей в мире компанией по аннотированию данных. Инвесторы компании также очень роскошны.

  1. Гаитянский AAC: Гаитянский AAC Китая также играет важную роль в области аннотирования данных. Компания имеет богатый опыт в аннотировании данных, очистке данных, анализе данных и т.д. Тем не менее, информация о его детальной бизнес-модели, методах взимания платы и финансировании пока не ясна.

  2. Appen: Австралийская компания Appen — еще одна из ведущих мировых компаний по аннотированию данных. Подобно Scale AI, Appen предоставляет такие услуги, как аннотирование данных, сбор голосовых данных и перевод. Компания имеет большое количество аннотаторов по всему миру, чтобы предоставлять клиентам высококачественные услуги аннотирования данных. Детальная бизнес-модель и финансирование Appen также заслуживают дальнейшего углубленного изучения.

! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-2e082f1e24-dd1a6f-cd5cc0.webp «7135866»)

! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-d87ea871ea-dd1a6f-cd5cc0.webp «7135867»)

Эти три компании занимают значимые позиции в мировом пространстве аннотирования данных, представляя лидирующие позиции в этой области в США, Китае и Австралии соответственно. Прежде чем мы углубимся в бизнес-модели стартапов и рыночную конкуренцию, понимание этих ведущих компаний поможет обеспечить более полное понимание контекста отрасли в целом.

Haitian AAC является компанией, зарегистрированной на бирже акций класса А, но это не совсем компания, занимающаяся маркировкой данных. По сравнению с созданием собственной команды для аннотирования данных, Haitian по сути является поставщиком технических услуг, передавая заказы на аутсорсинг различным студиям. Ядро экспансии гаитянского AAC в Китае зависит от: 1. Он имеет глубокое накопление речевых аннотаций, охватывающих более 190 языков (на долю которых приходится 70-80% дохода) 2. Эффект масштаба 3. Хорошая способность к интернационализации. В Китае индустрия маркировки данных очень дикая и ранняя, очень разрозненная и беспорядочная, а также отсутствует отраслевые стандарты и нормы.

! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-5eb8a04957-dd1a6f-cd5cc0.webp «7135868»)

! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-557bc22bf7-dd1a6f-cd5cc0.webp «7135871»)

Мы можем сравнить бизнес-модель между (Appen) и Гаити, чтобы увидеть бизнес-модель прямых продаж/аутсорсинга и опыт валовой прибыли.
Рисунок: Бизнес-модели прямого аутсорсинга...

! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-90760efac6-dd1a6f-cd5cc0.webp «7135872»)

! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-bc79aa85ac-dd1a6f-cd5cc0.webp «7135873»)

С таким количеством предзнаменований читатели с хорошей памятью не задумывались о том, как наше название меняет аннотацию данных с помощью блокчейна. В полном тексте еще не говорилось о блокчейне, как его переделать?

Будущее ИИ должно быть открытым и суверенным, будь то данные, вычислительные мощности или модели, он должен обеспечивать всеобщий и открытый доступ к обществу на основе обеспечения высокого качества и эффективности. Все участники, содействующие развитию ИИ, должны иметь права собственности на свой вклад и результаты, а также на разумное распределение и вознаграждение в виде выгод.

Наша недавняя инвестиционная компания Quest Labs стремится пересмотреть отношения между ИИ и людьми в новую эпоху и использовать технологии ИИ и блокчейн для разрушения и решения существующих болевых точек в отрасли. В качестве необходимой лопаты в восходящей цепочке индустрии ИИ, сервис данных является первой проблемой, которую Quest хочет решить. Повышение эффективности производства данных с помощью ИИ и переосмысление экономической модели и сбора ценности общедоступных наборов данных в новую эру с помощью блокчейна, которые дополняют друг друга для непрерывного производства ценных данных и улучшения способностей и когнитивных способностей аннотаторов ИИ.

1.AI и человеческий коллаборативный интеллект:

  • Интеллектуальная инфраструктура, ориентированная на искусственный интеллект, позволяющая и стимулирующая человеческие команды беспрепятственно взаимодействовать с моделями второго пилота,提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据 • Децентрализованный рынок, работающий на базе Humans Ops Tool, который максимизирует эффективность децентрализованного управления персоналом и оптимизирует совместную работу и коммуникацию в глобальной сети распределенных команд
  1. Раскрытие данных, конфиденциальность и право собственности
  • Платформа глубоко стимулирует пользовательский трафик и присоединение за счет оплаченного денежного потока и токенов, а также постоянно стимулирует эффект маховика данных, фиксируя поведение и исторические данные как спроса, так и предложения, чтобы постоянно учиться друг у друга. Алгоритмы используются для рекомендации и формулирования структур спроса на данные для обеспечения будущей коммерческой ценности (интеллектуальный анализ сложных доменов), охватывающих большое количество сценариев вертикальной сегментации. Все участники знаков данных могут заранее начать предоставлять наборы данных для вызова и коммерциализации, а также получать денежные потоки и вознаграждения в виде токенов, что в конечном итоге станет ценной открытой сетью данных ИИ в новую эпоху.
  • Шифрование данных и защита конфиденциальности: ZK и FHE используются для лучшего шифрования пользовательских данных для обработки и хранения.
  • Технология блокчейн используется для отслеживания и проверки прав собственности участников на данные, включая различные выходы, такие как сбор и аннотирование, а также их соответствующие значения.
  1. Новая экономическая модель

• С помощью Meituan, глобальной платформы данных ИИ, которая автоматически сопоставляет ИИ, мы перейдем от централизованной плановой экономики к рыночной экономике.

  • Обеспечьте доверие к репутации + система расчетов по оптимизации цифровой валюты с помощью технологии блокчейн, бесконечно расширяйте поток людей на стороне предложения для точного сопоставления, чтобы нужные люди могли делать правильные вещи, чтобы быть эффективными и качественными. Благодаря дублированию услуг по маркировке данных и бедного населения, занятость + финансовая доступность достигаются скрыто.
  1. Токены выдаются пользователям для стимулирования непрерывного обучения и высококачественных услуг и результатов, и в то же время стимулируют пользователей предоставлять качественную и эффективную обратную связь для оптимизации модели платформы для повышения эффективности и производительности всего конвейера (взаимное непрерывное обучение человека и искусственного интеллекта).
  • Разумное распределение выгоды и захват ценности в соответствии с POPW через токены, лучшее снижение CAC, а затем увеличение удержания

С точки зрения мира web2, это платформа распространения для аннотирования данных, немного похожая на Didi и Meituan Takeaway. Но с точки зрения web3 это Axie Infinity+YGG с реальным денежным потоком. На бычьем рынке 2021 года комбинация Axie и YGG привела в Web3 значительное количество пользователей из третьего мира, и этот тип игровой гильдии накормил очень большое количество семей из третьего мира во время эпидемии, особенно на Филиппинах. Рынок также дал Axie и YGG очень хорошую доходность, и они являются очень интересными альфами. Как инвестор в объединение Web2 и Web3, мы очень готовы поддерживать проекты и команды, которые используют технологию блокчейн, чтобы внести свой вклад в реальный бизнес, и мы с нетерпением ждем результатов команды в будущем. Это также направление, в котором мы видим, что немногие технологии Web3 могут окрылить бизнес Web2.

ETH3.59%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить