«Кража» данных, темная сторона больших моделей ИИ

Первоисточник:

Источник изображения: сгенерировано Unbounded AI

Начинающая компания под названием «Один удар, два удара» публично осудила бывшего лидера образования и обучения «Сюэрси», заявив, что он «украла» данные, над сохранением которых так усердно работала, «подняв библиотеку».

Происхождение этой истории заключается в том, что в середине апреля этого года «Pen Shen Composition» (продукт компании Strike Two Strike) обнаружил большое количество регулярных аномальных обращений к интерфейсу сервера, что привело к быстрому увеличению в нагрузке на сервер.

Количество посещений намного превышает среднесуточный показатель. Bishen Composition сообщила Deep AI, что обычные ежедневные посещения составляют около нескольких сотен или нескольких тысяч, но за эти несколько дней число посещений увеличилось до более чем 500 000 в день. В течение недели их данные были просканированы 2,58 миллиона раз.

База данных вызовов, опубликованная Penshen Composition

Изучив журналы сервера, Pen God Composition обнаружила, что один IP-адрес сканировал их базу данных с высокой плотностью с помощью технологии «краулера». Поисковые слова для каждого посещения этого IP-адреса связаны с композицией, и система возвращает 30 композиций на страницу.Каждое посещение использует поисковые слова, чтобы возвращаться с первой страницы страница за страницей, в основном собирая одну и ту же тему в библиотеке. , Все композиции были отсняты.

По словам инсайдеров отрасли, в обычных условиях обычные пользователи этого делать не будут. ** Этот вид доступа к базе данных в стиле поиска также известен как «очистка библиотеки». **

Penshen Composition считает, что закулисным манипулятором «Паку» является его партнер Сюэрси.

Вскоре после инцидента с «Парковочной библиотекой» Penshen Composition обнаружила, что Xueersi разрабатывает большую математическую модель MathGPT, и заявила, что в ближайшем будущем запустит «ассистента ИИ», одним из которых является композиция.

Нет определенного вывода о том, есть ли какая-либо связь между двумя случаями «подбора» Penshen Composition и разработкой Hexueersi «Composition AI Assistant».

Но Bishen Composition считает, что ее права нарушены. Оно направило другой стороне письмо адвоката и предало гласности этот вопрос, пытаясь получить разъяснения. Xueersi дал публичный ответ, заявив, что использование материального содержания Penshen соответствует требованиям контракта, и что его самостоятельно разработанная модель MathGPT и «композиционный ИИ-помощник» не использовали никаких данных из состава Penshen.

В данном случае речь идет не только о композиционном материале. Что означают данные для больших моделей?

**Напарник превратился в варвара у ворот? **

Обе стороны настаивают на своем мнении

Давайте сначала кратко представим состав бога пера.

Эта компания была основана в 2017 году. Продукт «Pen God» представляет собой программное обеспечение для письма с искусственным интеллектом, которое можно рассматривать как продукт AI + образование. Вначале «Бог пера» был ориентирован на платформы для создания контента и производителей соответствующих инструментов, а позже он углубился в вертикальное поле, используя ИИ для обучения студентов написанию эссе, так появилась «Композиция Бога пера».

Вы можете просто понять: это в сфере образования, оно нацелено на студенческую группу, оно использует технологию искусственного интеллекта и решает сцену написания эссе.

Написание ИИ имеет много общего с популярным сегодня ChatGPT. Все они включают такие технологии, как обработка естественного языка, семантический анализ и прогнозирование, а также машинное обучение. Сун Цзявэй, основатель Penshen Composition, работал старшим системным архитектором в Sony и техническим директором Singulato.

Еще пять лет назад Сун Цзявэй сказал, что рассматривает возможность применения технологий предварительно обученных языковых моделей, таких как bert или GPT-2, к приложениям. В то время GPT не был чем-то из ряда вон выходящим, и он не был так известен, как сегодня.

Начав заниматься композицией ИИ, Penshen Composition официально вышла на образовательный путь, вступив в ту же реку, что и Сюэрси, лидер образования и обучения.

Согласно представлению Penshen, в декабре 2020 года Penshen Composition и Xueersi договорились о сотрудничестве. ** Penshen Composition предоставляет Xueersi «Интерфейс сервисных материалов Benshen Composition Model Essay Material Service», который используется в связанных с Xueersi услугах, а плата рассчитывается в зависимости от количества вызовов. По этой причине Penshen Composition открыла сервисный интерфейс для Xueersi. **

Другими словами, Xueersi может использовать композиционные материалы из базы данных Penshen Composition и платить за них.

Композиционные материалы являются основным активом в этой сделке и краеугольным камнем бизнес-модели Penshen Composition. На самом деле композиция Pen God началась с точки зрения материала. В то время в нем была функция «поиск материалов одним щелчком мыши». Пользователи могут искать по ключевым словам, а система может автоматически подбирать материалы. Ресурсы варьируются от классиков древней поэзии, официальных документов до современных веб-статей. В процессе написания система также может подталкивать материал в режиме реального времени.

Эти материалы не из Интернета, а из собственной базы данных Penshen. Благодаря интеллектуальной идентификации, переводу и сопоставлению технологий искусственного интеллекта Penshen может возвращать подходящие материалы в соответствии с поисковым поведением пользователей.

Когда количество этих композиционных материалов достаточно велико, качество достаточно высокое, а соответствие достаточно точное, они будут иметь определенную коммерческую ценность и даже могут быть проданы за границу. Это причина сотрудничества с Xueersi.

Проблема в том, что эти материалы рискуют быть «украдены», особенно при открытии некоторых интерфейсов.

Согласно внедрению Deep AI в состав Penshen, они ограничили сферу сотрудничества с Xueersi: «Мы открываем интерфейс, чтобы они могли вызывать наши данные и отображать их в своем собственном приложении, но контракт не включает данные для хранения. Или разрешения для алгоритмов ИИ. Данные должны быть доступны только их пользователям, а не храниться на их машинах».

Это эквивалентно следующему: **Когда пользователь инициирует поиск на стороне продукта Xueersi, вызываемый шаблон композиции поступает из Penshen Composition, и Xueersi не может сохранить его сам по себе. **

Необычный звонок в середине апреля заставил Pen God Composition подумать, что это выходит за рамки нормального делового сотрудничества. «Их действия активировали наши защитные механизмы, что и привело нас к этому открытию».

Бишен Зуовэн заявил, что они проверили журналы доступа в фоновом режиме и обнаружили, что незаконный доступ был инициирован одним IP-адресом с помощью технологии «обходчика». «У нас уже есть этот IP-адрес».

IP-адрес, опубликованный Penshen Composition (Part)

Лю Ран, генеральный директор отечественной компании-стартапа по искусственному интеллекту, проанализировал Deep AI. Этот метод исчерпывающего перечисления ключевых слов должен использоваться для получения данных в библиотеке. Это очень очевидное поведение.

Penshen Composition сообщила Deep AI, что после инцидента они сверились с операционным персоналом Xueersi, а другая сторона прямо признала, что команда алгоритмов Xueersi сканирует данные и использует их для собственного использования. Однако это заявление Deep AI еще не было подтверждено Xueersi.

Бывший партнер внезапно превратился в варвара у дверей, что очень разозлило Бишен Композишн и много раз отправляло адвокату письма.

Xueersi заявил в своем публичном ответе от 13 июня, что его обращение к интерфейсу композиции Penshen не выходит за рамки контракта между двумя сторонами, а использование содержания материалов Penshen соответствует требованиям контракта и ни для чего не используется. кроме контракта для любых целей. Xueersi особо подчеркнул, что его большая модель MathGPT собственной разработки и «композиционный ИИ-помощник» не использовали никаких данных из Penshen Composition.

Обе стороны настаивают на своем мнении, и вывода пока нет. Согласно статье Pen God, этот случай может стать «первым случаем кражи данных крупномасштабной модели ИИ».

Стоит изучить вопрос: что означают данные для больших моделей?

Откуда берутся данные — большая проблема

Вычислительная мощность, алгоритмы и данные — три основных элемента искусственного интеллекта для машинного обучения.

Чтобы улучшить вычислительную мощность, многие технологические компании тратят много денег, чтобы заполучить GPU Nvidia. Что касается алгоритма, некоторые крупные компании в стране и за рубежом сделали алгоритм открытым исходным кодом, что значительно снижает порог для разработки модели.

Что касается данных, барьеры существовали всегда. Ключевой вопрос — где найти качественные данные.

Большие генеративные модели ИИ должны использовать большое количество разнообразных данных для обучения, чтобы улучшить возможности модели по обобщению и генерации. Разные модели могут использовать разные источники данных. Общие большие модели, такие как ChatGPT, используют много общедоступных данных, таких как различные новостные сайты, книги, научные статьи, веб-страницы и т. д. Для больших моделей в некоторых вертикальных полях необходимо найти целевые корпуса и наборы данных.

Человек, отвечающий за крупномасштабную модель ведущей отечественной технологической компании, рассказал Deep AI, что ChatGPT на самом деле использует много закрытых данных, а многие общедоступные данные в Интернете очень низкого качества, и существует порог качественных данных. Сбор и очистка данных сталкиваются с большими проблемами. **

Технический директор TAL Тянь Ми публично заявил 4 мая: «Многие области имеют барьеры данных и отраслевые ноу-хау, и большие модели по-прежнему нуждаются в глубокой интеграции со знаниями предметной области, а также достаточно данных предметной области для обучения экспертов в предметной области. Модель. "

Как сказал Тянь Ми, модель большой предметной области должна быть глубоко интегрирована со знаниями предметной области. В области композиции ИИ композиционные материалы являются важными данными для обучающих машин.

Еще в 2019 году компания Penshen начала целенаправленно собирать данные и обучать собственный корпус сочинений, охватывающий известные цитаты, стихи, официальные документы, интернет-языки и т. д. Они используют метод обучающих машин для имитации ручных меток для маркировки каждого корпуса.

В вертикальном корпусе только тогда, когда данные помечены, можно выполнить точную отправку контента на основе сопоставления векторов, семантического анализа и прогнозирования текущего создания контента пользователем.

Лю Ран сказал Deep AI, что для построения модели требуется много проверенных данных, и если данные были отсортированы, это может сэкономить много человеческого труда. Композиции, организованные Penshen Composition, могут использоваться в качестве отмеченных данных.

Этот процесс является непрерывным и длительным. Bishen Composition сообщила, что за шесть лет, прошедших с момента их создания, они накопили в общей сложности более 5 миллионов композиционных материалов, а ежемесячный объем корректировок превышает 30 000. Эти композиционные материалы вручную просматриваются, проверяются и отправляются, маркируются, классифицируются, корректируются данные и, наконец, накапливаются.

Эти данные можно не только представить в виде материалов на странице приложения, но и использовать для обучения алгоритмов в фоновом режиме. Поэтому при сотрудничестве с другими компаниями по открытым интерфейсам Penshen Composition добавила в договор специальный пункт — нет «кэширования, хранения, расчета и обучения как корпуса».

Bishen Composition считает, что Xueersi «украла» данные, и предполагает, что Xueersi использует данные для обучения и разработки большой математической модели MathGPT и обучающей машины Xueersi «Composition AI Assistant». Но это кажется трудно доказать.

Лю Ран считает, что, как правило, данные композиции должны иметь некоторые ограничения, установленные заранее, такие как отказ от высокой параллелизма, шифрование данных, и должна быть возможность отслеживать местонахождение и использование данных. Однако он также считает, что данные о составе не так важны, как данные о ключевом поведении пользователя.

"Вы можете позволить ИИ изучить, что такое хорошая композиция, а затем позволить ему генерировать в соответствии с этими стандартами. Но я не думаю, что на самом деле требуется много данных. Десятков тысяч высококачественных композиций должно быть достаточно", - сказал он. .

** «Первый случай кражи данных большой модели ИИ» **

** Ты можешь встать? **

Penshen Composition заняла жесткую позицию и выпустила два объявления подряд, требуя извинений от Сюэрси и в то же время требуя компенсации в размере 1 юаня. Он даже хочет назвать этот инцидент «первым случаем кражи данных большой модели ИИ».

Юрист Лю Хунлинь, директор Шанхайской юридической фирмы Mankiw, сообщил Deep AI, что самостоятельно созданный корпус или библиотека материалов самой композиции Bishen Composition обладает правами интеллектуальной собственности. Однако то, является ли это произведением согласно Закону об авторском праве, зависит от того, соответствует ли оригинальность соответствующим критериям.

«Если у Penshen Composition будет достаточно доказательств, подтверждающих, что Xueersi злонамеренно завладела их данными, тогда она может возбудить иск о нарушении прав интеллектуальной собственности или недобросовестной конкуренции», — сказал он.

Кроме того, у Bishen Composition есть соглашение о сотрудничестве с Xueersi.Если согласовано уважение и авторизация прав интеллектуальной собственности, они также могут защищать свои права и интересы путем нарушения контракта.

Стоит отметить, что многие композиции в библиотеке материалов Penshen Composition Material Library представлены пользователями. Pen God Composition утверждает, что ежемесячно получает 300 000 эссе. Поэтому, прежде чем определить, является ли это нарушением, необходимо уточнить права интеллектуальной собственности на эти материалы.

Согласно анализу Лю Хунлиня, это зависит от того, насколько автор (соавтор) эссе и авторская композиция согласны с правами интеллектуальной собственности. Если пользователь разрешает права интеллектуальной собственности Penshen Composition во время отправки, то Penshen Composition будет пользоваться соответствующими правами и интересами.

Deep AI поинтересовался пользовательским соглашением об обслуживании Pen God Composition и обнаружил, что там есть такой пункт: контент, опубликованный пользователем в Pen God Composition (включая, помимо прочего, комментарии, комментарии, заметки), предоставляет Pen God Composition бесплатная и безотзывная неисключительная лицензия.

Другими словами, Penshen Composition владеет правами интеллектуальной собственности на библиотеку материалов.

Чего Лю Ран не мог понять, так это почему Bishen Composition сотрудничала с Xueersi. «Если бы это был я, я бы определенно не стал сотрудничать с Xueersi, потому что у нас сильные конкурентные отношения», — считает он, — «В эпоху больших моделей нет возможности просто предоставить базу данных композиций. "

Согласно анализу, проведенному инсайдерами отрасли, у Xueersi есть трафик, сцены и популярность, особенно с точки зрения ориентированных на пользователя интерфейсных продуктов, у Xueersi больше преимуществ, чем у Pen God Composition. Однако работа по сбору данных и созданию библиотеки материалов на бэкэнде требует много времени и сил, и трудно увидеть результаты в краткосрочной перспективе. Для Xueersi удобнее всего напрямую обращаться к готовой библиотеке материалов. Penshen Composition добилась коммерческой монетизации, продав доступ к библиотеке материалов.

Но для такой начинающей компании, как Pen God Composition, такое сотрудничество похоже на розу с шипами. Потому что китайские гиганты могут в любой момент зайти на вашу территорию и даже составить прямую конкуренцию на уровне бизнеса. **

Коррекция композиции ИИ — очень важная функция Penshen Composition. Еще три года назад TAL (материнская компания Xueersi) также запустила «Решение для коррекции композиции на китайском и английском языках», в котором реализована интеллектуальная коррекция композиции на китайском и английском языках с помощью ИИ.

Теперь модификация состава ИИ — это лишь верхушка айсберга огромной матрицы продуктов TAL TAL. В своем последнем представлении продукта коррекция китайской композиции представляет собой модуль коррекции китайской и английской диктовки. У TAL большие амбиции, и его щупальца уже распространились на все аспекты обучения искусственному интеллекту.

После того, как ChatGPT стал популярным благодаря генеративному ИИ, предприниматели в индустрии искусственного интеллекта были одновременно взволнованы и обеспокоены. Они взволнованы тем, что индустрия, наконец, снова набирает обороты; они обеспокоены тем, что ChatGPT слишком силен, и многие предпринимательские проекты в вертикальных областях в одночасье потеряли свои барьеры.

Для такой компании, как Pen God Composition, где находятся барьеры для конкуренции и как противостоять гигантам, это очень насущные проблемы. Ускоренная инволюция индустрии искусственного интеллекта и усиление однородной конкуренции обострят противостояние между стартапами и гигантами.

Сбор данных может быть лишь верхушкой айсберга в новом раунде конкуренции.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить