Результаты за шесть лет были просканированы более 2,5 миллионов раз за одни выходные, как защитить авторские права на данные в новую эру

2023-06-16 01:41:40

В прошлом месяце известное учебное заведение Xueersi сообщило, что оно разрабатывает большую математическую модель MathGPT, которая предназначена для энтузиастов математики со всего мира и крупных научно-исследовательских институтов, и ходит на двух ногах в решении задач и чтении лекций. В то время многие люди чувствовали, что когда вы пели глобальную модель большого языка, а я выходил на сцену, наконец-то наступала большая модель научной версии. Однако прошло больше месяца, и развитие реальности пошло в другом направлении.

Во вторник, 13-го числа этой недели, инструмент для написания ИИ «Pen Shen Composition» обвинил Xueersi в незаконном доступе и кэшировании данных своего сервера более 2,5 миллионов раз с помощью технологии «краулера» для разработки нового продукта MathGPT «Composition AI Assistant». " ", и потребовал один юань.

Раз, шесть лет достижений и выходные

Penshen Composition была создана в декабре 2017. Это образовательная платформа для K12, то есть отечественной начальной школы и старшей школы, дочерняя компания Beijing Yiyilianghua Technology Co., Ltd. Несмотря на то, что были голоса и концепции объединения ИИ с ИИ, когда он был установлен, рыночные ожидания и реальная производительность были не такими горячими, как сейчас, и внимание, которое он привлекал, было очень ограниченным. Тем не менее, даже в этом случае Penshen Composition по-прежнему полагалась на свою функцию «использования технологии искусственного интеллекта, чтобы помочь писателям улучшить свои писательские способности». В июле завершился многомиллионный раунд ангельского финансирования Buhuo Venture Capital.

По официальным данным, за шесть лет с момента запуска Penshen Composition ежемесячно получает более 300 000 заявок и более 400 000 лайков и комментариев, ежемесячно накапливается миллионы материалов для эссе и исправленных эссе. 30 000 статей. После того, как ChatGPT был запущен в конце прошлого года, Шиджи Тяньхун, один из инвесторов Penshen Composition, однажды сказал, что технологии Pensus и ChatGPT имеют одно и то же происхождение, и обе они используют самый передовой алгоритм, основанный на преобразовании в качестве базовой технологии . Сун Цзявэй, основатель Bishen Composition, также представил: «Один удар и два удара в настоящее время имеют в команде более 60% технического персонала, занимающегося исследованиями и разработками. До создания компании они основали компании НЛП. глубоко вовлечены в область НЛП в течение многих лет и продолжают накапливаться».

** Таким образом, в целом модель алгоритма PenShen Composition разработана и обучена компанией самостоятельно, а большие данные, используемые платформой, в основном получены из собственного накопления. ** Из-за накопленных и плодотворных технологий в письменной форме, Penshen Composition и Xueersi официально начали сотрудничество три года назад и подписали контракт с обучающим приложением Xueersi «Tipai Pai», которое в основном отвечает за предоставление службы запроса материалов для композиции.

Однако, как партнер, Bishen Composition недавно заявила: «С 13 по 17 апреля достижения нашей команды за шесть лет с момента нашего создания были безжалостно подавлены «Сюэрси», которые сотрудничали в течение многих лет. Просканировано более 2,5 миллионов раз в только однажды! Xueersi анонсировала MathGPT в мае, и время слишком случайное.

2. Обращение Бога пера и ответ Сюэ Эрси

** Судя по заявлению официального Weibo Penshen Composition, у него нет полного механизма защиты данных, и у него нет защиты от своего «партнера» Xueersi, чем воспользовалась дочерняя компания Santi Yunlian (Xueersi) Si). доверия друг к другу. ** В связи с этим Bishen Composition заявила, что такое поведение является явным игнорированием условий договора между двумя сторонами, а также нарушает статью 32 «Закона о защите данных» «Любая организация или физическое лицо, собирающее данные, должны принимать законные и надлежащие не воровать и не получать данные другими незаконными способами» серьезно нарушил права на данные приложения Bishenzuowen. Сразу после этого Penshen Composition нашла Xueersi для проверки, а другая сторона не стала медлить и прямо признала, что их команда алгоритмов сканирует данные и использует их для собственного использования. Поэтому Bishen Composition отправила письмо адвоката, но на этот раз не получила содержательного ответа от Xueersi.

«Как компания, намного меньшая, чем Xueersi, у нас нет другого выбора, кроме как защищать свои права по юридическим каналам». , поэтому он может только «смело сделать этот первый шаг». Что касается реальной апелляции Penshen Composition, то на самом деле это несложно: ** всего лишь хочет, чтобы Xueersi выплатила один юань в качестве компенсации, публично извинилась и удалила просканированные данные. **

Penshen Composition объясняет это так: «Данные ценны, кропотливые усилия бесценны, а претензия на один юань связана с тем, что честность и справедливость не могут быть измерены деньгами. Мы надеемся сообщить другой стороне через судебный процесс и сообщить обществу, что такое поведение придется заплатить свою цену. Индустрия искусственного интеллекта Развитие отрасли требует, чтобы все работали вместе и создавали вместе, а не желали и занимались плагиатом чужих достижений».

Как и сказал состав бога пера, в этом иске требовался только один юань, поэтому заявление не вызвало большого отклика и внимания, и лишь несколько статей также осуждали Сюэрси. Тем не менее, в конце концов, это негативная новость, официальный Weibo Xueersi также недавно опубликовал ответ: «Во-первых, MathGPT — это большая модель, разработанная самостоятельно, ориентированная на область математики, без каких-либо данных, связанных с композицией; во-вторых, «Композиция AI Assistant в настоящее время находится в разработке. Статус еще не опубликован, и сервис не использует данные из Penshen Composition».

Что касается ключевого момента в этом инциденте, более 2,5 миллионов сканирований данных, Сюэрси указал, что в контракте четко указано, что «количество звонков, включенных в ежемесячную гарантированную плату, составляет порядка миллионов», а интерфейс называется "принадлежит обеим сторонам. Нормальный объем сотрудничества, оговоренный в договоре". В конце ответа Xueersi подчеркнула, что «всегда соблюдает права интеллектуальной собственности и придает большое значение защите интеллектуальной собственности», и все действия выполняются в строгом соответствии с договором, но «публичное заявление Penshen Composition уже вызвало ущерб репутации бренда Xueersi. Мы оставляем за собой право нести ответственность за нарушение репутации».

3. Проблемы с авторскими правами на данные

Что касается текущих заявлений двух сторон, то еще слишком рано делать какие-либо выводы, но они также раскрывают очень важный, но легко упускаемый из виду аспект горячего рынка крупномасштабных моделей за последние шесть месяцев: право собственности на авторские права. из данных обучения ИИ. Также по этой причине Reddit, известный как «американская версия Tieba», в последнее время наделал много шума в Интернете.

Из-за богатого контента чата, накопленного за годы на Reddit, он стал материалом, используемым Google, Microsoft, OpenAI и другими компаниями для обучения больших языковых моделей.ChatGPT и другие красноречивые, а затем стали популярными во всем мире, Reddit также внес свой вклад. . Но теперь, когда эти GPT-подобные продукты стали популярны, основатель и генеральный директор Reddit однажды сказал: ** «Корпусные данные Reddit очень ценны, но мы не хотим предоставлять этот контент некоторым гигантским компаниям бесплатно».* После этого Выразив свою позицию, Stack Overflow, еще один известный веб-сайт вопросов и ответов в области ИТ, также объявил, что планирует взимать плату за доступ к данным с крупных разработчиков с середины этого года.Его генеральный директор также сказал: ** «Недавняя разработка модели большого языка также выигрывает от продвижения сообщества, сообщество также должно получать компенсацию за свой вклад».*

Несомненно, в процессе того, как ОИИ и большие модели становятся все более и более интеллектуальными от меньшинства к публике, из-за кулис к авансцене, необходимы массивные обучающие данные. Однако, судя по текущим показателям различных компаний, даже у OpenAI, нынешнего первого брата, нет хорошего решения проблемы авторских прав на обучающие данные. Причину понять несложно. Ранняя версия GPT почти не привлекала внимания внешнего мира. В то время люди скептически относились к возможности ее коммерциализации. Естественно, никого не волновали источники данных и вопросы авторского права. Когда ChatGPT будет запущен, наступит огромная потребительская ценность, коммерческая ценность и социальный подъем, а традиционная правовая система, экономическая модель, идеи развития и т. д. сразу станут для вас бедами.

Независимо от того, правда это или нет, и каков конечный результат, на этот раз Bishen Composition и Xueersi совместно поставили первую крупномасштабную драму об авторском праве данных модели в Китае, а также вдохновили отечественную индустрию крупномасштабных моделей и предприятия. Хотя это всего лишь спор за один юань, он имеет большое значение. Возможно, когда в будущем будут выпущены десятки тысяч дорам, если мы оглянемся на сегодняшнее заявление Penshen Composition и Xueersi, мы обнаружим, что этот доллар действительно пророческий.

Посмотреть Оригинал

Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
#BTC#
222k посты
#PI#
186k посты
#ETH#
141k посты
4#GateioInto11#
79k посты
5#ContentStar#
66k посты
6#GT#
62k посты
7#BOME#
60k посты
8#DOGE#
57k посты
9#MAGA#
52k посты
10#SLERF#
51k посты

Закрепить

Карта сайта