В прошлом месяце известное учебное заведение Xueersi сообщило, что оно разрабатывает большую математическую модель MathGPT, которая предназначена для энтузиастов математики со всего мира и крупных научно-исследовательских институтов, и ходит на двух ногах в решении задач и чтении лекций. В то время многие люди чувствовали, что когда вы пели глобальную модель большого языка, а я выходил на сцену, наконец-то наступала большая модель научной версии. Однако прошло больше месяца, и развитие реальности пошло в другом направлении.
Во вторник, 13-го числа этой недели, инструмент для написания ИИ «Pen Shen Composition» обвинил Xueersi в незаконном доступе и кэшировании данных своего сервера более 2,5 миллионов раз с помощью технологии «краулера» для разработки нового продукта MathGPT «Composition AI Assistant». " ", и потребовал один юань.
Раз, шесть лет достижений и выходные
Penshen Composition была создана в декабре 2017. Это образовательная платформа для K12, то есть отечественной начальной школы и старшей школы, дочерняя компания Beijing Yiyilianghua Technology Co., Ltd. Несмотря на то, что были голоса и концепции объединения ИИ с ИИ, когда он был установлен, рыночные ожидания и реальная производительность были не такими горячими, как сейчас, и внимание, которое он привлекал, было очень ограниченным. Тем не менее, даже в этом случае Penshen Composition по-прежнему полагалась на свою функцию «использования технологии искусственного интеллекта, чтобы помочь писателям улучшить свои писательские способности». В июле завершился многомиллионный раунд ангельского финансирования Buhuo Venture Capital.
По официальным данным, за шесть лет с момента запуска Penshen Composition ежемесячно получает более 300 000 заявок и более 400 000 лайков и комментариев, ежемесячно накапливается миллионы материалов для эссе и исправленных эссе. 30 000 статей. После того, как ChatGPT был запущен в конце прошлого года, Шиджи Тяньхун, один из инвесторов Penshen Composition, однажды сказал, что технологии Pensus и ChatGPT имеют одно и то же происхождение, и обе они используют самый передовой алгоритм, основанный на преобразовании в качестве базовой технологии . Сун Цзявэй, основатель Bishen Composition, также представил: «Один удар и два удара в настоящее время имеют в команде более 60% технического персонала, занимающегося исследованиями и разработками. До создания компании они основали компании НЛП. глубоко вовлечены в область НЛП в течение многих лет и продолжают накапливаться».
** Таким образом, в целом модель алгоритма PenShen Composition разработана и обучена компанией самостоятельно, а большие данные, используемые платформой, в основном получены из собственного накопления. ** Из-за накопленных и плодотворных технологий в письменной форме, Penshen Composition и Xueersi официально начали сотрудничество три года назад и подписали контракт с обучающим приложением Xueersi «Tipai Pai», которое в основном отвечает за предоставление службы запроса материалов для композиции.
Однако, как партнер, Bishen Composition недавно заявила: «С 13 по 17 апреля достижения нашей команды за шесть лет с момента нашего создания были безжалостно подавлены «Сюэрси», которые сотрудничали в течение многих лет. Просканировано более 2,5 миллионов раз в только однажды! Xueersi анонсировала MathGPT в мае, и время слишком случайное.
2. Обращение Бога пера и ответ Сюэ Эрси
** Судя по заявлению официального Weibo Penshen Composition, у него нет полного механизма защиты данных, и у него нет защиты от своего «партнера» Xueersi, чем воспользовалась дочерняя компания Santi Yunlian (Xueersi) Si). доверия друг к другу. ** В связи с этим Bishen Composition заявила, что такое поведение является явным игнорированием условий договора между двумя сторонами, а также нарушает статью 32 «Закона о защите данных» «Любая организация или физическое лицо, собирающее данные, должны принимать законные и надлежащие не воровать и не получать данные другими незаконными способами» серьезно нарушил права на данные приложения Bishenzuowen. Сразу после этого Penshen Composition нашла Xueersi для проверки, а другая сторона не стала медлить и прямо признала, что их команда алгоритмов сканирует данные и использует их для собственного использования. Поэтому Bishen Composition отправила письмо адвоката, но на этот раз не получила содержательного ответа от Xueersi.
«Как компания, намного меньшая, чем Xueersi, у нас нет другого выбора, кроме как защищать свои права по юридическим каналам». , поэтому он может только «смело сделать этот первый шаг». Что касается реальной апелляции Penshen Composition, то на самом деле это несложно: ** всего лишь хочет, чтобы Xueersi выплатила один юань в качестве компенсации, публично извинилась и удалила просканированные данные. **
Penshen Composition объясняет это так: «Данные ценны, кропотливые усилия бесценны, а претензия на один юань связана с тем, что честность и справедливость не могут быть измерены деньгами. Мы надеемся сообщить другой стороне через судебный процесс и сообщить обществу, что такое поведение придется заплатить свою цену. Индустрия искусственного интеллекта Развитие отрасли требует, чтобы все работали вместе и создавали вместе, а не желали и занимались плагиатом чужих достижений».
Как и сказал состав бога пера, в этом иске требовался только один юань, поэтому заявление не вызвало большого отклика и внимания, и лишь несколько статей также осуждали Сюэрси. Тем не менее, в конце концов, это негативная новость, официальный Weibo Xueersi также недавно опубликовал ответ: «Во-первых, MathGPT — это большая модель, разработанная самостоятельно, ориентированная на область математики, без каких-либо данных, связанных с композицией; во-вторых, «Композиция AI Assistant в настоящее время находится в разработке. Статус еще не опубликован, и сервис не использует данные из Penshen Composition».
Что касается ключевого момента в этом инциденте, более 2,5 миллионов сканирований данных, Сюэрси указал, что в контракте четко указано, что «количество звонков, включенных в ежемесячную гарантированную плату, составляет порядка миллионов», а интерфейс называется "принадлежит обеим сторонам. Нормальный объем сотрудничества, оговоренный в договоре". В конце ответа Xueersi подчеркнула, что «всегда соблюдает права интеллектуальной собственности и придает большое значение защите интеллектуальной собственности», и все действия выполняются в строгом соответствии с договором, но «публичное заявление Penshen Composition уже вызвало ущерб репутации бренда Xueersi. Мы оставляем за собой право нести ответственность за нарушение репутации».
3. Проблемы с авторскими правами на данные
Что касается текущих заявлений двух сторон, то еще слишком рано делать какие-либо выводы, но они также раскрывают очень важный, но легко упускаемый из виду аспект горячего рынка крупномасштабных моделей за последние шесть месяцев: право собственности на авторские права. из данных обучения ИИ. Также по этой причине Reddit, известный как «американская версия Tieba», в последнее время наделал много шума в Интернете.
Из-за богатого контента чата, накопленного за годы на Reddit, он стал материалом, используемым Google, Microsoft, OpenAI и другими компаниями для обучения больших языковых моделей.ChatGPT и другие красноречивые, а затем стали популярными во всем мире, Reddit также внес свой вклад. . Но теперь, когда эти GPT-подобные продукты стали популярны, основатель и генеральный директор Reddit однажды сказал: ** «Корпусные данные Reddit очень ценны, но мы не хотим предоставлять этот контент некоторым гигантским компаниям бесплатно».* После этого Выразив свою позицию, Stack Overflow, еще один известный веб-сайт вопросов и ответов в области ИТ, также объявил, что планирует взимать плату за доступ к данным с крупных разработчиков с середины этого года.Его генеральный директор также сказал: ** «Недавняя разработка модели большого языка также выигрывает от продвижения сообщества, сообщество также должно получать компенсацию за свой вклад».*
Несомненно, в процессе того, как ОИИ и большие модели становятся все более и более интеллектуальными от меньшинства к публике, из-за кулис к авансцене, необходимы массивные обучающие данные. Однако, судя по текущим показателям различных компаний, даже у OpenAI, нынешнего первого брата, нет хорошего решения проблемы авторских прав на обучающие данные. Причину понять несложно. Ранняя версия GPT почти не привлекала внимания внешнего мира. В то время люди скептически относились к возможности ее коммерциализации. Естественно, никого не волновали источники данных и вопросы авторского права. Когда ChatGPT будет запущен, наступит огромная потребительская ценность, коммерческая ценность и социальный подъем, а традиционная правовая система, экономическая модель, идеи развития и т. д. сразу станут для вас бедами.
Независимо от того, правда это или нет, и каков конечный результат, на этот раз Bishen Composition и Xueersi совместно поставили первую крупномасштабную драму об авторском праве данных модели в Китае, а также вдохновили отечественную индустрию крупномасштабных моделей и предприятия. Хотя это всего лишь спор за один юань, он имеет большое значение. Возможно, когда в будущем будут выпущены десятки тысяч дорам, если мы оглянемся на сегодняшнее заявление Penshen Composition и Xueersi, мы обнаружим, что этот доллар действительно пророческий.
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Результаты за шесть лет были просканированы более 2,5 миллионов раз за одни выходные, как защитить авторские права на данные в новую эру
В прошлом месяце известное учебное заведение Xueersi сообщило, что оно разрабатывает большую математическую модель MathGPT, которая предназначена для энтузиастов математики со всего мира и крупных научно-исследовательских институтов, и ходит на двух ногах в решении задач и чтении лекций. В то время многие люди чувствовали, что когда вы пели глобальную модель большого языка, а я выходил на сцену, наконец-то наступала большая модель научной версии. Однако прошло больше месяца, и развитие реальности пошло в другом направлении.
Во вторник, 13-го числа этой недели, инструмент для написания ИИ «Pen Shen Composition» обвинил Xueersi в незаконном доступе и кэшировании данных своего сервера более 2,5 миллионов раз с помощью технологии «краулера» для разработки нового продукта MathGPT «Composition AI Assistant». " ", и потребовал один юань.
Раз, шесть лет достижений и выходные
Penshen Composition была создана в декабре 2017. Это образовательная платформа для K12, то есть отечественной начальной школы и старшей школы, дочерняя компания Beijing Yiyilianghua Technology Co., Ltd. Несмотря на то, что были голоса и концепции объединения ИИ с ИИ, когда он был установлен, рыночные ожидания и реальная производительность были не такими горячими, как сейчас, и внимание, которое он привлекал, было очень ограниченным. Тем не менее, даже в этом случае Penshen Composition по-прежнему полагалась на свою функцию «использования технологии искусственного интеллекта, чтобы помочь писателям улучшить свои писательские способности». В июле завершился многомиллионный раунд ангельского финансирования Buhuo Venture Capital.
По официальным данным, за шесть лет с момента запуска Penshen Composition ежемесячно получает более 300 000 заявок и более 400 000 лайков и комментариев, ежемесячно накапливается миллионы материалов для эссе и исправленных эссе. 30 000 статей. После того, как ChatGPT был запущен в конце прошлого года, Шиджи Тяньхун, один из инвесторов Penshen Composition, однажды сказал, что технологии Pensus и ChatGPT имеют одно и то же происхождение, и обе они используют самый передовой алгоритм, основанный на преобразовании в качестве базовой технологии . Сун Цзявэй, основатель Bishen Composition, также представил: «Один удар и два удара в настоящее время имеют в команде более 60% технического персонала, занимающегося исследованиями и разработками. До создания компании они основали компании НЛП. глубоко вовлечены в область НЛП в течение многих лет и продолжают накапливаться».
** Таким образом, в целом модель алгоритма PenShen Composition разработана и обучена компанией самостоятельно, а большие данные, используемые платформой, в основном получены из собственного накопления. ** Из-за накопленных и плодотворных технологий в письменной форме, Penshen Composition и Xueersi официально начали сотрудничество три года назад и подписали контракт с обучающим приложением Xueersi «Tipai Pai», которое в основном отвечает за предоставление службы запроса материалов для композиции.
Однако, как партнер, Bishen Composition недавно заявила: «С 13 по 17 апреля достижения нашей команды за шесть лет с момента нашего создания были безжалостно подавлены «Сюэрси», которые сотрудничали в течение многих лет. Просканировано более 2,5 миллионов раз в только однажды! Xueersi анонсировала MathGPT в мае, и время слишком случайное.
2. Обращение Бога пера и ответ Сюэ Эрси
** Судя по заявлению официального Weibo Penshen Composition, у него нет полного механизма защиты данных, и у него нет защиты от своего «партнера» Xueersi, чем воспользовалась дочерняя компания Santi Yunlian (Xueersi) Si). доверия друг к другу. ** В связи с этим Bishen Composition заявила, что такое поведение является явным игнорированием условий договора между двумя сторонами, а также нарушает статью 32 «Закона о защите данных» «Любая организация или физическое лицо, собирающее данные, должны принимать законные и надлежащие не воровать и не получать данные другими незаконными способами» серьезно нарушил права на данные приложения Bishenzuowen. Сразу после этого Penshen Composition нашла Xueersi для проверки, а другая сторона не стала медлить и прямо признала, что их команда алгоритмов сканирует данные и использует их для собственного использования. Поэтому Bishen Composition отправила письмо адвоката, но на этот раз не получила содержательного ответа от Xueersi.
«Как компания, намного меньшая, чем Xueersi, у нас нет другого выбора, кроме как защищать свои права по юридическим каналам». , поэтому он может только «смело сделать этот первый шаг». Что касается реальной апелляции Penshen Composition, то на самом деле это несложно: ** всего лишь хочет, чтобы Xueersi выплатила один юань в качестве компенсации, публично извинилась и удалила просканированные данные. **
Penshen Composition объясняет это так: «Данные ценны, кропотливые усилия бесценны, а претензия на один юань связана с тем, что честность и справедливость не могут быть измерены деньгами. Мы надеемся сообщить другой стороне через судебный процесс и сообщить обществу, что такое поведение придется заплатить свою цену. Индустрия искусственного интеллекта Развитие отрасли требует, чтобы все работали вместе и создавали вместе, а не желали и занимались плагиатом чужих достижений».
Что касается ключевого момента в этом инциденте, более 2,5 миллионов сканирований данных, Сюэрси указал, что в контракте четко указано, что «количество звонков, включенных в ежемесячную гарантированную плату, составляет порядка миллионов», а интерфейс называется "принадлежит обеим сторонам. Нормальный объем сотрудничества, оговоренный в договоре". В конце ответа Xueersi подчеркнула, что «всегда соблюдает права интеллектуальной собственности и придает большое значение защите интеллектуальной собственности», и все действия выполняются в строгом соответствии с договором, но «публичное заявление Penshen Composition уже вызвало ущерб репутации бренда Xueersi. Мы оставляем за собой право нести ответственность за нарушение репутации».
3. Проблемы с авторскими правами на данные
Что касается текущих заявлений двух сторон, то еще слишком рано делать какие-либо выводы, но они также раскрывают очень важный, но легко упускаемый из виду аспект горячего рынка крупномасштабных моделей за последние шесть месяцев: право собственности на авторские права. из данных обучения ИИ. Также по этой причине Reddit, известный как «американская версия Tieba», в последнее время наделал много шума в Интернете.
Из-за богатого контента чата, накопленного за годы на Reddit, он стал материалом, используемым Google, Microsoft, OpenAI и другими компаниями для обучения больших языковых моделей.ChatGPT и другие красноречивые, а затем стали популярными во всем мире, Reddit также внес свой вклад. . Но теперь, когда эти GPT-подобные продукты стали популярны, основатель и генеральный директор Reddit однажды сказал: ** «Корпусные данные Reddit очень ценны, но мы не хотим предоставлять этот контент некоторым гигантским компаниям бесплатно».* После этого Выразив свою позицию, Stack Overflow, еще один известный веб-сайт вопросов и ответов в области ИТ, также объявил, что планирует взимать плату за доступ к данным с крупных разработчиков с середины этого года.Его генеральный директор также сказал: ** «Недавняя разработка модели большого языка также выигрывает от продвижения сообщества, сообщество также должно получать компенсацию за свой вклад».*
Несомненно, в процессе того, как ОИИ и большие модели становятся все более и более интеллектуальными от меньшинства к публике, из-за кулис к авансцене, необходимы массивные обучающие данные. Однако, судя по текущим показателям различных компаний, даже у OpenAI, нынешнего первого брата, нет хорошего решения проблемы авторских прав на обучающие данные. Причину понять несложно. Ранняя версия GPT почти не привлекала внимания внешнего мира. В то время люди скептически относились к возможности ее коммерциализации. Естественно, никого не волновали источники данных и вопросы авторского права. Когда ChatGPT будет запущен, наступит огромная потребительская ценность, коммерческая ценность и социальный подъем, а традиционная правовая система, экономическая модель, идеи развития и т. д. сразу станут для вас бедами.