Результати за шість років сканувалися понад 2,5 мільйона разів за один вихідний, як захистити авторські права на дані в нову еру

Минулого місяця відомий навчальний заклад Xueersi оголосив, що розробляє велику математичну модель MathGPT, яка орієнтована на глобальних ентузіастів математики та великі науково-дослідні установи, і ходить на двох ногах у вирішенні задач і читанні лекцій. У той час багато людей відчували, що коли ми з вами вийшли на сцену, нарешті з’явилася велика наукова модель мови. Однак минуло більше місяця, і розвиток реаліті пішов в іншому напрямку.

У вівторок, 13-го цього тижня, інструмент для написання штучного інтелекту «Pen Shen Composition» звинуватив Xueersi у незаконному доступі та кешуванні даних свого сервера понад 2,5 мільйона разів за допомогою технології «сканера» з метою розробки нового продукту MathGPT «Composition AI Assistant». " ", і вимагав один юань.

Один, шість років досягнень і вихідні

Penshen Composition було створено в грудні 2017 року. Це композиційна навчальна платформа для K12, тобто внутрішньої початкової школи до середньої школи. Вона є філією Beijing Yiyilianghua Technology Co., Ltd. Хоча були голоси та концепції поєднання штучного інтелекту з штучним інтелектом, коли він був створений, очікування ринку та фактичні показники не були такими гарячими, як зараз, і увагу, яке він привернув, було дуже обмеженим. Однак, незважаючи на це, Penshen Composition все ще покладався на свою функцію «використання технології штучного інтелекту, щоб допомогти письменникам покращити свої здібності до письма». У липні завершив багатомільйонне фінансування Buhuo Venture Capital.

Згідно з офіційними даними, за шість років із моменту запуску Penshen Composition щомісяця отримував понад 300 000 есе та понад 400 000 лайків і коментарів. Щомісяця він накопичував мільйони есе-матеріалів і виправлених есе. 30 000 статей. Після запуску ChatGPT наприкінці минулого року Шидзі Тіаньхонг, один з інвесторів Penshen Composition, якось сказав, що "Pensus" і технології ChatGPT мають однакове походження, і обидві використовують найдосконаліший алгоритм, заснований на трансформаторі. як базову технологію . Сонг Цзявей, засновник Bishen Composition, також представив: «Наразі в команді One stroke і two strokes працює понад 60% технічного персоналу R&D. До заснування компанії вони засновували компанії NLP. Деякі кістяки були глибоко залучені в поле НЛП протягом багатьох років і продовжують накопичувати».

** Таким чином, загалом модель алгоритму PenShen Composition розробляється та навчається компанією самостійно, а великі дані, які використовуються платформою, в основному отримують із власного накопичення. **Завдяки накопиченій і плідній технології в письмовому вигляді Penshen Composition і Xueersi офіційно розпочали співпрацю три роки тому та підписали контракт із додатком інструментів для навчання Xueersi «Tipai Pai», який в основному відповідає за надання послуг із запиту на матеріали для композиції.

Однак, як партнер, Bishen Composition нещодавно заявив: «З 13 по 17 квітня досягнення нашої команди за шість років з моменту заснування були безжально заплющені «Xueersi», які співпрацювали протягом багатьох років. Переглянуто понад 2,5 мільйона разів у тільки один раз! Xueersi анонсував MathGPT у травні, і час надто випадковий.

2. Напишіть Боже звернення та відповідь Сюе Ерсі

** Судячи з заяви, опублікованої офіційним Weibo Penshen Composition, він не має повного механізму безпеки даних і не має захисту від свого «партнера» Xueersi, що призвело до того, що дочірня компанія Santi Yunlian (Xueersi) Si) скористалася перевагами довіри один до одного. **У зв’язку з цим Bishen Composition заявив, що така поведінка явно ігнорує умови договору між двома сторонами, а також порушує статтю 32 «Закону про захист даних». «Будь-яка організація або особа, яка збирає дані, повинна прийняти законні та належні Не викрадайте та не отримуйте дані іншими незаконними способами», серйозно порушив права Bishenzuowen APP на дані. Одразу після цього Penshen Composition знайшла Xueersi для перевірки, а інша сторона не стала зволікати й прямо визнала, що їх команда алгоритмів сканувала дані та використовувала їх для власних потреб. Тому Bishen Composition надіслала листа адвокату, але цього разу не отримала змістовної відповіді від Xueersi.

«Як компанія, яка набагато менша за Xueersi, у нас немає іншого вибору, окрім як захищати власні права через юридичні канали». Однак Bishen Composition також зазначив у своїй заяві, що чинні закони та правила не створюють прецеденту «викрадання даних великої моделі ШІ». , тому він може лише «сміливо зробити цей перший крок». Що стосується справжньої апеляції Penshen Composition, насправді це не складно: ** лише хоче, щоб Сюерсі заплатив один юань компенсації, публічно вибачився та видалив проскановані дані. **

Penshen Composition пояснює це так: «Дані цінні, копіткі зусилля безцінні, а позов на один юань тому, що чесність і справедливість не можна виміряти грошима. Ми сподіваємося повідомити іншу сторону через судовий процес і сказати суспільству, що така поведінка доведеться заплатити ціну. Галузь штучного інтелекту Розвиток галузі вимагає від усіх спільної роботи та спільного створення, а не жадібності та плагіату досягнень інших».

Так само, як було сказано в композиції pen god, цей позов вимагав лише один юань, тому заява не викликала особливого відгуку та уваги, і лише кілька статей також засуджували Сюерсі. Однак, зрештою, це негативна новина, офіційний веб-сайт Xueersi також нещодавно опублікував відповідь: «По-перше, MathGPT — це велика модель самостійної розробки, зосереджена на галузі математики, без будь-яких даних, пов’язаних із композицією; по-друге, «Композиція» AI Assistant" наразі розробляється. Статус ще не оприлюднено, і служба не використовує жодних даних Penshen Composition".

Що стосується ключового моменту в цьому інциденті, понад 2,5 мільйона разів сканування даних, Сюерсі зазначив, що в контракті чітко зазначено, що «кількість дзвінків, включених у місячну гарантовану плату, становить близько мільйонів», а інтерфейс називається "належить обом сторонам. Звичайний обсяг співпраці, передбачений контрактом". У кінці відповіді Xueersi підкреслив, що «завжди поважає права інтелектуальної власності та надає великого значення захисту інтелектуальної власності», і всі дії виконуються в суворій відповідності з контрактом, але «публічна заява Penshen Composition вже викликала завдати шкоди репутації бренду Xueersi. Ми залишаємо за собою право притягнути його до відповідальності за порушення репутації».

3. Проблеми з авторським правом на дані

Що стосується поточних заяв обох сторін, то ще занадто рано робити будь-які висновки, але це також розкриває дуже важливий, але легко недооцінений аспект гарячого ринку великомасштабних моделей за останні шість місяців: право власності на авторські права **даних навчання AI **. Також з цієї причини останнім часом Reddit, відомий як «американська версія Tieba», наробив багато шуму в Інтернеті.

Завдяки багатому вмісту чату, накопиченому протягом багатьох років на Reddit, він став матеріалом, який використовують Google, Microsoft, OpenAI та інші компанії для навчання великих мовних моделей. ChatGPT та інші красномовні, а пізніше стали популярними в усьому світі, Reddit також вніс свій внесок . Але тепер, коли ці продукти, схожі на GPT, стали популярні, засновник і генеральний директор Reddit одного разу сказав: ** «Дані Reddit є дуже цінними, але ми не хочемо надавати цей вміст деяким гігантським компаніям безкоштовно».* Після цього Після висловлення своєї позиції Stack Overflow, інший відомий ІТ-сайт із питаннями та відповідями, також оголосив, що з середини цього року планує стягувати плату за доступ до даних із великих розробників. Його генеральний директор також сказав: ** «Остання розробка великої мовної моделі також виграє від сприяння спільноті, спільнота також має отримати компенсацію за свій внесок».*

Безсумнівно, у процесі AGI та великих моделей, які стають дедалі розумнішими від меншості до публіки, від залаштунків до перед сценою, масові навчальні дані є незамінними. Однак, судячи з поточної продуктивності різних компаній, навіть OpenAI, нинішній перший брат, не має хорошого вирішення проблеми авторського права на навчальні дані. Причину неважко зрозуміти. Рання версія GPT майже не привертала уваги зовнішнього світу. Тоді люди скептично ставилися до можливості її комерціалізації. Природно, нікого не хвилювали джерела даних і проблеми з авторським правом. Коли ChatGPT буде запущено, ви отримаєте величезну споживчу цінність, комерційну цінність і соціальний підйом, і традиційна правова система, економічна модель, ідеї розвитку тощо відразу стануть для вас проблемами.

Незалежно від того, правда це чи ні, і яким буде кінцевий результат, цього разу Bishen Composition і Xueersi спільно влаштували першу в Китаї масштабну драму про авторські права на дані моделі, а також надихнули вітчизняну індустрію великомасштабних моделей і підприємств. Хоча це суперечка лише на один юань, вона має велике значення. Можливо, коли в майбутньому вийдуть десятки тисяч драм, якщо ми озирнемося на сьогоднішню заяву Penshen Composition і Xueersi, ми побачимо, що цей долар справді прозорливий.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити