«Крадіжка» даних, темна сторона великих моделей ШІ

Перше джерело:

Джерело зображення: створено Unbounded AI

Стартап-компанія під назвою «один удар два удари» публічно засудила колишнього керівника освіти та навчання «Xueersi», заявивши, що він «вкрав» дані, над збереженням яких так старанно працював, «збираючи базу даних».

Історія полягає в тому, що в середині квітня цього року «Pen Shen Composition» (продукт компанії Strike Two Strike) виявила велику кількість регулярних ненормальних доступів до інтерфейсу сервера, що призвело до швидкого зростання в навантаженні на сервер.

Кількість відвідувань значно перевищує середньодобову. Bishen Composition розповіла Deep AI, що звичайні щоденні відвідування становлять близько кількох сотень або кількох тисяч, але за ці кілька днів кількість зросла до понад 500 000 на день. Протягом тижня їхні дані були проскановані 2,58 мільйона разів.

Виклики бази даних опубліковані Penshen Composition

Перевіривши серверні журнали, Pen God Composition виявив, що одна IP-адреса сканувала їхню базу даних із високою щільністю за допомогою технології «сканера». Пошукові слова для кожного відвідування цієї IP-адреси пов’язані з композицією, і система повертатиме 30 композицій на сторінку. Кожне відвідування використовує пошукові слова, щоб повертатися з першої сторінки сторінка за сторінкою, в основному збираючи ту саму тему в бібліотеці Всі композиції відзняті.

За словами інсайдерів галузі, за звичайних обставин звичайні користувачі цього робити не будуть. **Такий тип доступу до бази даних у стилі пошуку також відомий як «скринінг бібліотеки». **

Penshen Composition вважає, що закулісним маніпулятором «Паку» є його партнер Сюерсі.

Невдовзі після інциденту з «бібліотекою паркування» Penshen Composition виявила, що Xueersi розробляє велику математичну модель MathGPT, і заявила, що найближчим часом запустить «помічника ШІ», одним із яких є композиція.

Немає чіткого висновку щодо того, чи існує якийсь зв’язок між двома інцидентами, коли Penshen Composition було «підібрано» та Hexueersi, що розробляє «Composition AI Assistant».

Але Bishen Composition вважає, що її права були порушені. Вона надіслала лист адвоката іншій стороні та оприлюднила справу, намагаючись отримати пояснення. Xueersi дав публічну відповідь, заявивши, що використання матеріального контенту Penshen відповідає вимогам контракту, і що його власно розроблена модель MathGPT і «композиційний AI-помічник» не використовують жодних даних із композиції Penshen.

У цьому випадку варто обговорювати не лише композиційний матеріал. Що означають дані для великих моделей?

**Партнер став варваром біля воріт? **

Обидві сторони наполягають на своїй думці

Давайте спочатку коротко представимо склад бога пера.

Ця компанія була заснована в 2017 році. Продукт «Pen God» — це програмне забезпечення для письма за допомогою штучного інтелекту, яке можна розглядати як продукт AI+education. Спочатку «Pen God» був орієнтований на платформи для створення контенту та відповідних виробників інструментів, а пізніше він пішов у вертикальну сферу, використовуючи штучний інтелект для навчання студентів писати есе, так що з’явилася «Pen God Composition».

Ви можете просто зрозуміти: це в освітній індустрії, воно націлене на студентську групу, воно використовує технологію штучного інтелекту та вирішує сцену написання есе.

Написання ШІ має багато спільного з популярним сьогодні ChatGPT. Усі вони включають такі технології, як обробка природної мови, семантичний аналіз і прогнозування, а також машинне навчання. Сонг Цзявей, засновник Penshen Composition, працював старшим системним архітектором Sony і технічним директором Singulato.

Ще п'ять років тому Сонг Цзявей сказав, що він розглядає можливість застосування попередньо навчених технологій мовної моделі, таких як bert або GPT-2, до програм. У той час GPT не виходила з кола і не була такою відомою, як сьогодні.

Після початку композиції зі штучним інтелектом Penshen Composition офіційно вийшла на освітній шлях, увійшовши в ту саму річку, що й Сюєрсі, лідер освіти та навчання.

Відповідно до введення Penshen, у грудні 2020 року Penshen Composition та Xueersi досягли співпраці. ** Penshen Composition надає Xueersi «Інтерфейс служби матеріалів есе моделі Benshen», який використовується у пов’язаних службах Xueersi, а плата стягується відповідно до кількості дзвінків. З цієї причини Penshen Composition відкрив сервісний інтерфейс для Xueersi. **

Іншими словами, Xueersi може використовувати композиційні матеріали в базі даних Penshen Composition і платити за них.

Композиційні матеріали є основним активом у цій угоді та наріжним каменем бізнес-моделі Penshen Composition. Насправді композиція Pen God починалася з точки зору матеріалу. Тоді він мав функцію «пошуку матеріалів одним клацанням миші». Користувачі можуть шукати за ключовими словами, а система може автоматично зіставляти матеріали. Ресурси варіюються від класики стародавньої поезії, офіційних документів до сучасних веб-статей. У процесі написання система також може надсилати матеріал у режимі реального часу.

Ці матеріали не з Інтернету, а з власної бази Penshen. Завдяки інтелектуальній ідентифікації, перекладу та зіставленню технології штучного інтелекту Penshen може передавати відповідні матеріали пошуковій поведінці користувачів.

Коли кількість цих композиційних матеріалів достатньо велика, якість достатньо висока, а відповідність достатньо точна, вони матимуть певну комерційну цінність і навіть можуть продаватися за кордоном. Це причина співпраці з Xueersi.

Проблема в тому, що ці матеріали ризикують бути «вкраденими», особливо якщо деякі інтерфейси відкриті.

Згідно з впровадженням Deep AI у склад penshen, вони обмежили сферу співпраці з Xueersi: «Ми відкриваємо інтерфейс, щоб дозволити їм викликати наші дані та відображати їх у власному APP, але контракт не включає дані для зберігання. Або дозволи для алгоритмів штучного інтелекту. Дані мають бути доступні лише їхнім користувачам, а не зберігатися на їхніх машинах».

Це еквівалентно: **Коли користувач ініціює пошук на стороні продукту Xueersi, викликаний шаблон композиції надходить із Penshen Composition, і Xueersi не може зберігати його самостійно. **

Ненормальний дзвінок у середині квітня змусив Pen God Composition подумати, що це виходить за рамки звичайної ділової співпраці. «Їхні дії запустили наші захисні механізми, що змусило нас це виявити».

Bishen Zuowen заявив, що вони перевірили журнали доступу у фоновому режимі та виявили, що незаконний доступ був ініційований одним IP-адресою за допомогою технології «сканера». «Ми вже маємо цю IP-адресу».

IP-адреса, опублікована Penshen Composition (Part)

Лю Ран, генеральний директор вітчизняної стартап-компанії зі штучного інтелекту, проаналізував Deep AI. Цей метод повного перерахування ключових слів має бути призначений для отримання даних у бібліотеці. Це дуже очевидна поведінка.

Penshen Composition повідомила Deep AI, що після інциденту вони провели перевірку з оперативним персоналом Xueersi, і інша сторона прямо визнала, що команда алгоритмів Xueersi сканувала дані та використовувала їх для власних потреб. Однак цю заяву Deep AI ще не підтвердив Xueersi.

Колишній партнер раптово перетворився на варвара в дверях, що дуже розлютило Бішен Композицію і багато разів надсилало листи адвокату.

Xueersi заявив у своїй публічній відповіді 13 червня, що його звернення до інтерфейсу композиції Penshen не виходило за межі контракту між двома сторонами, а використання матеріального вмісту Penshen відповідало вимогам контракту та не використовувалося ні для чого. за винятком контракту для будь-яких цілей. Xueersi особливо підкреслив, що його власно розроблена велика модель MathGPT і «композиційний AI-помічник» не використовували жодних даних Penshen Composition.

Обидві сторони наполягають на своїй думці, а висновку поки немає. Згідно зі статтею Pen God, цей випадок може стати «першим випадком викрадення даних великомасштабної моделі ШІ».

Питання, яке варто дослідити, полягає в тому, що означають дані для великих моделей?

Велика проблема, звідки беруться дані

Обчислювальна потужність, алгоритми та дані є трьома основними елементами штучного інтелекту для машинного навчання.

Щоб підвищити обчислювальну потужність, багато технологічних компаній витрачають багато грошей, щоб поцупити GPU Nvidia. Що стосується алгоритмів, деякі великі компанії в країні та за кордоном зробили алгоритм відкритим кодом, що значно знижує поріг для розробки моделі.

Щодо даних, бар’єри існували завжди. Ключове питання, де знайти високоякісні дані.

Великі генеративні моделі штучного інтелекту потребують використання великої кількості різноманітних даних для навчання, щоб покращити можливості узагальнення та генерації моделі. Різні моделі можуть використовувати різні джерела даних. Загальні великі моделі, такі як ChatGPT, використовують багато загальнодоступних даних, таких як різні веб-сайти новин, книги, наукові статті, веб-сторінки тощо. Для великих моделей у деяких вертикальних полях необхідно знайти цільові корпуси та набори даних.

Особа, відповідальна за масштабну модель провідної технологічної компанії в Китаї, повідомила Deep AI, що ChatGPT насправді використовує багато непублічних даних. Багато загальнодоступних даних в Інтернеті дуже низької якості, і є поріг для високоякісних даних. Збір і очищення даних стикаються з великими проблемами. **

4 травня технічний директор TAL Tian Mi публічно заявив: «Багато галузей мають бар’єри щодо даних і галузеві ноу-хау, а великі моделі все ще потребують глибокої інтеграції зі знаннями предметної області, а також достатньо даних для підготовки експертів із домену. Модель. "

Як сказав Тянь Мі, велика модель домену повинна бути глибоко інтегрована зі знаннями домену. У сфері композиції ШІ композиційні матеріали є важливими даними для навчальних машин.

Уже в 2019 році компанія Penshen почала цілеспрямовано збирати дані та тренувати власний композиційний корпус, який охоплює відомі цитати, вірші, офіційні документи, мови Інтернету тощо. Вони використовують метод навчання машин для імітації ручних міток для маркування кожного корпусу.

У вертикальному корпусі лише тоді, коли дані позначені тегами, може бути здійснено точне надсилання вмісту на основі відповідності векторів, семантичного аналізу та передбачення поточного створення вмісту користувачем.

Лю Ран сказав Deep AI, що створення моделі вимагає багато перевірених даних, і якщо дані вже впорядковані, це може заощадити багато людської праці. Композиції, організовані Penshen Composition, можуть використовуватися як позначені дані.

Цей процес безперервний і тривалий. Bishen Composition сказав, що за шість років з моменту створення вони накопичили понад 5 мільйонів композиційних матеріалів, а щомісячний обсяг корекції перевищує 30 000. Ці композиційні матеріали вручну переглядаються, перевіряються та надсилаються, маркуються, оцінюються, дані виправляються та, нарешті, накопичуються.

Ці дані можна не тільки представити у вигляді матеріалів на сторінці APP, але й використовувати для навчання алгоритмів у фоновому режимі. Тому, співпрацюючи з іншими компаніями для відкриття інтерфейсів, Penshen Composition додала спеціальну статтю в угоду – заборона «кешування, зберігання, обчислення та навчання як корпусу».

Bishen Composition вважає, що Xueersi «викрав» дані, і припускає, що Xueersi використовує дані для навчання та розробки великої математичної моделі MathGPT і навчальної машини Xueersi «Composition AI Assistant». Але це, здається, важко довести.

Лю Ран вважає, що, як правило, дані про композицію повинні мати деякі обмеження, встановлені заздалегідь, такі як заборона високого паралелізму, шифрування даних, і повинна бути можливість відстежувати місцезнаходження та використання даних. Однак він також вважає, що дані про композицію не такі важливі, як дані про поведінку ключів користувача.

«Ви можете дозволити штучному інтелекту дізнатися, що таке хороша композиція, а потім дозволити йому генерувати відповідно до цих стандартів. Але я не думаю, що насправді потрібно багато даних. Десяток тисяч високоякісних композицій має бути достатньо», — сказав він. .

«Перший випадок крадіжки даних великої моделі ШІ»,

**Ви можете встати? **

Penshen Composition зайняла жорстку позицію та випустила два оголошення поспіль, вимагаючи від Сюерсі вибачень і водночас вимагаючи компенсації в 1 юань. Він навіть хоче позначити цей інцидент як «перший випадок крадіжки даних великої моделі ШІ».

Адвокат Лю Хунлінь, директор Shanghai Mankiw Law Firm, розповів Deep AI, що створений самостійно корпус або бібліотека матеріалів Bishen Composition сама по собі має права інтелектуальної власності. Проте, чи є це твір відповідно до Закону про авторське право, залежить від того, чи відповідає оригінальність відповідним критеріям.

«Якщо Penshen Composition матиме достатньо доказів, щоб довести, що Xueersi зловмисно заволодів їхніми даними, тоді він може ініціювати позов про порушення інтелектуальної власності або недобросовісну конкуренцію», — сказав він.

Крім того, Bishen Composition має угоду про співпрацю з Xueersi.Якщо домовлено про повагу та авторизацію прав інтелектуальної власності, вони також можуть захистити свої права та інтереси через порушення контракту.

Варто зазначити, що багато композицій у Penshen Composition Material Library надіслано користувачами. Pen God Composition стверджує, що щомісяця отримує 300 000 есе. Тому, перш ніж визначити, чи є це порушенням, необхідно уточнити права інтелектуальної власності на ці матеріали.

Відповідно до аналізу Лю Хунліня, це залежить від того, як автор (автор) есе та композиції penshen узгоджують права інтелектуальної власності. Якщо користувач підтверджує права інтелектуальної власності Penshen Composition під час подання, тоді Penshen Composition користуватиметься відповідними правами та інтересами.

Deep AI запитав про угоду про обслуговування користувача Pen God Composition і виявив, що існує таке положення: вміст, опублікований користувачем у Pen God Composition (включаючи, але не обмежуючись коментарями, коментарями, примітками), надає Pen God Composition безкоштовна та безвідклична невиключна ліцензія.

Іншими словами, Penshen Composition володіє правами інтелектуальної власності на бібліотеку матеріалів.

Лю Ран не міг зрозуміти, чому Bishen Composition співпрацює з Xueersi. «На моєму місці я б точно не співпрацював із Xueersi, тому що ми перебуваємо в міцних конкурентних відносинах», — вважає він, «В епоху великих моделей немає шансу просто надати базу даних композицій. "

Згідно з аналізом інсайдерів галузі, Xueersi має трафік, сцени та популярність, особливо з точки зору орієнтованих на користувача інтерфейсних продуктів, Xueersi має більші переваги, ніж Pen God Composition. Однак робота зі збору даних і створення бібліотеки матеріалів у серверній частині потребує багато часу та праці, і важко побачити результати в короткостроковій перспективі. Для Xueersi найзручніше отримати прямий доступ до бібліотеки готових матеріалів. Penshen Composition досягла комерційної монетизації, продавши доступ до бібліотеки матеріалів.

Але для такої компанії-початківця, як Pen God Composition, така співпраця – як троянда з шипами. Тому що китайські гіганти можуть зайти на вашу територію в будь-який момент і навіть скласти пряму конкуренцію на рівні бізнесу. **

ШІ-коригування композиції є дуже важливою функцією Penshen Composition. Ще три роки тому TAL (материнська компанія Xueersi) також запустила «Рішення для корекції китайської та англійської композиції», яке реалізувало інтелектуальну корекцію китайської та англійської композиції за допомогою ШІ.

Тепер модифікація композиції штучного інтелекту є лише верхівкою айсберга величезної матриці продуктів штучного інтелекту TAL. В останньому представленні продукту виправлення композиції китайською мовою є модулем виправлення диктанту китайською та англійською мовами. TAL має більші амбіції, і його щупальця вже поширилися на всі аспекти ШІ+освіти.

Після того, як ChatGPT став популярним серед генеративного ШІ, підприємці в індустрії штучного інтелекту були одночасно схвильовані та стурбовані. Вони раді, що галузь нарешті знову стає гарячою; вони стурбовані тим, що ChatGPT є надто потужним, а багато підприємницьких проектів у вертикальних сферах миттєво втратили свої бар’єри.

Для такої компанії, як Pen God Composition, де знаходяться бар’єри для конкуренції та як протистояти гігантам, є реальними проблемами. Прискорена інволюція індустрії штучного інтелекту та загострення однорідної конкуренції призведе до загострення протистояння між стартапами та гігантами.

Збирання даних може бути лише вершиною айсберга в новому раунді конкуренції.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити