"Voler" des données, le côté obscur des grands modèles d'IA

2023-06-19 05:20:03

Source primaire:

Source de l'image : générée par l'IA illimitée

Une start-up appelée "un coup deux coups" a publiquement dénoncé l'ancien dirigeant de l'éducation et de la formation "Xueersi", affirmant qu'il "volait" les données qu'il avait travaillé si dur pour sauver en "ramassant la bibliothèque".

L'origine de l'histoire est qu'à la mi-avril de cette année, "Pen Shen Composition" (un produit de la Strike Two Strike Company) a constaté qu'il y avait un grand nombre d'accès anormaux réguliers à l'interface du serveur, entraînant une augmentation rapide dans la charge sur le serveur.

Le nombre de visites dépasse largement la moyenne quotidienne. Bishen Composition a révélé à Deep AI que les visites quotidiennes habituelles sont d'environ quelques centaines ou quelques milliers, mais au cours de ces quelques jours, elles sont passées à plus de 500 000 par jour. En une semaine, leurs données ont été explorées 2,58 millions de fois.

La base de données des appels publiée par Penshen Composition

En consultant les logs du serveur, Pen God Composition a découvert qu'une seule IP crawlait leur base de données à haute densité grâce à la technologie "crawler". Les mots de recherche pour chaque visite de cette IP sont liés à la composition. Le système renverra 30 compositions par page. Chaque visite utilise les mots de recherche pour revenir de la première page page par page, en collectant essentiellement le même sujet dans la bibliothèque. Toutes les compositions ont été capturées.

Selon les initiés de l'industrie, dans des circonstances normales, les utilisateurs ordinaires ne le feront pas. **Ce type d'accès de type recherche à la base de données est également connu sous le nom de "grattage de la bibliothèque". **

Penshen Composition pense que le manipulateur des coulisses de "Paku" est son partenaire Xueersi.

Peu de temps après l'incident de "Parking Library", Penshen Composition a découvert que Xueersi développait un grand modèle mathématique MathGPT, et a déclaré qu'il lancerait un "assistant IA" dans un avenir proche, dont l'un est la composition.

Il n'y a pas de conclusion définitive sur l'existence d'un lien entre les deux incidents de Penshen Composition étant "récupéré" et Hexueersi développant "l'assistant Composition AI".

Mais Bishen Composition estime que ses droits ont été bafoués. Il a envoyé une lettre d'avocat à l'autre partie et a rendu l'affaire publique, essayant d'obtenir une explication. Xueersi a donné une réponse publique, affirmant que l'utilisation du contenu matériel de Penshen était conforme aux exigences du contrat, et que son modèle MathGPT auto-développé et son "assistant d'IA de composition" n'utilisaient aucune donnée de la composition de Penshen.

Dans cet incident, ce n'est pas seulement le matériau de composition qui mérite d'être discuté. Que signifient les données pour les grands modèles ?

** Partenaire devenu barbare à la porte ? **

Les deux parties insistent sur leurs propres opinions

Introduisons d'abord brièvement la composition du dieu stylo.

Cette société a été créée en 2017. Le produit "Pen God" est un logiciel d'écriture assistée par intelligence artificielle, qui peut être considéré comme un produit d'IA+education. Au début, "Pen God" était orienté vers les plates-formes de création de contenu et les fabricants d'outils connexes, puis il s'est enfoncé profondément dans le domaine vertical, en utilisant l'IA pour apprendre aux étudiants à rédiger des essais, il y avait donc "Pen God Composition".

Vous pouvez simplement comprendre: c'est dans l'industrie de l'éducation, il s'adresse au groupe d'étudiants, il utilise la technologie de l'intelligence artificielle et il résout la scène de la rédaction d'essais.

L'écriture par IA a beaucoup en commun avec ChatGPT, qui est populaire aujourd'hui. Ils impliquent tous des technologies telles que le traitement du langage naturel, l'analyse et la prédiction sémantiques et l'apprentissage automatique. Song Jiawei, le fondateur de Penshen Composition, a été architecte système senior pour Sony et CTO de Singulato.

Il y a cinq ans déjà, Song Jiawei a déclaré qu'il réfléchissait à la manière d'appliquer aux applications des technologies de modèles de langage pré-formés telles que bert ou GPT-2. À cette époque, GPT n'était pas hors du cercle, et il n'était pas aussi connu qu'il l'est aujourd'hui.

Après avoir commencé à faire de la composition d'IA, Penshen Composition est officiellement entré dans la voie de l'éducation, plongeant dans la même rivière que Xueersi, le leader de l'éducation et de la formation.

Selon l'introduction de Penshen, en décembre 2020, Penshen Composition et Xueersi ont conclu une coopération. ** Penshen Composition fournit à Xueersi une "interface de service de matériel d'essai de modèle de composition Benshen", qui est utilisée dans les services liés à Xueersi, et les frais sont réglés en fonction du nombre d'appels. Pour cette raison, Penshen Composition a ouvert une interface de service pour Xueersi. **

En d'autres termes, Xueersi peut utiliser les matériaux de composition de la base de données Penshen Composition et les payer.

Les matériaux de composition sont un atout essentiel dans cette transaction et la pierre angulaire du modèle commercial de Penshen Composition. En fait, la composition de Pen God a commencé du point de vue matériel au plus tôt. Il comportait à l'époque la fonction "recherche de matériel en un clic". Les utilisateurs peuvent rechercher des mots clés et le système peut automatiquement faire correspondre les matériaux. Les ressources vont des classiques de la poésie ancienne aux documents officiels en passant par les articles Web modernes. Pendant le processus d'écriture, le système peut également pousser du matériel en temps réel.

Ces documents ne proviennent pas d'Internet, mais de la propre base de données de Penshen. Grâce à l'identification intelligente, à la traduction et à la mise en correspondance de la technologie de l'IA, Penshen peut renvoyer des matériaux appropriés au comportement de recherche des utilisateurs.

Lorsque la quantité de ces matériaux de composition est suffisamment importante, que la qualité est suffisamment élevée et que la correspondance est suffisamment précise, elle aura une certaine valeur commerciale et pourra même être vendue à l'extérieur. C'est la raison de la coopération avec Xueersi.

Le problème est que ces matériels risquent d'être "volés", surtout si certaines interfaces sont ouvertes.

Selon l'introduction de Deep AI dans la composition penshen, ils ont limité la portée de la coopération avec Xueersi, "Nous ouvrons l'interface pour leur permettre d'appeler nos données et de les afficher dans leur propre APP, mais le contrat n'inclut pas les données de stockage. Ou des autorisations pour les algorithmes d'IA. Les données ne doivent être disponibles que pour leurs utilisateurs, et non stockées sur leurs machines. »

Cela équivaut à ** Lorsqu'un utilisateur lance une recherche du côté produit de Xueersi, le modèle de composition appelé provient de Penshen Composition et Xueersi ne peut pas le stocker par lui-même. **

L'appel anormal à la mi-avril a fait penser à Pen God Composition que cela dépassait le cadre d'une coopération commerciale normale. "Leurs actions ont déclenché nos mécanismes de défense, ce qui nous a amenés à le découvrir."

Bishen Zuowen a déclaré avoir vérifié les journaux d'accès en arrière-plan et découvert que l'accès illégal avait été initié par une seule adresse IP via la technologie "crawler". "Nous avons déjà cette adresse IP."

L'adresse IP publiée par Penshen Composition (Part)

Liu Ran, PDG d'une start-up nationale d'intelligence artificielle, a analysé Deep AI. Cette méthode d'énumération exhaustive des mots-clés doit permettre d'obtenir les données de la bibliothèque. C'est un comportement très évident.

Penshen Composition a révélé à Deep AI qu'après l'incident, ils ont vérifié auprès du personnel d'exploitation de Xueersi, et l'autre partie a directement admis que l'équipe d'algorithmes de Xueersi explorait les données et les utilisait pour leur propre usage. Cependant, pour cette déclaration, Deep AI n'a pas encore été confirmé par Xueersi.

L'ancien partenaire s'est soudainement transformé en barbare à la porte, ce qui a mis Bishen Composition très en colère et a envoyé des lettres d'avocat à plusieurs reprises.

Xueersi a déclaré dans sa réponse publique du 13 juin que son appel à l'interface de composition Penshen ne dépassait pas la portée du contrat entre les deux parties, et que l'utilisation du contenu matériel Penshen était conforme aux exigences du contrat et n'était utilisée pour rien. autre que le contrat, à quelque fin que ce soit. Xueersi a spécifiquement souligné que son grand modèle MathGPT auto-développé et son "assistant d'IA de composition" n'utilisaient aucune donnée de Penshen Composition.

Les deux parties insistent sur leurs propres opinions, et il n'y a pas encore de conclusion. Selon l'article de Pen God, cette affaire pourrait devenir "le premier cas de vol de données de modèles d'IA à grande échelle".

Une question qui mérite d'être explorée est que signifient les données pour les grands modèles ?

** D'où viennent les données est un gros problème **

La puissance de calcul, les algorithmes et les données sont les trois éléments essentiels de l'intelligence artificielle pour l'apprentissage automatique.

Afin d'améliorer la puissance de calcul, de nombreuses entreprises technologiques dépensent beaucoup d'argent pour s'emparer du GPU de Nvidia. Du côté de l'algorithme, certaines grandes entreprises nationales et étrangères ont rendu l'algorithme open source, ce qui réduit considérablement le seuil de développement de modèles.

Du côté des données, des barrières ont toujours existé. Où trouver des données de haute qualité est une question clé.

Les grands modèles d'IA générative doivent utiliser une grande quantité de données diverses pour la formation afin d'améliorer les capacités de généralisation et de génération du modèle. Différents modèles peuvent utiliser différentes sources de données. Les grands modèles généraux tels que ChatGPT utilisent beaucoup de données publiques, telles que divers sites Web d'actualités, livres, articles scientifiques, pages Web, etc. Pour les grands modèles dans certains domaines verticaux, il est nécessaire de trouver des corpus et des jeux de données ciblés.

Le responsable du modèle à grande échelle d'une entreprise technologique nationale de premier plan a déclaré à Deep AI que ChatGPT utilise en fait beaucoup de données non publiques, et que de nombreuses données publiques sur Internet sont de très mauvaise qualité, et il y a un seuil pour des données de haute qualité. L'acquisition et le nettoyage des données sont confrontés à de grands défis. **

TAL CTO Tian Mi a déclaré publiquement le 4 mai : "De nombreux domaines ont des barrières de données et un savoir-faire industriel, et les grands modèles doivent encore être profondément intégrés aux connaissances du domaine, ainsi que suffisamment de données de domaine pour former des experts du domaine. Modèle. "

Comme l'a dit Tian Mi, le grand modèle de domaine devrait être profondément intégré à la connaissance du domaine. Dans le domaine de la composition de l'IA, les matériaux de composition sont des données importantes pour les machines d'entraînement.

Dès 2019, Penshen Company a commencé à collecter des données à dessein et à former son propre corpus de composition, couvrant des citations célèbres, des poèmes, des documents officiels, des langues Internet, etc. Ils utilisent la méthode des machines d'entraînement pour simuler des étiquettes manuelles pour étiqueter chaque corpus.

Dans le corpus vertical, ce n'est que lorsque les données sont étiquetées qu'une poussée de contenu précise peut être effectuée sur la base de la correspondance vectorielle, de l'analyse sémantique et de la prédiction de la création de contenu actuelle de l'utilisateur.

Liu Ran a déclaré à Deep AI que la construction d'un modèle nécessite beaucoup de données vérifiées, et si les données ont été triées, cela peut économiser beaucoup de travail humain. Les compositions organisées par Penshen Composition peuvent être utilisées comme données marquées.

Ce processus est continu et long. Bishen Composition a déclaré qu'au cours des six années écoulées depuis leur création, ils ont accumulé plus de 5 millions de matériaux de composition au total et que le volume de correction mensuel dépasse 30 000. Ces matériaux de composition sont manuellement examinés, filtrés et soumis, étiquetés, notés et corrigés des données, et finalement accumulés.

Ces données peuvent non seulement être présentées sous forme de matériel sur la page APP, mais également être utilisées pour former des algorithmes en arrière-plan. Par conséquent, lors de la coopération avec d'autres sociétés pour ouvrir des interfaces, Penshen Composition a ajouté un article spécial dans l'accord - pas de "cache, stockage, calcul et formation en tant que corpus".

Bishen Composition pense que Xueersi a "volé" les données et suppose que Xueersi utilise les données pour la formation et le développement du grand modèle mathématique MathGPT et de la machine d'apprentissage Xueersi "Composition AI Assistant". Mais cela semble difficile à prouver.

Liu Ran pense que normalement, les données de composition devraient avoir certaines restrictions définies à l'avance, telles que ne pas accepter une forte simultanéité, chiffrer les données et il devrait être possible de suivre la localisation et les utilisations des données. Cependant, il pense également que les données de composition ne sont pas aussi critiques que les données de comportement des clés de l'utilisateur.

"Vous pouvez laisser l'IA apprendre ce qu'est une bonne composition, puis la laisser générer selon ces normes. Mais je ne pense pas que beaucoup de données soient réellement nécessaires. Des dizaines de milliers de compositions de haute qualité devraient suffire", a-t-il déclaré. .

** "Le premier cas de vol de données de grands modèles d'IA", **

**Peux-tu te lever? **

Penshen Composition a adopté une attitude dure et a publié deux annonces successives, exigeant des excuses de Xueersi et réclamant en même temps une compensation de 1 yuan. Il veut même qualifier cet incident de "premier cas de vol de données de grands modèles d'IA".

L'avocat Liu Honglin, directeur du cabinet d'avocats Shanghai Mankiw, a déclaré à Deep AI que le corpus auto-construit ou la bibliothèque de matériaux de Bishen Composition lui-même avait des droits de propriété intellectuelle. Toutefois, pour qu'il s'agisse d'une œuvre au sens de la Loi sur le droit d'auteur, il faut que l'originalité réponde ou non aux critères pertinents.

"** Si Penshen Composition a suffisamment de preuves pour prouver que Xueersi a saisi ses données de manière malveillante, alors il peut engager une action en contrefaçon de propriété intellectuelle ou en concurrence déloyale **", a-t-il déclaré.

En outre, Bishen Composition a un accord de coopération avec Xueersi.Si le respect et l'autorisation des droits de propriété intellectuelle sont convenus, ils peuvent également protéger leurs droits et intérêts par des violations de contrat.

Il convient de noter que de nombreuses compositions de la Penshen Composition Material Library sont soumises par des utilisateurs. Pen God Composition affirme recevoir 300 000 soumissions d'essais chaque mois. Par conséquent, avant de déterminer s'il s'agit d'une contrefaçon, il est nécessaire de clarifier les droits de propriété intellectuelle de ces matériaux.

Selon l'analyse de Liu Honglin, cela dépend de la manière dont le créateur (contributeur) de l'essai et la composition penshen s'accordent sur les droits de propriété intellectuelle. Si l'utilisateur autorise les droits de propriété intellectuelle de Penshen Composition au moment de la soumission, alors Penshen Composition jouira des droits et intérêts correspondants.

Deep AI s'est enquis de l'accord de service utilisateur de Pen God Composition et a constaté qu'il existait une telle clause : le contenu publié par l'utilisateur dans Pen God Composition (y compris, mais sans s'y limiter, les commentaires, commentaires, notes), accorde à Pen God Composition un licence non exclusive gratuite et irrévocable.

En d'autres termes, Penshen Composition détient les droits de propriété intellectuelle sur la bibliothèque de matériaux.

Ce que Liu Ran n'a pas pu comprendre, c'est pourquoi Bishen Composition a coopéré avec Xueersi. "Si c'était moi, je ne coopérerais certainement pas avec Xueersi, car nous sommes dans une relation concurrentielle forte." Il estime : "À l'ère des grands modèles, il n'y a aucune chance de simplement fournir une base de données de composition. "

Selon l'analyse d'initiés de l'industrie, Xueersi a du trafic, des scènes et de la popularité, en particulier en termes de produits frontaux orientés utilisateur, Xueersi a de plus grands avantages que Pen God Composition. Cependant, le travail de collecte de données et de construction d'une bibliothèque de matériaux en arrière-plan prend du temps et est laborieux, et il est difficile de voir des résultats à court terme. Pour Xueersi, il est plus pratique d'accéder directement à la bibliothèque de matériaux prêts à l'emploi. Penshen Composition a réalisé une monétisation commerciale en vendant l'accès à la bibliothèque de matériaux.

Mais pour une start-up comme Pen God Composition, une telle coopération est comme une rose avec des épines. Parce que les géants chinois peuvent entrer sur votre territoire à tout moment, et même former une concurrence directe au niveau commercial. **

La composition de correction de l'IA est une fonction très importante de Penshen Composition. Il y a trois ans déjà, TAL (la société mère de Xueersi) a également lancé la "Solution de correction de la composition chinoise et anglaise", qui a réalisé une correction intelligente de la composition chinoise et anglaise grâce à l'IA.

Désormais, la modification de la composition de l'IA n'est que la pointe de l'iceberg de l'énorme matrice de produits d'IA de TAL. Dans sa dernière introduction de produit, la correction de composition chinoise est un module de correction de dictée chinoise et anglaise. TAL a de plus grandes ambitions et ses tentacules se sont déjà étendues à tous les aspects de l'IA+éducation.

Après que ChatGPT soit devenu populaire avec l'IA générative, les entrepreneurs de l'industrie de l'intelligence artificielle étaient à la fois excités et anxieux. Ils sont ravis que l'industrie redevienne enfin chaude ; ils craignent que ChatGPT soit trop puissant, et de nombreux projets entrepreneuriaux dans des domaines verticaux ont perdu leurs barrières du jour au lendemain.

Pour une entreprise comme Pen God Composition, où sont les obstacles à la concurrence et comment affronter les géants sont des problèmes très réels. L'involution accélérée de l'industrie de l'intelligence artificielle et l'intensification d'une concurrence homogène vont intensifier la confrontation entre startups et géants.

La saisie de données n'est peut-être que la pointe de l'iceberg dans un nouveau cycle de compétition.

Voir l'original

Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#BTC#
222k publications
#PI#
186k publications
#ETH#
141k publications
4#GateioInto11#
79k publications
5#ContentStar#
66k publications
6#GT#
62k publications
7#BOME#
60k publications
8#DOGE#
57k publications
9#MAGA#
52k publications
10#SLERF#
51k publications

Épingler