Les résultats sur six ans ont été explorés plus de 2,5 millions de fois en un week-end, comment protéger le droit d'auteur des données dans la nouvelle ère
Le mois dernier, l'établissement d'enseignement bien connu Xueersi a révélé qu'il développait un grand modèle mathématique MathGPT, qui s'adresse aux passionnés de mathématiques mondiaux et aux grandes institutions de recherche scientifique, et marche sur deux jambes pour résoudre les problèmes et donner des conférences. À cette époque, beaucoup de gens pensaient que lorsque le grand modèle mondial de langage que vous chantiez et que je montais sur scène, un grand modèle de version scientifique arrivait enfin. Cependant, plus d'un mois s'est écoulé et le développement de la réalité a pris une autre direction.
Le mardi 13 de cette semaine, l'outil d'écriture d'IA "Pen Shen Composition" a accusé Xueersi d'avoir illégalement accédé et mis en cache les données de son serveur plus de 2,5 millions de fois grâce à la technologie "crawler", afin de développer le nouveau produit de MathGPT "Composition AI Assistant". " ", et réclamé un yuan.
Un, six ans de réalisations et un week-end
Penshen Composition a été créée en décembre 2017. Il s'agit d'une plate-forme d'enseignement de la composition pour K12, c'est-à-dire de l'école primaire à l'école secondaire nationale. Elle est affiliée à Beijing Yiyilianghua Technology Co., Ltd. Bien qu'il y ait eu des voix et des concepts de combinaison de l'IA avec l'IA lors de sa création, les attentes du marché et les performances réelles n'étaient pas aussi chaudes qu'elles le sont maintenant, et l'attention qu'elle a attirée était très limitée. Cependant, même ainsi, Penshen Composition s'appuyait toujours sur sa fonction "d'utiliser la technologie de l'IA pour aider les écrivains à améliorer leur capacité d'écriture".
Selon les données officielles, au cours des six années qui ont suivi son lancement, Penshen Composition a reçu plus de 300 000 soumissions d'essais et plus de 400 000 likes et commentaires chaque mois. Il a accumulé des millions d'essais et d'essais corrigés chaque mois. Il y a aussi plus de 30 000 articles. Après le lancement de ChatGPT à la fin de l'année dernière, Shiji Tianhong, l'un des investisseurs de Penshen Composition, a dit un jour que "Pensus" et la technologie ChatGPT ont la même origine, et les deux utilisent l'algorithme le plus avancé basé sur le transformateur comme technologie sous-jacente . Song Jiawei, le fondateur de Bishen Composition, a également introduit : « Un coup et deux coups comptent actuellement plus de 60 % du personnel technique de R&D dans l'équipe. Avant la création de l'entreprise, ils ont fondé des sociétés de PNL. profondément impliqué dans le domaine de la PNL depuis de nombreuses années et continue de s'accumuler."
** Par conséquent, dans l'ensemble, le modèle algorithmique de PenShen Composition est auto-développé et formé par l'entreprise, et les mégadonnées utilisées par la plateforme sont principalement issues de sa propre accumulation. ** En raison de la technologie accumulée et fructueuse en matière d'écriture, Penshen Composition et Xueersi ont officiellement lancé une coopération il y a trois ans et signé un contrat avec l'application d'outil d'apprentissage de Xueersi "Tipai Pai", qui est principalement responsable de fournir un service de demande de matériel de composition.
Cependant, en tant que partenaire, Bishen Composition a récemment déclaré : Du 13 au 17 avril, les réalisations de notre équipe au cours des six années écoulées depuis notre établissement ont été impitoyablement poignardées par "Xueersi" qui a coopéré pendant de nombreuses années. juste une fois! Xueersi a annoncé MathGPT en mai, et le moment est trop fortuit.
2. L'appel de Pen God et la réponse de Xue Ersi
** A en juger par la déclaration publiée par le Weibo officiel de Penshen Composition, il ne dispose pas d'un mécanisme complet de sécurité des données, et il n'a aucune défense contre son "partenaire" Xueersi, ce qui a conduit à la filiale Santi Yunlian (Xueersi) Si) a profité de la confiance de l'autre. **À cet égard, Bishen Composition a déclaré que ce comportement ignore manifestement les termes du contrat entre les deux parties, et qu'il viole également l'article 32 de la "Loi sur la protection des données" "Toute organisation ou individu collectant des données doit adopter des dispositions légales et appropriées Ne volez pas ou n'obtenez pas de données par d'autres moyens illégaux" a gravement violé les droits de données de Bishenzuowen APP. Immédiatement après, Penshen Composition a trouvé Xueersi pour vérification, et l'autre partie n'a pas tergiversé et a directement admis que leur équipe d'algorithmes explorait les données et les utilisait pour leur propre usage. Par conséquent, Bishen Composition a envoyé une lettre d'avocat, mais cette fois n'a pas reçu de réponse substantielle de Xueersi.
"En tant qu'entreprise beaucoup plus petite que Xueersi, nous n'avons pas d'autre choix que de protéger nos propres droits par des voies légales." Cependant, Bishen Composition a également souligné dans le communiqué que les lois et réglementations actuelles ne "volent pas de données de gros modèles d'IA" précédent de jugement. , il ne peut donc que "faire courageusement ce premier pas". Quant à l'attrait réel de Penshen Composition, ce n'est en fait pas difficile : ** veut seulement que Xueersi paie un yuan en compensation, s'excuse publiquement et supprime les données explorées. **
L'explication de Penshen Composition à cela est la suivante : "Les données sont précieuses, les efforts minutieux sont inestimables, et la réclamation d'un yuan est due au fait que l'équité et la justice ne peuvent être mesurées par l'argent. Nous espérons dire à l'autre partie par le biais d'un litige et dire à la société que ce comportement L'industrie de l'IA Le développement de l'industrie exige que tout le monde travaille ensemble et crée ensemble, plutôt que de convoiter et de plagier les réalisations des autres.
Tout comme le disait la composition du dieu stylo, ce procès ne réclamait qu'un yuan, donc la déclaration n'a pas suscité beaucoup de réponse et d'attention, et les seuls quelques articles condamnaient également Xueersi. Cependant, ce sont des nouvelles négatives après tout, le Weibo officiel de Xueersi a également publié une réponse récemment : "Tout d'abord, MathGPT est un grand modèle auto-développé se concentrant sur le domaine des mathématiques, sans aucune donnée liée à la composition ; deuxièmement, le 'Composition AI Assistant' est actuellement en cours de développement. Le statut n'a pas encore été publié et le service n'utilise aucune donnée de Penshen Composition."
En ce qui concerne le point clé de cet incident, plus de 2,5 millions de fois d'exploration de données, Xueersi a souligné que le contrat stipulait clairement que "le nombre d'appels inclus dans les frais mensuels garantis est de l'ordre de millions", et l'interface appelée "appartient aux deux parties. Le champ normal de coopération stipulé dans le contrat". À la fin de la réponse, Xueersi a souligné qu'il "respecte toujours les droits de propriété intellectuelle et attache une grande importance à la protection de la propriété intellectuelle", et que toutes les actions sont effectuées en stricte conformité avec le contrat, mais "la déclaration publique de Penshen Composition a déjà causé atteinte à la réputation de la marque Xueersi. Nous nous réservons le droit de poursuivre sa responsabilité en matière d'atteinte à la réputation. »
3. Problèmes de droits d'auteur des données
En ce qui concerne les déclarations actuelles des deux parties, il est trop tôt pour tirer des conclusions, mais cela révèle également un aspect très important mais facilement négligé du marché brûlant des modèles à grande échelle au cours des six derniers mois : la propriété du droit d'auteur de données d'entraînement IA. C'est aussi pour cette raison que Reddit, connu comme la "version US de Tieba", a fait beaucoup de bruit sur Internet ces derniers temps.
En raison du riche contenu de chat accumulé au fil des ans sur Reddit, il est devenu le matériel utilisé par Google, Microsoft, OpenAI et d'autres sociétés pour former de grands modèles de langage.ChatGPT et d'autres éloquents et plus tard sont devenus populaires dans le monde entier, Reddit a également contribué . Mais maintenant, avec la popularité de ces produits de type GPT, le fondateur et PDG de Reddit a dit un jour : ** "Les données de corpus de Reddit sont très précieuses, mais nous ne voulons pas fournir gratuitement ces contenus à certaines entreprises géantes."* * Suite à cela Après avoir exprimé sa position, Stack Overflow, un autre site Web de questions-réponses informatique bien connu, a également annoncé qu'il prévoyait de facturer des frais d'accès aux données aux grands développeurs à partir du milieu de cette année. Son PDG a également déclaré : ** "Le développement récent du grand modèle linguistique bénéficie également de la promotion de la communauté, la communauté doit également être rémunérée pour ses contributions."**
Sans aucun doute, dans le processus d'AGI et de grands modèles devenant de plus en plus intelligents de la minorité au public, des coulisses au devant de la scène, des données de formation massives sont indispensables. Cependant, à en juger par les performances actuelles de diverses entreprises, même OpenAI, le premier frère actuel, n'a pas de bonne solution au problème du droit d'auteur des données de formation. La raison n'est pas difficile à comprendre. La première version de GPT n'a guère attiré l'attention du monde extérieur. À cette époque, les gens étaient sceptiques quant à sa commercialisation. Naturellement, personne ne se souciait des sources de données et des questions de droit d'auteur. Lorsque ChatGPT sera lancé, une énorme valeur d'utilisation, une valeur commerciale et une montée sociale viendront, et le système juridique traditionnel, le modèle économique, les idées de développement, etc. deviendront immédiatement des problèmes pour vous.
Indépendamment du fait que ce soit vrai ou non et quel est le résultat final, cette fois, Bishen Composition et Xueersi ont organisé conjointement le premier drame à grande échelle sur le droit d'auteur des données modèles en Chine, et ont également inspiré l'industrie nationale des modèles à grande échelle et entreprises. Bien qu'il ne s'agisse que d'un différend d'un yuan, il est d'une grande importance. Peut-être que lorsque des dizaines de milliers de drames sortiront à l'avenir, si nous regardons la déclaration d'aujourd'hui de Penshen Composition et Xueersi, nous constaterons que ce dollar est vraiment prémonitoire.
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Les résultats sur six ans ont été explorés plus de 2,5 millions de fois en un week-end, comment protéger le droit d'auteur des données dans la nouvelle ère
Le mois dernier, l'établissement d'enseignement bien connu Xueersi a révélé qu'il développait un grand modèle mathématique MathGPT, qui s'adresse aux passionnés de mathématiques mondiaux et aux grandes institutions de recherche scientifique, et marche sur deux jambes pour résoudre les problèmes et donner des conférences. À cette époque, beaucoup de gens pensaient que lorsque le grand modèle mondial de langage que vous chantiez et que je montais sur scène, un grand modèle de version scientifique arrivait enfin. Cependant, plus d'un mois s'est écoulé et le développement de la réalité a pris une autre direction.
Le mardi 13 de cette semaine, l'outil d'écriture d'IA "Pen Shen Composition" a accusé Xueersi d'avoir illégalement accédé et mis en cache les données de son serveur plus de 2,5 millions de fois grâce à la technologie "crawler", afin de développer le nouveau produit de MathGPT "Composition AI Assistant". " ", et réclamé un yuan.
Un, six ans de réalisations et un week-end
Penshen Composition a été créée en décembre 2017. Il s'agit d'une plate-forme d'enseignement de la composition pour K12, c'est-à-dire de l'école primaire à l'école secondaire nationale. Elle est affiliée à Beijing Yiyilianghua Technology Co., Ltd. Bien qu'il y ait eu des voix et des concepts de combinaison de l'IA avec l'IA lors de sa création, les attentes du marché et les performances réelles n'étaient pas aussi chaudes qu'elles le sont maintenant, et l'attention qu'elle a attirée était très limitée. Cependant, même ainsi, Penshen Composition s'appuyait toujours sur sa fonction "d'utiliser la technologie de l'IA pour aider les écrivains à améliorer leur capacité d'écriture".
Selon les données officielles, au cours des six années qui ont suivi son lancement, Penshen Composition a reçu plus de 300 000 soumissions d'essais et plus de 400 000 likes et commentaires chaque mois. Il a accumulé des millions d'essais et d'essais corrigés chaque mois. Il y a aussi plus de 30 000 articles. Après le lancement de ChatGPT à la fin de l'année dernière, Shiji Tianhong, l'un des investisseurs de Penshen Composition, a dit un jour que "Pensus" et la technologie ChatGPT ont la même origine, et les deux utilisent l'algorithme le plus avancé basé sur le transformateur comme technologie sous-jacente . Song Jiawei, le fondateur de Bishen Composition, a également introduit : « Un coup et deux coups comptent actuellement plus de 60 % du personnel technique de R&D dans l'équipe. Avant la création de l'entreprise, ils ont fondé des sociétés de PNL. profondément impliqué dans le domaine de la PNL depuis de nombreuses années et continue de s'accumuler."
** Par conséquent, dans l'ensemble, le modèle algorithmique de PenShen Composition est auto-développé et formé par l'entreprise, et les mégadonnées utilisées par la plateforme sont principalement issues de sa propre accumulation. ** En raison de la technologie accumulée et fructueuse en matière d'écriture, Penshen Composition et Xueersi ont officiellement lancé une coopération il y a trois ans et signé un contrat avec l'application d'outil d'apprentissage de Xueersi "Tipai Pai", qui est principalement responsable de fournir un service de demande de matériel de composition.
Cependant, en tant que partenaire, Bishen Composition a récemment déclaré : Du 13 au 17 avril, les réalisations de notre équipe au cours des six années écoulées depuis notre établissement ont été impitoyablement poignardées par "Xueersi" qui a coopéré pendant de nombreuses années. juste une fois! Xueersi a annoncé MathGPT en mai, et le moment est trop fortuit.
2. L'appel de Pen God et la réponse de Xue Ersi
** A en juger par la déclaration publiée par le Weibo officiel de Penshen Composition, il ne dispose pas d'un mécanisme complet de sécurité des données, et il n'a aucune défense contre son "partenaire" Xueersi, ce qui a conduit à la filiale Santi Yunlian (Xueersi) Si) a profité de la confiance de l'autre. **À cet égard, Bishen Composition a déclaré que ce comportement ignore manifestement les termes du contrat entre les deux parties, et qu'il viole également l'article 32 de la "Loi sur la protection des données" "Toute organisation ou individu collectant des données doit adopter des dispositions légales et appropriées Ne volez pas ou n'obtenez pas de données par d'autres moyens illégaux" a gravement violé les droits de données de Bishenzuowen APP. Immédiatement après, Penshen Composition a trouvé Xueersi pour vérification, et l'autre partie n'a pas tergiversé et a directement admis que leur équipe d'algorithmes explorait les données et les utilisait pour leur propre usage. Par conséquent, Bishen Composition a envoyé une lettre d'avocat, mais cette fois n'a pas reçu de réponse substantielle de Xueersi.
"En tant qu'entreprise beaucoup plus petite que Xueersi, nous n'avons pas d'autre choix que de protéger nos propres droits par des voies légales." Cependant, Bishen Composition a également souligné dans le communiqué que les lois et réglementations actuelles ne "volent pas de données de gros modèles d'IA" précédent de jugement. , il ne peut donc que "faire courageusement ce premier pas". Quant à l'attrait réel de Penshen Composition, ce n'est en fait pas difficile : ** veut seulement que Xueersi paie un yuan en compensation, s'excuse publiquement et supprime les données explorées. **
L'explication de Penshen Composition à cela est la suivante : "Les données sont précieuses, les efforts minutieux sont inestimables, et la réclamation d'un yuan est due au fait que l'équité et la justice ne peuvent être mesurées par l'argent. Nous espérons dire à l'autre partie par le biais d'un litige et dire à la société que ce comportement L'industrie de l'IA Le développement de l'industrie exige que tout le monde travaille ensemble et crée ensemble, plutôt que de convoiter et de plagier les réalisations des autres.
En ce qui concerne le point clé de cet incident, plus de 2,5 millions de fois d'exploration de données, Xueersi a souligné que le contrat stipulait clairement que "le nombre d'appels inclus dans les frais mensuels garantis est de l'ordre de millions", et l'interface appelée "appartient aux deux parties. Le champ normal de coopération stipulé dans le contrat". À la fin de la réponse, Xueersi a souligné qu'il "respecte toujours les droits de propriété intellectuelle et attache une grande importance à la protection de la propriété intellectuelle", et que toutes les actions sont effectuées en stricte conformité avec le contrat, mais "la déclaration publique de Penshen Composition a déjà causé atteinte à la réputation de la marque Xueersi. Nous nous réservons le droit de poursuivre sa responsabilité en matière d'atteinte à la réputation. »
3. Problèmes de droits d'auteur des données
En ce qui concerne les déclarations actuelles des deux parties, il est trop tôt pour tirer des conclusions, mais cela révèle également un aspect très important mais facilement négligé du marché brûlant des modèles à grande échelle au cours des six derniers mois : la propriété du droit d'auteur de données d'entraînement IA. C'est aussi pour cette raison que Reddit, connu comme la "version US de Tieba", a fait beaucoup de bruit sur Internet ces derniers temps.
En raison du riche contenu de chat accumulé au fil des ans sur Reddit, il est devenu le matériel utilisé par Google, Microsoft, OpenAI et d'autres sociétés pour former de grands modèles de langage.ChatGPT et d'autres éloquents et plus tard sont devenus populaires dans le monde entier, Reddit a également contribué . Mais maintenant, avec la popularité de ces produits de type GPT, le fondateur et PDG de Reddit a dit un jour : ** "Les données de corpus de Reddit sont très précieuses, mais nous ne voulons pas fournir gratuitement ces contenus à certaines entreprises géantes."* * Suite à cela Après avoir exprimé sa position, Stack Overflow, un autre site Web de questions-réponses informatique bien connu, a également annoncé qu'il prévoyait de facturer des frais d'accès aux données aux grands développeurs à partir du milieu de cette année. Son PDG a également déclaré : ** "Le développement récent du grand modèle linguistique bénéficie également de la promotion de la communauté, la communauté doit également être rémunérée pour ses contributions."**
Sans aucun doute, dans le processus d'AGI et de grands modèles devenant de plus en plus intelligents de la minorité au public, des coulisses au devant de la scène, des données de formation massives sont indispensables. Cependant, à en juger par les performances actuelles de diverses entreprises, même OpenAI, le premier frère actuel, n'a pas de bonne solution au problème du droit d'auteur des données de formation. La raison n'est pas difficile à comprendre. La première version de GPT n'a guère attiré l'attention du monde extérieur. À cette époque, les gens étaient sceptiques quant à sa commercialisation. Naturellement, personne ne se souciait des sources de données et des questions de droit d'auteur. Lorsque ChatGPT sera lancé, une énorme valeur d'utilisation, une valeur commerciale et une montée sociale viendront, et le système juridique traditionnel, le modèle économique, les idées de développement, etc. deviendront immédiatement des problèmes pour vous.