Los resultados de seis años se rastrearon más de 2,5 millones de veces en un fin de semana, cómo proteger los derechos de autor de los datos en la nueva era

2023-06-16 01:41:40

El mes pasado, la reconocida institución educativa Xueersi reveló que está desarrollando un gran modelo matemático MathGPT, que está dirigido a los entusiastas de las matemáticas globales y las principales instituciones de investigación científica, y camina sobre dos piernas para resolver problemas y dar conferencias. En ese momento, muchas personas sintieron que cuando el modelo de lenguaje grande global que cantaste y yo subimos al escenario, finalmente venía un gran modelo de versión científica. Sin embargo, ha pasado más de un mes y el desarrollo de la realidad ha ido en otra dirección.

El martes 13 de esta semana, la herramienta de escritura de IA "Pen Shen Composition" acusó a Xueersi de acceder ilegalmente y almacenar en caché los datos de su servidor más de 2,5 millones de veces a través de la tecnología "crawler", para desarrollar el nuevo producto de MathGPT "Composition AI Assistant". " ", y reclamó un yuan.

Uno, seis años de logros y un fin de semana

Penshen Composition se estableció en diciembre de 2017. Es una plataforma educativa de composición para K12, es decir, desde la escuela primaria nacional hasta la secundaria. Está afiliada a Beijing Yiyilianghua Technology Co., Ltd. Aunque hubo voces y conceptos de combinar IA con IA cuando se estableció, las expectativas del mercado y el rendimiento real no eran tan atractivos como ahora, y la atención que atrajo fue muy limitada. Sin embargo, aun así, Penshen Composition todavía se basó en su característica de "usar la tecnología de inteligencia artificial para ayudar a los escritores a mejorar su capacidad de escritura". Completó la ronda de financiación multimillonaria de Buhuo Venture Capital en julio.

Según datos oficiales, en los seis años desde su lanzamiento, Penshen Composición ha recibido más de 300 000 ensayos y más de 400 000 me gusta y comentarios cada mes. Ha acumulado millones de materiales de ensayo y ensayos corregidos cada mes. También hay más de 30.000 artículos. Después del lanzamiento de ChatGPT a fines del año pasado, Shiji Tianhong, uno de los inversores de Penshen Composition, dijo una vez que "Pensus" y la tecnología ChatGPT tienen el mismo origen, y ambos usan el algoritmo más avanzado basado en transformador. como la tecnología subyacente. Song Jiawei, el fundador de Bishen Composición, también presentó: "Actualmente, más del 60 % del personal técnico de I+D en el equipo está integrado por un trazo y dos trazos. Antes del establecimiento de la empresa, fundaron empresas de PNL. Se han profundamente involucrado en el campo de la PNL durante muchos años y continúa acumulando".

** Por lo tanto, en general, el modelo de algoritmo de PenShen Composición es desarrollado y entrenado por la empresa, y los grandes datos utilizados por la plataforma se derivan principalmente de su propia acumulación. **Debido a la tecnología acumulada y fructífera en escritura, Penshen Composición y Xueersi lanzaron formalmente una cooperación hace tres años y firmaron un contrato con la aplicación de herramienta de aprendizaje de Xueersi "Tipai Pai", que es principalmente responsable de proporcionar el servicio de consulta de material de Composición.

Sin embargo, como socio, Bishen Composición declaró recientemente: Del 13 al 17 de abril, los logros de nuestro equipo en los seis años desde nuestro establecimiento fueron implacablemente apuñalados por "Xueersi" que han cooperado durante muchos años. Rastrearon más de 2,5 millones de veces en ¡solo una vez! Xueersi anunció MathGPT en mayo y el momento es demasiado coincidente.

2. Apelación de Pen God y respuesta de Xue Ersi

** A juzgar por la declaración emitida por el Weibo oficial de Penshen Composición, no tiene un mecanismo de seguridad de datos completo, y no tiene defensa contra su "socio" Xueersi, lo que llevó a Santi Yunlian (Xueersi) Si subsidiaria) se aprovechó de la confianza del otro. **En este sentido, Bishen Composición afirmó que este comportamiento obviamente ignora los términos del contrato entre las dos partes, y también viola el Artículo 32 de la "Ley de Protección de Datos" "Cualquier organización o individuo que recopile datos deberá adoptar las medidas legales y adecuadas métodos No robar u obtener datos de otras formas ilegales "ha violado gravemente los derechos de datos de la aplicación Bishenzuowen. Inmediatamente después, Penshen Composition encontró a Xueersi para su verificación, y la otra parte no pospuso las cosas y admitió directamente que su equipo de algoritmos estaba rastreando los datos y usándolos para su propio uso. Por lo tanto, Bishen Composición envió una carta de abogado, pero esta vez no recibió una respuesta sustantiva de Xueersi.

"Como una empresa mucho más pequeña que Xueersi, no tenemos más remedio que proteger nuestros propios derechos a través de los canales legales". Sin embargo, Bishen Composition también señaló en la declaración que las leyes y regulaciones actuales no constituyen un precedente de juicio sobre el "robo de datos de modelo grande de IA". , por lo que sólo puede "dar este primer paso con valentía". En cuanto al atractivo real de Penshen Composición, en realidad no es difícil: ** solo quiere que Xueersi pague un yuan en compensación, se disculpe públicamente y elimine los datos rastreados. **

La explicación de Penshen Composition para esto es: "Los datos son valiosos, los esfuerzos minuciosos no tienen precio, y el reclamo de un yuan se debe a que la equidad y la justicia no se pueden medir con dinero. Esperamos decirle a la otra parte a través de un litigio y decirle a la sociedad que este comportamiento tendrá que pagar un precio. Industria de IA El desarrollo de la industria requiere que todos trabajen juntos y creen juntos, en lugar de codiciar y plagiar los logros de los demás".

Tal como decía la composición del dios de la pluma, esta demanda solo reclamó un yuan, por lo que la declaración no despertó mucha respuesta ni atención, y los pocos artículos también condenaban a Xueersi. Sin embargo, son noticias negativas después de todo, el Weibo oficial de Xueersi también publicó una respuesta recientemente: "En primer lugar, MathGPT es un gran modelo de desarrollo propio que se centra en el campo de las matemáticas, sin ningún dato relacionado con la composición; en segundo lugar, la 'Composición AI Assistant' está actualmente en desarrollo. El estado aún no se ha publicado y el servicio no utiliza ningún dato de Penshen Composition".

En cuanto al punto clave de este incidente, más de 2,5 millones de veces de rastreo de datos, Xueersi señaló que el contrato establecía claramente que "la cantidad de llamadas incluidas en la tarifa mensual garantizada es del orden de millones", y la interfaz llamada "pertenece a ambas partes. El ámbito normal de cooperación estipulado en el contrato". Al final de la respuesta, Xueersi enfatizó que "siempre respeta los derechos de propiedad intelectual y otorga gran importancia a la protección de la propiedad intelectual", y todas las acciones se realizan en estricta conformidad con el contrato, pero "la declaración pública de Penshen Composición ya ha causado daño a la reputación de la marca Xueersi. Nos reservamos el derecho de perseguir su responsabilidad de infracción de reputación ".

3. Problemas de derechos de autor de datos

En lo que respecta a las declaraciones actuales de las dos partes, es demasiado pronto para sacar conclusiones, pero esto también revela un aspecto muy importante pero fácilmente pasado por alto del mercado de modelos a gran escala en los últimos seis meses: la propiedad de los derechos de autor. de datos de entrenamiento de IA. También es por esta razón que Reddit, conocida como la "versión estadounidense de Tieba", ha hecho mucho ruido en Internet recientemente.

Debido al rico contenido de chat acumulado a lo largo de los años en Reddit, se ha convertido en el material utilizado por Google, Microsoft, OpenAI y otras compañías para entrenar grandes modelos de lenguaje. ChatGPT y otros elocuentes y luego se hicieron populares en todo el mundo, Reddit también contribuyó . Pero ahora, con la popularidad de estos productos similares a GPT, el fundador y director ejecutivo de Reddit dijo una vez: ** "Los datos del corpus de Reddit son muy valiosos, pero no queremos proporcionar este contenido a algunas empresas gigantes de forma gratuita".* Siguiendo esto Después de expresar su posición, Stack Overflow, otro conocido sitio web de preguntas y respuestas de TI, también anunció que planea cobrar tarifas de acceso a los datos de los grandes desarrolladores a partir de mediados de este año.Su CEO también dijo: ** "El desarrollo reciente del modelo de lenguaje grande también se beneficia de la promoción de la comunidad, la comunidad también debe ser compensada por sus contribuciones".*

Sin duda, en el proceso de AGI y los modelos grandes que se vuelven cada vez más inteligentes de la minoría al público, desde detrás de escena hasta el frente del escenario, los datos de entrenamiento masivo son indispensables. Sin embargo, a juzgar por el desempeño actual de varias empresas, incluso OpenAI, el hermano mayor actual, no tiene una buena solución para el problema de los derechos de autor de los datos de capacitación. La razón no es difícil de entender. La primera versión de GPT apenas atrajo la atención del mundo exterior. En ese momento, la gente se mostraba escéptica sobre si podría comercializarse. Naturalmente, a nadie le importaban las fuentes de datos y los problemas de derechos de autor. Cuando se lance ChatGPT, vendrá un gran valor de uso, valor comercial y un aumento social, y el sistema legal tradicional, el modelo económico, las ideas de desarrollo, etc. se convertirán inmediatamente en problemas para usted.

Independientemente de si es cierto o no y cuál es el resultado final, esta vez, Bishen Composición y Xueersi organizaron conjuntamente el primer drama de derechos de autor de datos modelo a gran escala en China, y también trajeron algo de inspiración a la industria nacional de modelos a gran escala y empresas Aunque es solo una disputa de un yuan, es de gran importancia. Quizás cuando se estrenen decenas de miles de dramas en el futuro, si miramos hacia atrás en la declaración de hoy de Penshen Composición y Xueersi, encontraremos que este dólar es realmente profético.

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
222k publicaciones
#PI#
186k publicaciones
#ETH#
141k publicaciones
4#GateioInto11#
79k publicaciones
5#ContentStar#
66k publicaciones
6#GT#
62k publicaciones
7#BOME#
60k publicaciones
8#DOGE#
57k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado