"Robar" datos, el lado oscuro de los grandes modelos de IA

2023-06-19 05:20:03

Fuente original:

Fuente de la imagen: Generada por Unbounded AI

Una empresa emergente llamada "un golpe dos golpes" denunció públicamente al exlíder de educación y capacitación "Xueersi", diciendo que "robó" los datos que había trabajado tan duro para salvar al "raspar la base de datos".

El origen de la historia es que a mediados de abril de este año, "Pen Shen Composition" (un producto de Strike Two Strike Company) descubrió que había una gran cantidad de accesos anormales regulares a la interfaz del servidor, lo que resultó en un rápido aumento. en la carga en el servidor.

El número de visitas supera con creces la media diaria. Bishen Composition reveló a Deep AI que las visitas diarias habituales son de unos pocos cientos o unos pocos miles, pero en esos pocos días aumentó a más de 500.000 por día. En una semana, sus datos se rastrearon 2,58 millones de veces.

La base de datos de llamadas publicada por Penshen Composición

Al consultar los registros del servidor, Pen God Composition descubrió que una sola IP rastreó su base de datos con alta densidad a través de la tecnología "rastreador". Las palabras de búsqueda para cada visita de esta IP están relacionadas con la composición, y el sistema devolverá composiciones 30 por página. Cada visita usa las palabras de búsqueda para volver desde la primera página página por página, básicamente recopilando el mismo tema en la biblioteca. Todas las composiciones han sido capturadas.

Según expertos de la industria, en circunstancias normales, los usuarios comunes no harán esto. **Este tipo de acceso al estilo de búsqueda a la base de datos también se conoce como "raspar la biblioteca". **

Penshen Composition cree que el manipulador detrás de escena de "Paku" es su socio Xueersi.

No mucho después del incidente de la "biblioteca de estacionamiento", Penshen Composition descubrió que Xueersi estaba desarrollando un gran modelo matemático MathGPT y dijo que lanzaría un "asistente de inteligencia artificial" en un futuro cercano, uno de los cuales es la composición.

No hay una conclusión definitiva sobre si existe alguna conexión entre los dos incidentes de Penshen Composition siendo "recogido" y Hexueersi desarrollando el "Asistente de IA de Composición".

Pero Bishen Composición cree que sus derechos han sido violados. Envió una carta de abogado a la otra parte e hizo público el asunto, tratando de obtener una explicación. Xueersi dio una respuesta pública, diciendo que el uso del contenido material de Penshen cumplía con los requisitos del contrato, y que su modelo MathGPT de desarrollo propio y su "asistente de IA de composición" no usaban ningún dato de la composición de Penshen.

En este incidente, no es solo el material de composición lo que vale la pena discutir. ¿Qué significan los datos para modelos grandes?

**¿Socio convertido en bárbaro en la puerta? **

Ambas partes insisten en sus propias opiniones

Primero, presentemos brevemente la composición del dios de la pluma.

Esta empresa se estableció en 2017. El producto "Pen God" es un software de escritura asistido por inteligencia artificial, que puede considerarse como un producto de AI+education. Al principio, "Pen God" estaba orientado a las plataformas de creación de contenido y fabricantes de herramientas relacionadas, y luego se adentró en el campo vertical, utilizando IA para enseñar a los estudiantes a escribir ensayos, así nació "Pen God Composition".

Simplemente puede entender: está en la industria de la educación, está dirigido al grupo de estudiantes, utiliza tecnología de inteligencia artificial y resuelve la escena de escribir ensayos.

La escritura de IA tiene mucho en común con ChatGPT, que es popular hoy en día. Todos involucran tecnologías como el procesamiento del lenguaje natural, el análisis y la predicción semánticos y el aprendizaje automático. Song Jiawei, el fundador de Penshen Composition, se ha desempeñado como arquitecto de sistemas sénior para Sony y CTO de Singulato.

Hace tan solo cinco años, Song Jiawei dijo que estaba considerando cómo aplicar tecnologías de modelo de lenguaje previamente entrenadas, como bert o GPT-2, a las aplicaciones. En ese momento, GPT no estaba fuera del círculo y no era tan conocido como lo es hoy.

Después de comenzar a hacer composición de IA, Penshen Composition ingresó oficialmente a la educación, entrando en el mismo río que Xueersi, líder en educación y capacitación.

Según la introducción de Penshen, en diciembre de 2020, Penshen Composition y Xueersi llegaron a una cooperación. ** Penshen Composition proporciona a Xueersi una "Interfaz de servicio de material de ensayo modelo de composición de Benshen", que se utiliza en los servicios relacionados con Xueersi, y la tarifa se liquida de acuerdo con la cantidad de llamadas. Por esta razón, Penshen Composition ha abierto una interfaz de servicio para Xueersi. **

En otras palabras, Xueersi puede usar los materiales de composición en la base de datos de composición de Penshen y pagar por ellos.

Los materiales de composición son un activo central en esta transacción y la piedra angular del modelo comercial de Penshen Composition. De hecho, la Composición de Pen God comenzó desde el punto de material como muy pronto. En aquel entonces, presentaba la función de "búsqueda de material con un solo clic". Los usuarios pueden buscar palabras clave y el sistema puede hacer coincidir automáticamente los materiales. Los recursos van desde clásicos de la poesía antigua, documentos oficiales hasta artículos web modernos. Durante el proceso de escritura, el sistema también puede enviar material en tiempo real.

Estos materiales no son de Internet, sino de la propia base de datos de Penshen. A través de la identificación, traducción y combinación inteligente de la tecnología de IA, Penshen puede proporcionar materiales adecuados para el comportamiento de búsqueda de los usuarios.

Cuando la cantidad de estos materiales de composición es lo suficientemente grande, la calidad es lo suficientemente alta y la coincidencia es lo suficientemente precisa, tendrá un cierto valor comercial e incluso podrá venderse externamente. Esta es la razón de la cooperación con Xueersi.

El problema es que estos materiales corren el riesgo de ser "robados", especialmente si se abren algunas interfaces.

De acuerdo con la introducción de Deep AI en la composición de Penshen, limitaron el alcance de la cooperación con Xueersi: "Abrimos la interfaz para permitirles llamar a nuestros datos y mostrarlos en su propia aplicación, pero el contrato no incluye datos de almacenamiento. O permisos para algoritmos de IA Los datos solo deben estar disponibles para sus usuarios, no almacenados en sus máquinas”.

Es equivalente a, **Cuando un usuario inicia una búsqueda en el lado del producto de Xueersi, la plantilla de composición invocada proviene de Penshen Composición y Xueersi no puede almacenarla por sí mismo. **

La llamada anormal a mediados de abril hizo que Pen God Composition pensara que estaba más allá del alcance de la cooperación comercial normal. "Sus acciones activaron nuestros mecanismos de defensa, lo que nos llevó a descubrir esto".

Bishen Zuowen declaró que revisaron los registros de acceso en segundo plano y descubrieron que el acceso ilegal fue iniciado por una sola IP a través de la tecnología de "rastreador". "Ya tenemos esta dirección IP".

La dirección IP publicada por Penshen Composición (Parte)

Liu Ran, el director ejecutivo de una empresa emergente de inteligencia artificial nacional, analizó Deep AI. Este método de enumeración exhaustiva de palabras clave debe ser para obtener los datos en la biblioteca. Este es un comportamiento muy obvio.

Penshen Composition reveló a Deep AI que después del incidente, verificaron con el personal de operaciones de Xueersi, y la otra parte admitió directamente que el equipo de algoritmos de Xueersi estaba rastreando los datos y usándolos para su propio uso. Sin embargo, para esta declaración, Deep AI aún no ha sido confirmada por Xueersi.

El ex socio de repente se convirtió en un bárbaro en la puerta, lo que enfureció mucho a Bishen Composición y envió cartas de abogados muchas veces.

Xueersi dijo en su respuesta pública el 13 de junio que su llamada a la interfaz de composición de Penshen no excedía el alcance del contrato entre las dos partes, y que el uso del contenido material de Penshen cumplía con los requisitos del contrato y no se utilizó para nada. que no sea el contrato para cualquier propósito. Xueersi enfatizó específicamente que su modelo grande MathGPT de desarrollo propio y su "asistente de IA de composición" no utilizaron ningún dato de Penshen Composition.

Las dos partes insisten en sus propias opiniones y aún no hay una conclusión. Según el artículo de Pen God, este caso puede convertirse en "el primer caso de robo de datos de modelos a gran escala de IA".

Una pregunta que vale la pena explorar es ¿qué significan los datos para modelos grandes?

De dónde provienen los datos es un gran problema

El poder de cómputo, los algoritmos y los datos son los tres elementos centrales de la inteligencia artificial para el aprendizaje automático.

Con el fin de mejorar el poder de cómputo, muchas empresas de tecnología están gastando mucho dinero para arrebatarle la GPU a Nvidia. Por el lado del algoritmo, algunas de las principales empresas nacionales y extranjeras han hecho que el algoritmo sea de código abierto, lo que reduce en gran medida el umbral para el desarrollo del modelo.

En el lado de los datos, las barreras siempre han existido. Dónde encontrar datos de alta calidad es un tema clave.

Los grandes modelos generativos de IA necesitan usar una gran cantidad de datos diversos para el entrenamiento a fin de mejorar las capacidades de generalización y generación del modelo. Diferentes modelos pueden usar diferentes fuentes de datos. Los modelos grandes generales, como ChatGPT, utilizan una gran cantidad de datos públicos, como varios sitios web de noticias, libros, artículos científicos, páginas web, etc. Para modelos grandes en algunos campos verticales, es necesario encontrar corpus y conjuntos de datos específicos.

La persona a cargo del modelo a gran escala de una empresa de tecnología líder nacional le dijo a Deep AI que ChatGPT en realidad usa una gran cantidad de datos no públicos, y muchos de los datos públicos en Internet son de muy mala calidad, y hay un umbral para datos de alta calidad. La adquisición y limpieza de datos se enfrentan a grandes desafíos. **

El CTO de TAL, Tian Mi, declaró públicamente el 4 de mayo: "Muchos campos tienen barreras de datos y conocimientos de la industria, y los modelos grandes aún necesitan estar profundamente integrados con el conocimiento del dominio, además de suficientes datos de dominio para capacitar a los expertos del dominio. Modelo. "

Como dijo Tian Mi, el modelo de dominio grande debe estar profundamente integrado con el conocimiento del dominio. En el campo de la composición de IA, los materiales de composición son datos importantes para las máquinas de entrenamiento.

Ya en 2019, Penshen Company comenzó a recopilar datos con un propósito y entrenar su propio corpus de composición, que abarca citas famosas, poemas, documentos oficiales, idiomas de Internet, etc. Utilizan el método de máquinas de entrenamiento para simular etiquetas manuales para etiquetar cada corpus.

En el corpus vertical, solo cuando los datos están etiquetados, se puede llevar a cabo un impulso de contenido preciso basado en la coincidencia de vectores, el análisis semántico y la predicción de la creación de contenido actual del usuario.

Liu Ran le dijo a Deep AI que construir un modelo requiere una gran cantidad de datos verificados y, si los datos se han resuelto, puede ahorrar mucho trabajo humano. Las composiciones organizadas por Penshen Composition se pueden utilizar como datos marcados.

Este proceso es continuo y prolongado. Bishen Composición dijo que en los seis años desde su establecimiento, han acumulado más de 5 millones de materiales de composición en total, y el volumen de corrección mensual supera los 30.000. Estos materiales de composición se revisan, seleccionan y envían manualmente, se etiquetan, califican y corrigen los datos, y finalmente se acumulan.

Estos datos no solo se pueden presentar en forma de materiales en la página de la aplicación, sino que también se pueden usar para entrenar algoritmos en segundo plano. Por lo tanto, al cooperar con otras empresas para abrir interfaces, Penshen Composition ha agregado un artículo especial en el acuerdo: no "almacenamiento en caché, almacenamiento, cálculo y capacitación como corpus".

Bishen Composition cree que Xueersi ha "robado" los datos y especula que Xueersi usa los datos para el entrenamiento y desarrollo del gran modelo matemático MathGPT y la máquina de aprendizaje de Xueersi "Composition AI Assistant". Pero eso parece difícil de probar.

Liu Ran cree que, normalmente, los datos de composición deben tener algunas restricciones establecidas de antemano, como no aceptar una alta simultaneidad, cifrar los datos, y debería ser posible rastrear el paradero y los usos de los datos. Sin embargo, también cree que los datos de composición no son tan críticos como los datos de comportamiento clave del usuario.

"Puedes dejar que la IA aprenda qué es una buena composición y luego dejar que genere de acuerdo con estos estándares. Pero no creo que se necesiten muchos datos. Decenas de miles de composiciones de alta calidad deberían ser suficientes", dijo. .

"El primer caso de robo de datos de modelos grandes de IA",

**¿Puede usted ponerse de pie? **

Penshen Composition adoptó una actitud dura y emitió dos anuncios seguidos, exigiendo una disculpa de Xueersi y al mismo tiempo reclamando una compensación de 1 yuan. Incluso quiere etiquetar este incidente como "el primer caso de robo de datos de modelos grandes de IA".

El abogado Liu Honglin, director del bufete de abogados Shanghai Mankiw, le dijo a Deep AI que el corpus autoconstruido o la biblioteca de materiales de Bishen Composition en sí tiene derechos de propiedad intelectual. Sin embargo, si se trata de una obra bajo la Ley de Derechos de Autor depende de si la originalidad cumple con los criterios pertinentes.

"Si Penshen Composition tiene suficiente evidencia para demostrar que Xueersi ha tomado maliciosamente sus datos, entonces puede iniciar una infracción de propiedad intelectual o una demanda por competencia desleal", dijo.

Además, Bishen Composición tiene un acuerdo de cooperación con Xueersi, si se acuerda el respeto y la autorización de los derechos de propiedad intelectual, también pueden proteger sus derechos e intereses a través de incumplimientos de contrato.

Vale la pena señalar que muchas de las composiciones en la biblioteca de materiales de composición de Penshen son enviadas por los usuarios. Pen God Composition afirma que recibe 300.000 envíos de ensayos cada mes. Por tanto, antes de determinar si se trata de una infracción, es necesario aclarar los derechos de propiedad intelectual de estos materiales.

Según el análisis de Liu Honglin, depende de cómo el creador (colaborador) del ensayo y la composición del pensamiento estén de acuerdo con los derechos de propiedad intelectual. Si el usuario autoriza los derechos de propiedad intelectual de Penshen Composition en el momento del envío, entonces Penshen Composition disfrutará de los derechos e intereses correspondientes.

Deep AI preguntó sobre el acuerdo de servicio de usuario de Pen God Composition y descubrió que existe tal cláusula: el contenido publicado por el usuario en Pen God Composition (incluidos, entre otros, comentarios, comentarios, notas), otorga a Pen God Composition una licencia no exclusiva libre e irrevocable.

En otras palabras, Penshen Composition posee los derechos de propiedad intelectual de la biblioteca de materiales.

Lo que Liu Ran no pudo entender fue por qué Bishen Composición cooperó con Xueersi. "Si fuera yo, definitivamente no cooperaría con Xueersi, porque tenemos una fuerte relación competitiva". Él cree: "En la era de los modelos grandes, no hay posibilidad de proporcionar simplemente una base de datos de composición. "

Según el análisis realizado por expertos de la industria, Xueersi tiene tráfico, escenas y popularidad, especialmente en términos de productos front-end orientados al usuario, Xueersi tiene mayores ventajas que Pen God Composition. Sin embargo, el trabajo de recopilar datos y crear una biblioteca de materiales en el back-end requiere mucho tiempo y es laborioso, y es difícil ver resultados a corto plazo. Para Xueersi, lo más conveniente es acceder directamente a la biblioteca de materiales listos para usar. Penshen Composición logró la monetización comercial mediante la venta de acceso a la biblioteca de materiales.

Pero para una empresa nueva como Pen God Composition, esa cooperación es como una rosa con espinas. Porque los gigantes chinos pueden entrar en cualquier momento en tu territorio, e incluso formar competencia directa a nivel empresarial. **

La composición de corrección de IA es una función muy importante de la composición de Penshen. Hace tan solo tres años, TAL (la empresa matriz de Xueersi) también lanzó la "Solución de corrección de composición en chino e inglés", que realizó la corrección inteligente de composición en chino e inglés a través de IA.

Ahora, la modificación de la composición de IA es solo la punta del iceberg de la enorme matriz de productos de IA de TAL. En su última presentación de producto, la corrección de composición en chino es un módulo de corrección de dictado en chino e inglés. TAL tiene mayores ambiciones y sus tentáculos ya se han extendido a todos los aspectos de la IA+educación.

Después de que ChatGPT se hizo popular con la IA generativa, los empresarios de la industria de la inteligencia artificial estaban emocionados y ansiosos. Están emocionados de que la industria finalmente se esté calentando nuevamente; están ansiosos de que ChatGPT sea demasiado poderoso y muchos proyectos empresariales en campos verticales han perdido sus barreras de la noche a la mañana.

Para una empresa como Pen God Composition, dónde están las barreras a la competencia y cómo enfrentarse a los gigantes son problemas muy reales. La involución acelerada de la industria de la inteligencia artificial y la intensificación de la competencia homogénea escalarán el enfrentamiento entre startups y gigantes.

La captura de datos puede ser solo la punta del iceberg en una nueva ronda de competencia.

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
222k publicaciones
#PI#
186k publicaciones
#ETH#
141k publicaciones
4#GateioInto11#
79k publicaciones
5#ContentStar#
66k publicaciones
6#GT#
62k publicaciones
7#BOME#
60k publicaciones
8#DOGE#
57k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado