Autor: Zixi.eth, Matrix Partners China Investor Fuente: X (anteriormente Twitter) @Zixi41620514
Recientemente, he empezado a centrarme en la pista de IA Web2/Web3, la comunidad de modelos de código abierto en la pista de modelos globales, la pista de datos y varios middleware que sirven al modelo grande, como el servicio de proceso completo para el modelo básico en el modelo de la industria, y algunas aplicaciones. Damos la bienvenida a todo tipo de emprendedores para que se comuniquen con nosotros, creemos que la IA será un camino a largo plazo.
En el primer número, compartiré que la industria del etiquetado de datos en la pista de datos que hemos establecido recientemente también es un objetivo muy satisfactorio para mí este año.
El desarrollo de la IA se puede dividir en preparación de datos con procesos de recopilación, limpieza, anotación y mejora de datos como cuerpo principal, y desarrollo de algoritmos con construcción, entrenamiento, ajuste e implementación de modelos como cuerpo principal. Entre ellos, debido a las necesidades diversificadas de la IA en la nueva era de datos, como la multimodalidad, la alta precisión y la fuerte personalización, la dependencia de los datos de IA de la mano de obra humana en la nueva era también es muy alta, y también es necesario mejorar aún más la interacción fluida entre la IA y las personas para aumentar la eficiencia. El etiquetado de datos se refiere a la identificación y diferenciación de elementos de características en las muestras de datos necesarias para el entrenamiento del modelo. Dado que el desarrollo de la IA aún se encuentra en la etapa de aprendizaje supervisado, el aprendizaje y la verificación de la información de connotación de datos y la lógica entre los datos en el proceso de entrenamiento de los modelos de algoritmos de IA representados por el aprendizaje profundo se realizan en función de la identificación de características de los datos, y es necesaria la anotación de datos, que es una de las tareas centrales de la preparación de datos e incluso del desarrollo de proyectos de inteligencia artificial. Al igual que el resto del flujo de trabajo de preparación de datos, el etiquetado de datos depende en gran medida de la mano de obra. Los largos ciclos de trabajo y los enormes costos laborales se han convertido en uno de los principales factores que restringen el desarrollo de la industria de la IA. Los puntos débiles en el lado de la oferta de los servicios de anotación de datos han generado una demanda del mercado de herramientas de automatización y han promovido el desarrollo y la aplicación a gran escala de la tecnología inteligente de anotación de datos.
Figura 1: De la adquisición de datos a los conjuntos de datos utilizables por IA
En la actualidad, en el campo de la conducción inteligente, la base de la mayor aplicación de la anotación de datos, todavía se necesita una gran cantidad de humanos para etiquetar varios escenarios, como gatos y perros, postes telefónicos, cochecitos, etc. Por ejemplo, Scale AI es un importante proveedor de datos para OpenAI, y han establecido sus propios estudios de anotación de datos en países del tercer mundo para ayudar a OpenAI en la anotación de datos de texto/imagen.
Sin embargo, con el avance de la IA, la proporción de anotaciones previas en el flujo de trabajo está aumentando gradualmente. En los primeros días, la anotación de datos se realizaba principalmente manualmente para crear y acumular conjuntos de datos de aprendizaje automático. Aunque son relativamente ineficientes y costosos, los datos proporcionados a la máquina tienen una gran ventaja siempre que las anotaciones estén en su lugar. Con el tiempo, el enfoque de la anotación manual se ha desplazado gradualmente de los Estados Unidos a países del tercer mundo como Venezuela y Filipinas para reducir costos.
A medida que se desarrolla el modelo, mejora la precisión de la anotación de datos automatizada y el modelo se puede utilizar para ayudar en la anotación manual, como el preprocesamiento de datos del modelo y luego enviarlos a la anotación humana, o los resultados de la anotación proporcionados por el modelo automatizado se revisan y corrigen manualmente. En comparación con la anotación manual pura, la anotación asistida por IA acelera la velocidad de la anotación de datos. Actualmente, una de las empresas de etiquetado de datos más grandes del mundo, como Scale AI, está trabajando para reducir la proporción de participación humana en el proceso de etiquetado de datos.
Aunque la pre-anotación ha logrado buenos resultados en el campo de la visión por computador, en la nueva era de los lenguajes y los grandes modelos, la pre-anotación es todavía muy inmadura y no puede reemplazar completamente el trabajo humano. Las razones son las siguientes:1. Baja precisión, especialmente cuando se trata de tareas complejas y casos extremos. 2. Sesgo de la muestra y problemas de alucinaciones del modelo. 3. Algunas verticales requieren grandes conjuntos de datos anotados por expertos en la materia. 4. La escalabilidad de la anotación previa es deficiente, especialmente para idiomas pequeños o escenarios poco comunes, el costo es alto y la calidad es deficiente, y aún debe completarse manualmente.
En resumen, la anotación previa no reemplazará completamente la anotación manual a corto plazo, y las dos coexistirán. Si bien el porcentaje de anotación manual puede disminuir, los auditores aún deben revisar la anotación de datos durante el proceso de anotación.
Figura: Proceso de etiquetado de datos en el preetiquetado
La industria de la anotación de datos no es nueva, comenzó a surgir en 17/18 con el auge de la conducción inteligente. El siguiente gráfico muestra el tamaño de mercado previsto de los proveedores de etiquetado de datos en China, y vale la pena mencionar que el tamaño del mercado de etiquetado de datos en los Estados Unidos es aproximadamente de 3 a 5 veces mayor que el de China.
La industria del etiquetado de datos es un mercado relativamente fragmentado, no como un campo con barreras técnicas extremadamente altas, sino más bien como un campo con barreras técnicas, humanas y de gestión organizacional que representan un tercio cada una. La competitividad central en este campo se refleja principalmente en los siguientes aspectos:1. Precio 2. Calidad 3. Cobertura de experiencia y conocimientos (¿diversidad?)4. velocidad
El precio es obvio, porque todas las personas necesitan una gran cantidad de datos baratos. Las presiones sobre los precios impulsan una forma de arbitraje geográfico, mientras que en los Estados Unidos desarrollados puede costar 1 dólar pagar un salario para completar una etiqueta de datos, mientras que en la China menos desarrollada cuesta sólo 0,5 dólares, y en Filipinas puede costar tan solo 0,1 dólares. Por lo tanto, una de las soluciones en el mercado es dar órdenes a países del primer mundo y luego reclutar personas en países del tercer mundo para resolver el problema a través de estudios operados directamente.
La calidad de los datos también es fácil de entender, y se requieren datos de alta calidad en el campo de los modelos grandes y la conducción inteligente. Si la calidad de los datos introducidos en el modelo es deficiente, el rendimiento del modelo grande también se verá afectado. Una de las soluciones efectivas para resolver el problema de la calidad de los datos es generar datos sin procesar a través del etiquetado previo del modelo, y luego anotar manualmente y luego realizar continuamente el aprendizaje por refuerzo y la retroalimentación humana para mejorar la calidad del etiquetado de datos. O bien, el equipo debe tener muy claro el proceso de etiquetado de datos para los clientes intermedios y ser capaz de desarrollar procedimientos operativos estándar (SOP) para que el personal de anotación de datos pueda anotar de acuerdo con los SOP para mejorar la calidad.
Pero, ¿cómo se entiende la cobertura de la experiencia y el conocimiento? Pongamos tres ejemplos:
Esto es todo un reto bajo el modelo general. Anotar modelos de texto grandes puede ser relativamente fácil, pero hay que encontrar personas que puedan anotar en varios idiomas, como chino/inglés/francés/alemán/ruso/árabe, y cómo una empresa de etiquetado de datos puede reclutar y gestionar a tantas personas distribuidas a escala global será un reto.
Considere la posibilidad de iniciar una aplicación de IA en el campo de los voicebots/humanos digitales. Las startups a menudo no tienen el tiempo, la mano de obra y el dinero para configurar un equipo de anotación de datos interno. Necesitaban encontrar un equipo subcontratado para ayudar a etiquetar las familias de idioma chino, como el acento de Sichuan, el acento cantonés, el acento de Shanghái, el acento del noreste, etc., así como las familias de idioma inglés, como el acento inglés norteamericano, el acento inglés británico y el acento inglés de Singapur. Encontrar un buen estudio de anotación de datos en el mercado que pueda manejar estas tareas puede ser muy difícil. Si se adopta la venta directa o la subcontratación, pueden pasar uno o dos meses de tiempo de trabajo desde la recepción de los pedidos hasta la contratación, lo que afectará gravemente a la eficiencia del suministro.
Considere un área más especializada, donde una startup que se enfoca en modelos legales requiere una gran cantidad de anotaciones de datos legales. El campo del derecho todavía tiene requisitos profesionales bastante altos, y las startups necesitan encontrar un proveedor de anotaciones de datos que cumpla con los siguientes criterios:1. Al menos una docena de personas que entiendan la ley, y que también necesiten cubrir la ley china, la ley de Hong Kong, la ley estadounidense, etc.; Debe ser capaz de entender chino e inglés; 3. El costo no puede ser demasiado alto. Si le pide a un abogado que haga el etiquetado, es posible que se muestre reacio a hacer el trabajo debido al salario más alto del abogado. Por lo tanto, la solución actual para este tipo de segmentación solo puede ser reclutar internamente pasantes escolares para trabajar en la anotación de datos. Para el modo de gestión de la venta directa y la subcontratación, todavía es bastante difícil completar la pista de dichas subdivisiones.
Por lo tanto, los principales actores del mercado se pueden dividir en tres categorías:1. Realizado internamente por grandes empresas (por ejemplo, Baidu crowdsourcing);2. Startups con modelo directo/subcontratado (analizado a continuación); Estudios de anotación de datos pequeños y medianos.
Gráfico: El tamaño del mercado de datos en el mercado de IA de China
Antes de sumergirnos, echemos un vistazo a las startups líderes actuales en el espacio:
Scale AI: El negocio principal de Scale AI en los Estados Unidos cubre cuatro aspectos: anotación, gestión y evaluación de datos (controlar la calidad de los datos anotados y mejorar la eficiencia de la anotación), automatización (anotación auxiliar para mejorar la eficiencia) y síntesis de datos (cuando el modelo se está volviendo cada vez más abundante y los datos reales no son suficientes, es necesario sintetizar automáticamente el modelo de alimentación de datos, y hablaremos de la pista de datos sintéticos más adelante). Scale AI se centró inicialmente en la anotación de la conducción autónoma, y hace dos años, el 80-90% de los pedidos de la empresa procedían de la conducción autónoma (2D, 3D, LiDAR, etc.), y esta proporción ha disminuido en los últimos años. La fuente de pedidos de la empresa responde a la tendencia de la industria de los proveedores, y en los últimos años, el gobierno, el comercio electrónico, los robots, los modelos grandes y otros campos se han desarrollado rápidamente, junto con la gran capacidad del equipo para comprender las tendencias de la industria, por lo que puede mantener una alta participación de mercado en cada segmento. Además, Scale AI ha lanzado su propio servicio de modelo como servicio, que ayuda a los clientes a ajustar, alojar e implementar modelos.
Existen dos tipos de modelos de carga:
Base de consumo: Por ejemplo, Scale Image comienza en 2 centavos por imagen y 6 centavos por etiqueta, Scale Video comienza en 13 centavos por fotograma de video y 3 centavos por etiqueta, Scale Text comienza en 5 centavos por trabajo y 3 centavos por etiqueta, y Scale Document AI comienza en 2 centavos por trabajo y 7 centavos por etiqueta.
La base del proyecto, que se basa en la cantidad de datos del contrato, etc., es en realidad un ingreso basado en el proyecto, con un valor unitario que oscila entre cientos de miles de dólares y decenas de millones de dólares.
Con unos ingresos previstos de 290 millones de dólares en 2022 y una valoración actual de 7.000 millones de dólares, Scale AI es la mayor empresa de anotación de datos del mundo. Los inversores de la empresa también son muy lujosos.
CAA haitiana: La CAA haitiana de China también desempeña un papel importante en el campo de la anotación de datos. La empresa tiene una rica experiencia en anotación de datos, limpieza de datos, análisis de datos, etc. Sin embargo, aún no está clara la información sobre su modelo de negocio detallado, los métodos de cobro y la financiación.
Appen: La australiana Appen es otra de las principales empresas de anotación de datos del mundo. Al igual que Scale AI, Appen proporciona servicios como anotación de datos, recopilación de datos de voz y traducción. La empresa cuenta con un gran número de anotadores en todo el mundo para proporcionar a los clientes servicios de anotación de datos de alta calidad. El detallado modelo de negocio y la financiación de Appen también merecen un estudio más profundo.
Estas tres empresas ocupan una posición importante en el espacio global de anotación de datos, representando las posiciones de liderazgo en este campo en los Estados Unidos, China y Australia, respectivamente. Antes de sumergirnos en los modelos de negocio de las startups y la competencia en el mercado, la comprensión de estas empresas líderes ayudará a proporcionar una comprensión más completa del contexto de la industria en su conjunto.
Haitian AAC es una empresa que cotiza en bolsa con acciones A, pero no es exactamente una empresa de etiquetado de datos. En comparación con la creación de su propio equipo para realizar anotaciones de datos, Haitian es esencialmente un proveedor de servicios técnicos, que subcontrata pedidos a varios estudios. El núcleo de la expansión de la CAA haitiana en China depende de: 1. Tiene una profunda acumulación en la anotación de voz, que cubre más de 190 idiomas (lo que representa el 70-80% de los ingresos) 2. Efecto de escala 3. Buena capacidad de internacionalización. En China, la industria del etiquetado de datos es muy salvaje y temprana, muy dispersa y desordenada, y también hay una falta de estándares y normas de la industria.
Podemos ver la comparación del modelo de negocio entre (Appen) y Haitian para ver el modelo de negocio de ventas directas/externalización y la experiencia de beneficio bruto.
Figura: Modelos de negocio directos/externalizados...
Con tantos presagios, los lectores con buena memoria no han pensado en cómo nuestro título remodela la anotación de datos con blockchain. El texto completo aún no ha hablado sobre la cadena de bloques, ¿cómo remodelarla?
El futuro de la IA debe ser abierto y soberano, ya se trate de datos, potencia informática o modelos, debe proporcionar un acceso universal y abierto a la sociedad sobre la base de garantizar una alta calidad y eficiencia. Todos los participantes que ayuden a promover la IA deben tener derechos de propiedad sobre sus propias contribuciones y resultados, así como una distribución y recompensas razonables de los beneficios.
Nuestra reciente empresa de inversión, Quest Labs, tiene como objetivo redefinir la relación entre la IA y las personas en la nueva era, y utilizar la IA y la tecnología blockchain para interrumpir y resolver los puntos débiles existentes en la industria. Como pala necesaria en la cadena de la industria de la IA, el servicio de datos es el primer problema que Quest quiere resolver. Promover la eficiencia de la producción de datos a través de la IA y redefinir el modelo económico y la captura de valor de los conjuntos de datos públicos en la nueva era a través de blockchain, que se complementan entre sí para producir continuamente datos de alto valor y mejorar la capacidad y la cognición de los anotadores de IA.
.AI e inteligencia colaborativa humana:
Una infraestructura inteligente centrada en la IA para permitir e incentivar a los equipos humanos a interactuar sin problemas con los modelos de copilotos,提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据
• Un mercado descentralizado, impulsado por la herramienta Humans Ops, que maximiza la eficiencia de la gestión descentralizada de la fuerza laboral y optimiza la colaboración y la comunicación a través de una red global de equipos distribuidos.
Divulgación de datos, privacidad y propiedad
La plataforma incentiva profundamente el tráfico de usuarios y la adhesión a través del flujo de caja pagado y los tokens, y estimula constantemente el efecto del volante de datos, capturando el comportamiento y los datos históricos tanto de la oferta como de la demanda para aprender continuamente unos de otros. Los algoritmos se utilizan para recomendar y formular marcos de demanda de datos para asegurar el valor comercial futuro (hard domain mining), cubriendo un gran número de escenarios de segmentación vertical. Todos los participantes de la marca de datos pueden comenzar a proporcionar conjuntos de datos por adelantado para que se llamen y comercialicen, y recibir flujo de efectivo y recompensas simbólicas, convirtiéndose en última instancia en una valiosa red de datos de IA abierta en la nueva era.
Cifrado de datos y protección de la privacidad: ZK y FHE se utilizan para cifrar mejor los datos de los usuarios para su procesamiento y almacenamiento.
La tecnología Blockchain se utiliza para rastrear y verificar la propiedad de los datos por parte de los participantes, incluidos diferentes resultados, como la recopilación y la anotación, y sus valores correspondientes.
Nuevo modelo económico
A través de Meituan, una plataforma global de servicios de datos de IA que combina automáticamente la IA, pasaremos de una economía planificada centralizada a una economía de mercado.
Garantizar la credibilidad de la reputación + el sistema de liquidación de optimización de moneda digital a través de la tecnología blockchain, expandir infinitamente el flujo de personas en el lado de la oferta para hacer una coincidencia precisa, de modo que las personas adecuadas puedan hacer lo correcto para ser eficientes y de calidad. A través de la superposición de los servicios de etiquetado de datos y la población pobre, se logra empleo + inclusión financiera de manera disfrazada.
Los tokens se otorgan a los usuarios para incentivar el aprendizaje continuo y los servicios y resultados de alta calidad y, al mismo tiempo, incentivar a los usuarios a proporcionar comentarios efectivos y de alta calidad para optimizar el modelo de plataforma para aumentar la eficiencia y la productividad de todo el proceso (aprendizaje continuo mutuo de humanos e IA).
Distribución razonable de beneficios y captura de valor de acuerdo con POPW a través de tokens, reducir mejor el CAC y luego aumentar la retención.
Desde la perspectiva del mundo de la web2, se trata de una plataforma de distribución para la anotación de datos, un poco como Didi y Meituan Takeaway. Pero desde el punto de vista de la web3, se trata de un Axie Infinity+YGG con flujo de caja real. En el mercado alcista de 2021, la combinación de Axie e YGG atrajo a un número considerable de usuarios del tercer mundo a la Web3, y este tipo de gremio de juegos ha alimentado a un gran número de familias del tercer mundo durante la epidemia, especialmente Filipinas. El mercado también le ha dado muy buenos rendimientos a Axie e YGG, y son Alfas muy interesantes. Como inversores en la unión de Web2 y Web3, estamos muy dispuestos a apoyar proyectos y equipos que utilicen la tecnología blockchain para contribuir a los negocios reales, y esperamos con interés el rendimiento del equipo en el futuro. Esta es también la dirección en la que vemos que pocas tecnologías Web3 pueden dar alas al negocio Web2.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
De la Web2 a la Web3: por qué soy optimista en el camino de la IA
Autor: Zixi.eth, Matrix Partners China Investor Fuente: X (anteriormente Twitter) @Zixi41620514
Recientemente, he empezado a centrarme en la pista de IA Web2/Web3, la comunidad de modelos de código abierto en la pista de modelos globales, la pista de datos y varios middleware que sirven al modelo grande, como el servicio de proceso completo para el modelo básico en el modelo de la industria, y algunas aplicaciones. Damos la bienvenida a todo tipo de emprendedores para que se comuniquen con nosotros, creemos que la IA será un camino a largo plazo.
En el primer número, compartiré que la industria del etiquetado de datos en la pista de datos que hemos establecido recientemente también es un objetivo muy satisfactorio para mí este año.
El desarrollo de la IA se puede dividir en preparación de datos con procesos de recopilación, limpieza, anotación y mejora de datos como cuerpo principal, y desarrollo de algoritmos con construcción, entrenamiento, ajuste e implementación de modelos como cuerpo principal. Entre ellos, debido a las necesidades diversificadas de la IA en la nueva era de datos, como la multimodalidad, la alta precisión y la fuerte personalización, la dependencia de los datos de IA de la mano de obra humana en la nueva era también es muy alta, y también es necesario mejorar aún más la interacción fluida entre la IA y las personas para aumentar la eficiencia. El etiquetado de datos se refiere a la identificación y diferenciación de elementos de características en las muestras de datos necesarias para el entrenamiento del modelo. Dado que el desarrollo de la IA aún se encuentra en la etapa de aprendizaje supervisado, el aprendizaje y la verificación de la información de connotación de datos y la lógica entre los datos en el proceso de entrenamiento de los modelos de algoritmos de IA representados por el aprendizaje profundo se realizan en función de la identificación de características de los datos, y es necesaria la anotación de datos, que es una de las tareas centrales de la preparación de datos e incluso del desarrollo de proyectos de inteligencia artificial. Al igual que el resto del flujo de trabajo de preparación de datos, el etiquetado de datos depende en gran medida de la mano de obra. Los largos ciclos de trabajo y los enormes costos laborales se han convertido en uno de los principales factores que restringen el desarrollo de la industria de la IA. Los puntos débiles en el lado de la oferta de los servicios de anotación de datos han generado una demanda del mercado de herramientas de automatización y han promovido el desarrollo y la aplicación a gran escala de la tecnología inteligente de anotación de datos.
Figura 1: De la adquisición de datos a los conjuntos de datos utilizables por IA
! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-aef9208402-dd1a6f-cd5cc0.webp "7135831")
En la actualidad, en el campo de la conducción inteligente, la base de la mayor aplicación de la anotación de datos, todavía se necesita una gran cantidad de humanos para etiquetar varios escenarios, como gatos y perros, postes telefónicos, cochecitos, etc. Por ejemplo, Scale AI es un importante proveedor de datos para OpenAI, y han establecido sus propios estudios de anotación de datos en países del tercer mundo para ayudar a OpenAI en la anotación de datos de texto/imagen.
Sin embargo, con el avance de la IA, la proporción de anotaciones previas en el flujo de trabajo está aumentando gradualmente. En los primeros días, la anotación de datos se realizaba principalmente manualmente para crear y acumular conjuntos de datos de aprendizaje automático. Aunque son relativamente ineficientes y costosos, los datos proporcionados a la máquina tienen una gran ventaja siempre que las anotaciones estén en su lugar. Con el tiempo, el enfoque de la anotación manual se ha desplazado gradualmente de los Estados Unidos a países del tercer mundo como Venezuela y Filipinas para reducir costos.
A medida que se desarrolla el modelo, mejora la precisión de la anotación de datos automatizada y el modelo se puede utilizar para ayudar en la anotación manual, como el preprocesamiento de datos del modelo y luego enviarlos a la anotación humana, o los resultados de la anotación proporcionados por el modelo automatizado se revisan y corrigen manualmente. En comparación con la anotación manual pura, la anotación asistida por IA acelera la velocidad de la anotación de datos. Actualmente, una de las empresas de etiquetado de datos más grandes del mundo, como Scale AI, está trabajando para reducir la proporción de participación humana en el proceso de etiquetado de datos.
Aunque la pre-anotación ha logrado buenos resultados en el campo de la visión por computador, en la nueva era de los lenguajes y los grandes modelos, la pre-anotación es todavía muy inmadura y no puede reemplazar completamente el trabajo humano. Las razones son las siguientes:1. Baja precisión, especialmente cuando se trata de tareas complejas y casos extremos. 2. Sesgo de la muestra y problemas de alucinaciones del modelo. 3. Algunas verticales requieren grandes conjuntos de datos anotados por expertos en la materia. 4. La escalabilidad de la anotación previa es deficiente, especialmente para idiomas pequeños o escenarios poco comunes, el costo es alto y la calidad es deficiente, y aún debe completarse manualmente.
En resumen, la anotación previa no reemplazará completamente la anotación manual a corto plazo, y las dos coexistirán. Si bien el porcentaje de anotación manual puede disminuir, los auditores aún deben revisar la anotación de datos durante el proceso de anotación.
Figura: Proceso de etiquetado de datos en el preetiquetado
! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-6c94f3b716-dd1a6f-cd5cc0.webp "7135843")
La industria de la anotación de datos no es nueva, comenzó a surgir en 17/18 con el auge de la conducción inteligente. El siguiente gráfico muestra el tamaño de mercado previsto de los proveedores de etiquetado de datos en China, y vale la pena mencionar que el tamaño del mercado de etiquetado de datos en los Estados Unidos es aproximadamente de 3 a 5 veces mayor que el de China.
La industria del etiquetado de datos es un mercado relativamente fragmentado, no como un campo con barreras técnicas extremadamente altas, sino más bien como un campo con barreras técnicas, humanas y de gestión organizacional que representan un tercio cada una. La competitividad central en este campo se refleja principalmente en los siguientes aspectos:1. Precio 2. Calidad 3. Cobertura de experiencia y conocimientos (¿diversidad?)4. velocidad
El precio es obvio, porque todas las personas necesitan una gran cantidad de datos baratos. Las presiones sobre los precios impulsan una forma de arbitraje geográfico, mientras que en los Estados Unidos desarrollados puede costar 1 dólar pagar un salario para completar una etiqueta de datos, mientras que en la China menos desarrollada cuesta sólo 0,5 dólares, y en Filipinas puede costar tan solo 0,1 dólares. Por lo tanto, una de las soluciones en el mercado es dar órdenes a países del primer mundo y luego reclutar personas en países del tercer mundo para resolver el problema a través de estudios operados directamente.
La calidad de los datos también es fácil de entender, y se requieren datos de alta calidad en el campo de los modelos grandes y la conducción inteligente. Si la calidad de los datos introducidos en el modelo es deficiente, el rendimiento del modelo grande también se verá afectado. Una de las soluciones efectivas para resolver el problema de la calidad de los datos es generar datos sin procesar a través del etiquetado previo del modelo, y luego anotar manualmente y luego realizar continuamente el aprendizaje por refuerzo y la retroalimentación humana para mejorar la calidad del etiquetado de datos. O bien, el equipo debe tener muy claro el proceso de etiquetado de datos para los clientes intermedios y ser capaz de desarrollar procedimientos operativos estándar (SOP) para que el personal de anotación de datos pueda anotar de acuerdo con los SOP para mejorar la calidad.
Pero, ¿cómo se entiende la cobertura de la experiencia y el conocimiento? Pongamos tres ejemplos:
Esto es todo un reto bajo el modelo general. Anotar modelos de texto grandes puede ser relativamente fácil, pero hay que encontrar personas que puedan anotar en varios idiomas, como chino/inglés/francés/alemán/ruso/árabe, y cómo una empresa de etiquetado de datos puede reclutar y gestionar a tantas personas distribuidas a escala global será un reto.
Considere la posibilidad de iniciar una aplicación de IA en el campo de los voicebots/humanos digitales. Las startups a menudo no tienen el tiempo, la mano de obra y el dinero para configurar un equipo de anotación de datos interno. Necesitaban encontrar un equipo subcontratado para ayudar a etiquetar las familias de idioma chino, como el acento de Sichuan, el acento cantonés, el acento de Shanghái, el acento del noreste, etc., así como las familias de idioma inglés, como el acento inglés norteamericano, el acento inglés británico y el acento inglés de Singapur. Encontrar un buen estudio de anotación de datos en el mercado que pueda manejar estas tareas puede ser muy difícil. Si se adopta la venta directa o la subcontratación, pueden pasar uno o dos meses de tiempo de trabajo desde la recepción de los pedidos hasta la contratación, lo que afectará gravemente a la eficiencia del suministro.
Considere un área más especializada, donde una startup que se enfoca en modelos legales requiere una gran cantidad de anotaciones de datos legales. El campo del derecho todavía tiene requisitos profesionales bastante altos, y las startups necesitan encontrar un proveedor de anotaciones de datos que cumpla con los siguientes criterios:1. Al menos una docena de personas que entiendan la ley, y que también necesiten cubrir la ley china, la ley de Hong Kong, la ley estadounidense, etc.; Debe ser capaz de entender chino e inglés; 3. El costo no puede ser demasiado alto. Si le pide a un abogado que haga el etiquetado, es posible que se muestre reacio a hacer el trabajo debido al salario más alto del abogado. Por lo tanto, la solución actual para este tipo de segmentación solo puede ser reclutar internamente pasantes escolares para trabajar en la anotación de datos. Para el modo de gestión de la venta directa y la subcontratación, todavía es bastante difícil completar la pista de dichas subdivisiones.
Por lo tanto, los principales actores del mercado se pueden dividir en tres categorías:1. Realizado internamente por grandes empresas (por ejemplo, Baidu crowdsourcing);2. Startups con modelo directo/subcontratado (analizado a continuación); Estudios de anotación de datos pequeños y medianos.
Gráfico: El tamaño del mercado de datos en el mercado de IA de China
! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-edbb9fdd9b-dd1a6f-cd5cc0.webp "7135849")
Antes de sumergirnos, echemos un vistazo a las startups líderes actuales en el espacio:
Existen dos tipos de modelos de carga:
Base de consumo: Por ejemplo, Scale Image comienza en 2 centavos por imagen y 6 centavos por etiqueta, Scale Video comienza en 13 centavos por fotograma de video y 3 centavos por etiqueta, Scale Text comienza en 5 centavos por trabajo y 3 centavos por etiqueta, y Scale Document AI comienza en 2 centavos por trabajo y 7 centavos por etiqueta.
La base del proyecto, que se basa en la cantidad de datos del contrato, etc., es en realidad un ingreso basado en el proyecto, con un valor unitario que oscila entre cientos de miles de dólares y decenas de millones de dólares.
Con unos ingresos previstos de 290 millones de dólares en 2022 y una valoración actual de 7.000 millones de dólares, Scale AI es la mayor empresa de anotación de datos del mundo. Los inversores de la empresa también son muy lujosos.
CAA haitiana: La CAA haitiana de China también desempeña un papel importante en el campo de la anotación de datos. La empresa tiene una rica experiencia en anotación de datos, limpieza de datos, análisis de datos, etc. Sin embargo, aún no está clara la información sobre su modelo de negocio detallado, los métodos de cobro y la financiación.
Appen: La australiana Appen es otra de las principales empresas de anotación de datos del mundo. Al igual que Scale AI, Appen proporciona servicios como anotación de datos, recopilación de datos de voz y traducción. La empresa cuenta con un gran número de anotadores en todo el mundo para proporcionar a los clientes servicios de anotación de datos de alta calidad. El detallado modelo de negocio y la financiación de Appen también merecen un estudio más profundo.
! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-2e082f1e24-dd1a6f-cd5cc0.webp "7135866")
! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-d87ea871ea-dd1a6f-cd5cc0.webp "7135867")
Estas tres empresas ocupan una posición importante en el espacio global de anotación de datos, representando las posiciones de liderazgo en este campo en los Estados Unidos, China y Australia, respectivamente. Antes de sumergirnos en los modelos de negocio de las startups y la competencia en el mercado, la comprensión de estas empresas líderes ayudará a proporcionar una comprensión más completa del contexto de la industria en su conjunto.
Haitian AAC es una empresa que cotiza en bolsa con acciones A, pero no es exactamente una empresa de etiquetado de datos. En comparación con la creación de su propio equipo para realizar anotaciones de datos, Haitian es esencialmente un proveedor de servicios técnicos, que subcontrata pedidos a varios estudios. El núcleo de la expansión de la CAA haitiana en China depende de: 1. Tiene una profunda acumulación en la anotación de voz, que cubre más de 190 idiomas (lo que representa el 70-80% de los ingresos) 2. Efecto de escala 3. Buena capacidad de internacionalización. En China, la industria del etiquetado de datos es muy salvaje y temprana, muy dispersa y desordenada, y también hay una falta de estándares y normas de la industria.
! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-5eb8a04957-dd1a6f-cd5cc0.webp "7135868")
! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-557bc22bf7-dd1a6f-cd5cc0.webp "7135871")
Podemos ver la comparación del modelo de negocio entre (Appen) y Haitian para ver el modelo de negocio de ventas directas/externalización y la experiencia de beneficio bruto.
Figura: Modelos de negocio directos/externalizados...
! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-90760efac6-dd1a6f-cd5cc0.webp "7135872")
! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-bc79aa85ac-dd1a6f-cd5cc0.webp "7135873")
Con tantos presagios, los lectores con buena memoria no han pensado en cómo nuestro título remodela la anotación de datos con blockchain. El texto completo aún no ha hablado sobre la cadena de bloques, ¿cómo remodelarla?
El futuro de la IA debe ser abierto y soberano, ya se trate de datos, potencia informática o modelos, debe proporcionar un acceso universal y abierto a la sociedad sobre la base de garantizar una alta calidad y eficiencia. Todos los participantes que ayuden a promover la IA deben tener derechos de propiedad sobre sus propias contribuciones y resultados, así como una distribución y recompensas razonables de los beneficios.
Nuestra reciente empresa de inversión, Quest Labs, tiene como objetivo redefinir la relación entre la IA y las personas en la nueva era, y utilizar la IA y la tecnología blockchain para interrumpir y resolver los puntos débiles existentes en la industria. Como pala necesaria en la cadena de la industria de la IA, el servicio de datos es el primer problema que Quest quiere resolver. Promover la eficiencia de la producción de datos a través de la IA y redefinir el modelo económico y la captura de valor de los conjuntos de datos públicos en la nueva era a través de blockchain, que se complementan entre sí para producir continuamente datos de alto valor y mejorar la capacidad y la cognición de los anotadores de IA.
Desde la perspectiva del mundo de la web2, se trata de una plataforma de distribución para la anotación de datos, un poco como Didi y Meituan Takeaway. Pero desde el punto de vista de la web3, se trata de un Axie Infinity+YGG con flujo de caja real. En el mercado alcista de 2021, la combinación de Axie e YGG atrajo a un número considerable de usuarios del tercer mundo a la Web3, y este tipo de gremio de juegos ha alimentado a un gran número de familias del tercer mundo durante la epidemia, especialmente Filipinas. El mercado también le ha dado muy buenos rendimientos a Axie e YGG, y son Alfas muy interesantes. Como inversores en la unión de Web2 y Web3, estamos muy dispuestos a apoyar proyectos y equipos que utilicen la tecnología blockchain para contribuir a los negocios reales, y esperamos con interés el rendimiento del equipo en el futuro. Esta es también la dirección en la que vemos que pocas tecnologías Web3 pueden dar alas al negocio Web2.