Auteur : Zixi.eth, Matrix Partners China Investisseur Source : X (anciennement Twitter) @Zixi41620514
Récemment, j’ai commencé à me concentrer sur la piste d’IA Web2/Web3, la communauté des modèles open source dans la piste des modèles globaux, la piste des données et divers intergiciels au service du grand modèle - tels que le service de processus complet pour le modèle de base dans le modèle de l’industrie, et certaines applications. Nous accueillons toutes sortes d’entrepreneurs pour communiquer avec nous, nous pensons que l’IA sera une voie à long terme.
Dans le premier numéro, je dirai que l’industrie de l’étiquetage des données dans le volet des données que nous avons récemment établi est également un objectif très satisfaisant pour moi cette année.
Le développement de l’IA peut être divisé en préparation des données avec les processus de collecte, de nettoyage, d’annotation et d’amélioration des données comme corps principal, et le développement d’algorithmes avec la construction, l’entraînement, le réglage et le déploiement du modèle comme corps principal. Parmi eux, en raison des besoins diversifiés de l’IA dans la nouvelle ère des données, tels que la multimodalité, la haute précision et une forte personnalisation, la dépendance des données de l’IA sur le travail humain dans la nouvelle ère est également très élevée, et il est également nécessaire d’améliorer encore l’interaction fluide entre l’IA et les personnes pour augmenter l’efficacité. L’étiquetage des données fait référence à l’identification et à la différenciation des éléments de caractéristiques dans les échantillons de données requis pour l’entraînement du modèle. Étant donné que le développement de l’IA est encore au stade de l’apprentissage supervisé, l’apprentissage et la vérification des informations de connotation des données et de la logique entre les données dans le processus d’apprentissage des modèles d’algorithmes d’IA représentés par l’apprentissage profond sont réalisés sur la base de l’identification des caractéristiques des données, et l’annotation des données est nécessaire, ce qui est l’une des tâches principales de la préparation des données et même du développement de projets d’intelligence artificielle. À l’instar du reste du flux de travail de préparation des données, l’étiquetage des données dépend fortement de la main-d’œuvre. Les longs cycles de travail et les coûts de main-d’œuvre énormes sont devenus l’un des principaux facteurs limitant le développement de l’industrie de l’IA. Les difficultés rencontrées du côté de l’offre de services d’annotation de données ont généré une demande du marché pour des outils d’automatisation et ont favorisé le développement et l’application à grande échelle de la technologie d’annotation intelligente des données.
Figure 1 : De l’acquisition de données aux jeux de données utilisables par l’IA
À l’heure actuelle, dans le domaine de la conduite intelligente, en aval de la plus grande application de l’annotation de données, un grand nombre d’humains sont encore nécessaires pour étiqueter divers scénarios, tels que les chats et les chiens, les poteaux téléphoniques, les poussettes, etc. Par exemple, Scale AI est un important fournisseur de données pour OpenAI, et ils ont établi leurs propres studios d’annotation de données dans les pays du tiers monde à travers le monde pour aider OpenAI dans l’annotation de données textuelles/d’images.
Cependant, avec les progrès de l’IA, la proportion de pré-annotation dans le flux de travail augmente progressivement. Au début, l’annotation des données était principalement effectuée manuellement pour créer et accumuler des ensembles de données d’apprentissage automatique. Bien que relativement inefficaces et coûteuses, les données fournies à la machine présentent un grand avantage tant que les annotations sont en place. Au fil du temps, l’annotation manuelle s’est progressivement déplacée des États-Unis vers des pays du tiers-monde tels que le Venezuela et les Philippines afin de réduire les coûts.
Au fur et à mesure que le modèle se développe, la précision de l’annotation automatisée des données s’améliore, et le modèle peut être utilisé pour faciliter l’annotation manuelle, par exemple le prétraitement des données du modèle, puis leur envoi à l’annotation humaine, ou les résultats d’annotation fournis par le modèle automatisé sont examinés et corrigés manuellement. Par rapport à l’annotation manuelle pure, l’annotation assistée par l’IA accélère la vitesse d’annotation des données. À l’heure actuelle, l’une des plus grandes entreprises d’étiquetage de données au monde, telle que Scale AI, s’efforce de réduire la proportion d’implication humaine dans le processus d’étiquetage des données.
Bien que la pré-annotation ait obtenu de bons résultats dans le domaine de la vision par ordinateur, dans la nouvelle ère des langages et des grands modèles, la pré-annotation est encore très immature et ne peut pas remplacer complètement le travail humain. Les raisons sont les suivantes :1. Faible précision, en particulier lorsqu’il s’agit de tâches complexes et de cas limites. 2. Problèmes de biais d’échantillonnage et d’hallucinations de modèle. 3. Certains secteurs verticaux nécessitent de grands ensembles de données annotés par des experts en la matière. 4. L’évolutivité de la pré-annotation est médiocre, en particulier pour les petits langages ou les scénarios peu courants, le coût est élevé et la qualité est médiocre, et elle doit toujours être effectuée manuellement.
En résumé, la pré-annotation ne remplacera pas complètement l’annotation manuelle à court terme, et les deux coexisteront. Bien que le pourcentage d’annotations manuelles puisse diminuer, les auditeurs sont toujours tenus d’examiner l’annotation des données pendant le processus d’annotation.
Figure : Processus d’étiquetage des données dans le cadre du pré-étiquetage
L’industrie de l’annotation de données n’est pas nouvelle, elle a commencé à émerger en 17/18 avec l’essor de la conduite intelligente. Le graphique ci-dessous montre la taille prévue du marché des fournisseurs d’étiquetage de données en Chine, et il convient de mentionner que la taille du marché de l’étiquetage de données aux États-Unis est environ 3 à 5 fois supérieure à celle de la Chine.
L’industrie de l’étiquetage des données est un marché relativement fragmenté, non pas comme un domaine avec des barrières techniques extrêmement élevées, mais plutôt comme un domaine avec des barrières techniques, humaines et de gestion organisationnelle représentant un tiers chacune. La compétitivité fondamentale dans ce domaine se reflète principalement dans les aspects suivants :1. Prix 2. Qualité 3. Couverture de l’expertise et des connaissances (diversité ?)4. vitesse
Le prix est évident, car tout le monde a besoin de beaucoup de données bon marché. Les pressions sur les prix entraînent une forme d’arbitrage géographique, alors que dans les pays développés des États-Unis, il peut en coûter 1 dollar pour payer un salaire pour remplir une étiquette de données, tandis que dans la Chine moins développée, cela ne coûte que 0,5 dollar, et aux Philippines, cela peut coûter aussi peu que 0,1 dollar. Par conséquent, l’une des solutions sur le marché est de donner des commandes aux pays industrialisés, puis de recruter des personnes dans les pays du tiers-monde pour résoudre le problème par le biais de studios exploités directement.
La qualité des données est également facile à comprendre, et des données de haute qualité sont nécessaires dans le domaine des grands modèles et de la conduite intelligente. Si la qualité des données introduites dans le modèle est médiocre, les performances du grand modèle en souffriront également. L’une des solutions efficaces pour résoudre le problème de la qualité des données consiste à générer des données brutes par le biais du pré-étiquetage du modèle, puis à annoter manuellement, puis à effectuer en continu un apprentissage par renforcement et un retour d’information humain pour améliorer la qualité de l’étiquetage des données. Ou bien, l’équipe doit être très claire sur le processus d’étiquetage des données pour les clients en aval, et être en mesure d’élaborer des procédures opérationnelles standard (SOP) afin que le personnel d’annotation des données puisse annoter en fonction des SOP pour améliorer la qualité.
Mais comment comprendre l’expertise et la couverture des connaissances ? Prenons trois exemples :
Il s’agit d’un véritable défi dans le cadre du modèle général. Annoter de grands modèles de texte peut être relativement facile, mais vous devez trouver des personnes capables d’annoter plusieurs langues telles que le chinois, l’anglais, le français, l’allemand, le russe et l’arabe, et la façon dont une entreprise d’étiquetage de données peut recruter et gérer autant de personnes distribuées à l’échelle mondiale sera un défi.
Prenons l’exemple d’une start-up d’applications d’IA dans le domaine des voicebots/digital humans. Les startups n’ont souvent pas le temps, la main-d’œuvre et l’argent nécessaires pour mettre en place une équipe d’annotation de données en interne. Ils avaient besoin de trouver une équipe externalisée pour les aider à étiqueter les familles de langues chinoises telles que l’accent du Sichuan, l’accent cantonais, l’accent de Shanghai, l’accent du Nord-Est, etc., ainsi que les familles de langues anglaises telles que l’accent anglais nord-américain, l’accent anglais britannique et l’accent anglais de Singapour. Il peut être très difficile de trouver un bon studio d’annotation de données sur le marché capable de gérer ces tâches. Si la vente directe ou la sous-traitance sont adoptées, il peut s’écouler un ou deux mois de temps de travail entre la réception des commandes et le recrutement, ce qui affectera gravement l’efficacité de l’approvisionnement.
Considérez un domaine plus spécialisé, où une startup qui se concentre sur les modèles juridiques nécessite beaucoup d’annotations de données juridiques. Le domaine du droit a encore des exigences professionnelles assez élevées, et les startups doivent trouver un fournisseur d’annotation de données qui répond aux critères suivants :1. Au moins une douzaine de personnes qui comprennent la loi, et qui peuvent également avoir besoin de couvrir la loi chinoise, la loi de Hong Kong, la loi américaine, etc. Doit être capable de comprendre le chinois et l’anglais ; 3. Le coût ne doit pas être trop élevé. Si vous demandez à un avocat de faire l’étiquetage, il peut être réticent à faire le travail en raison du salaire plus élevé de l’avocat. Par conséquent, la solution actuelle pour ce type de segmentation ne peut être que de recruter des stagiaires scolaires en interne pour travailler sur l’annotation des données. Pour le mode de gestion de la vente directe et de la sous-traitance, il est encore assez difficile de compléter la piste de ces subdivisions.
Ainsi, les principaux acteurs du marché peuvent être divisés en trois catégories :1. Réalisé en interne par de grandes entreprises (par exemple, Baidu crowdsourcing) ;2. Les startups avec un modèle direct/sous-traitant (analysées ci-dessous) ; Studios d’annotation de données de petite et moyenne taille.
Graphique : La taille du marché des données sur le marché chinois de l’IA
Avant d’entrer dans le vif du sujet, jetons un coup d’œil aux principales startups actuelles de l’espace :
Scale AI : L’activité principale de Scale AI aux États-Unis couvre quatre aspects : l’annotation, la gestion et l’évaluation des données (contrôler la qualité des données annotées et améliorer l’efficacité de l’annotation), l’automatisation (annotation auxiliaire pour améliorer l’efficacité), et la synthèse des données (lorsque le modèle devient de plus en plus abondant, et que les données réelles ne suffisent pas, il est nécessaire de synthétiser automatiquement le modèle d’alimentation des données, et nous parlerons de la piste des données synthétiques plus tard). Scale AI s’est d’abord concentré sur l’annotation de la conduite autonome, et il y a deux ans, 80 à 90 % des commandes de l’entreprise provenaient de la conduite autonome (2D, 3D, LiDAR, etc.), et cette proportion a diminué ces dernières années. La source de commande de l’entreprise est en réponse à la tendance de l’industrie des fournisseurs, et ces dernières années, le gouvernement, le commerce électronique, les robots, les grands modèles et d’autres domaines se sont développés rapidement, associés à la capacité de l’équipe à saisir les tendances de l’industrie, afin qu’elle puisse maintenir une part de marché élevée dans chaque segment. En outre, Scale AI a lancé son propre service de modèle en tant que service, qui permet notamment aux clients d’affiner, d’héberger et de déployer des modèles.
Il existe deux types de modèles de recharge :
Base de consommation : par exemple, Scale Image commence à 2 centimes par image et 6 centimes par étiquette, Mise à l’échelle de la vidéo commence à 13 centimes par image vidéo et 3 centimes par étiquette, Mise à l’échelle du texte commence à 5 centimes par tâche et 3 centimes par étiquette, et Mise à l’échelle de l’IA du document commence à 2 centimes par travail et 7 centimes par étiquette.
La base de projet, qui est basée sur la quantité de données dans le contrat, etc., est en fait un revenu basé sur un projet, avec une valeur unitaire allant de centaines de milliers de dollars à des dizaines de millions de dollars.
Avec un chiffre d’affaires prévu de 290 millions de dollars en 2022 et une valorisation actuelle de 7 milliards de dollars, Scale AI est la plus grande société d’annotation de données au monde. Les investisseurs de l’entreprise sont également très luxueux.
CAA haïtienne : La CAA haïtienne chinoise joue également un rôle important dans le domaine de l’annotation de données. L’entreprise possède une riche expérience dans l’annotation de données, le nettoyage de données, l’analyse de données, etc. Cependant, les informations détaillées sur son modèle d’affaires, ses méthodes de tarification et son financement ne sont pas encore claires.
Appen : L’australienne Appen est une autre des principales sociétés d’annotation de données au monde. À l’instar de Scale AI, Appen fournit des services tels que l’annotation de données, la collecte de données vocales et la traduction. La société dispose d’un grand nombre d’annotateurs dans le monde entier pour fournir aux clients des services d’annotation de données de haute qualité. Le modèle d’affaires et le financement détaillés d’Appen méritent également une étude plus approfondie.
Ces trois sociétés occupent une position importante dans l’espace mondial de l’annotation de données, représentant les positions de leader dans ce domaine aux États-Unis, en Chine et en Australie, respectivement. Avant de nous plonger dans les modèles d’affaires des startups et la concurrence sur le marché, une compréhension de ces entreprises leaders aidera à fournir une compréhension plus complète du contexte de l’industrie dans son ensemble.
Haitian AAC est une société cotée en actions A, mais ce n’est pas exactement une société d’étiquetage de données. Par rapport à la constitution de sa propre équipe pour faire l’annotation des données, Haitian est essentiellement un fournisseur de services techniques, sous-traitant des commandes à divers studios. Le cœur de l’expansion de l’AAC haïtien en Chine dépend de : 1. Il a une accumulation profonde dans l’annotation vocale, couvrant plus de 190 langues (représentant 70 à 80% des revenus) 2. Effet d’échelle 3. Bonne capacité d’internationalisation. En Chine, l’industrie de l’étiquetage des données est très sauvage et précoce, très dispersée et désordonnée, et il y a également un manque de normes et de normes industrielles.
Nous pouvons examiner la comparaison du modèle d’affaires entre (Appen) et Haïtien pour voir le modèle d’affaires de la vente directe / externalisation et l’expérience de la marge brute.
Figure : Modèles d’affaires directs/d’externalisation...
Avec autant de préfigurations, les lecteurs ayant une bonne mémoire n’ont pas pensé à la façon dont notre titre remodèle l’annotation des données avec la blockchain. Le texte intégral n’a pas encore parlé de la blockchain, comment la remodeler ?
L’avenir de l’IA doit être ouvert et souverain, qu’il s’agisse de données, de puissance de calcul ou de modèles, il doit fournir un accès universel et ouvert à la société sur la base d’une qualité et d’une efficacité élevées. Tous les participants qui contribuent à l’avancement de l’IA devraient avoir des droits de propriété sur leurs propres contributions et résultats, ainsi qu’une distribution raisonnable et des récompenses des avantages.
Notre récente société d’investissement, Quest Labs, vise à redéfinir la relation entre l’IA et les personnes dans la nouvelle ère, et à utiliser l’IA et la technologie blockchain pour perturber et résoudre les problèmes existants dans le secteur. En tant que pelle nécessaire en amont de la chaîne industrielle de l’IA, le service de données est le premier problème que Quest veut résoudre. Promouvoir l’efficacité de la production de données grâce à l’IA, et redéfinir le modèle économique et la capture de valeur des ensembles de données publics dans la nouvelle ère grâce à la blockchain, qui se complètent pour produire en permanence des données de grande valeur et améliorer la capacité et la cognition des annotateurs d’IA.
1.AI et intelligence humaine collaborative :
Une infrastructure intelligente centrée sur l’IA et l’humain dans la boucle pour permettre et inciter les équipes humaines à interagir en douceur avec les modèles de copilote,提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据
Une place de marché décentralisée, alimentée par l’outil Humans Ops, qui maximise l’efficacité de la gestion décentralisée de la main-d’œuvre et optimise la collaboration et la communication au sein d’un réseau mondial d’équipes distribuées
Divulgation des données, confidentialité et propriété
La plate-forme encourage profondément le trafic et l’adhésion des utilisateurs par le biais de flux de trésorerie payants et de jetons, et stimule constamment l’effet de volant d’inertie des données, capturant le comportement et les données historiques de l’offre et de la demande pour apprendre en permanence les uns des autres. Les algorithmes sont utilisés pour recommander et formuler des cadres de demande de données afin d’assurer une valeur commerciale future (hard domain mining), couvrant un grand nombre de scénarios de segmentation verticale. Tous les participants au marquage de données peuvent commencer à fournir des ensembles de données à l’avance pour qu’ils soient appelés et commercialisés, et recevoir des flux de trésorerie et des récompenses symboliques, devenant ainsi un précieux réseau de données d’IA ouvert dans la nouvelle ère.
Cryptage des données et protection de la vie privée : ZK et FHE sont utilisés pour mieux crypter les données des utilisateurs pour le traitement et le stockage.
La technologie blockchain est utilisée pour tracer et vérifier la propriété des données par les participants, y compris les différents résultats tels que la collecte et l’annotation, et leurs valeurs correspondantes.
Nouveau modèle économique
Grâce à Meituan, une plateforme mondiale de services de données d’IA qui correspond automatiquement à l’IA, nous passerons d’une économie planifiée centralisée à une économie de marché.
Assurer la crédibilité de la réputation + système de règlement d’optimisation de la monnaie numérique grâce à la technologie blockchain, élargir à l’infini le flux de personnes du côté de l’offre pour faire un appariement précis, afin que les bonnes personnes puissent faire la bonne chose afin d’être efficace et de qualité. Grâce au chevauchement des services d’étiquetage des données et de la population pauvre, l’emploi + l’inclusion financière sont réalisés de manière déguisée.
Des jetons sont donnés aux utilisateurs pour encourager l’apprentissage continu et les services et résultats de haute qualité, et en même temps inciter les utilisateurs à fournir un retour d’information de haute qualité et efficace pour optimiser le modèle de plate-forme afin d’augmenter l’efficacité et la productivité de l’ensemble du pipeline (apprentissage continu mutuel humain et IA).
Distribution raisonnable des avantages et capture de la valeur selon POPW par le biais de jetons, mieux réduire le CAC, puis augmenter la rétention
Du point de vue du monde du web2, il s’agit d’une plateforme de distribution pour l’annotation de données, un peu comme Didi et Meituan Takeaway. Mais du point de vue du web3, il s’agit d’un Axie Infinity+YGG avec un vrai cash-flow. Dans le marché haussier de 2021, la combinaison d’Axie et de YGG a amené un nombre considérable d’utilisateurs du tiers-monde dans le Web3, et ce type de guilde de jeu a nourri un très grand nombre de familles du tiers-monde pendant l’épidémie, en particulier les Philippines. Le marché a également donné à Axie et YGG de très bons rendements, et ce sont des Alphas très intéressants. En tant qu’investisseur dans le rapprochement du Web2 et du Web3, nous sommes tout à fait disposés à soutenir les projets et les équipes qui utilisent la technologie blockchain pour contribuer à des affaires réelles, et nous attendons avec impatience les performances de l’équipe à l’avenir. C’est aussi dans cette direction que l’on voit que peu de technologies Web3 peuvent donner des ailes au business du Web2.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Du Web2 au Web3 : pourquoi je suis optimiste sur la voie de l’IA
Auteur : Zixi.eth, Matrix Partners China Investisseur Source : X (anciennement Twitter) @Zixi41620514
Récemment, j’ai commencé à me concentrer sur la piste d’IA Web2/Web3, la communauté des modèles open source dans la piste des modèles globaux, la piste des données et divers intergiciels au service du grand modèle - tels que le service de processus complet pour le modèle de base dans le modèle de l’industrie, et certaines applications. Nous accueillons toutes sortes d’entrepreneurs pour communiquer avec nous, nous pensons que l’IA sera une voie à long terme.
Dans le premier numéro, je dirai que l’industrie de l’étiquetage des données dans le volet des données que nous avons récemment établi est également un objectif très satisfaisant pour moi cette année.
Le développement de l’IA peut être divisé en préparation des données avec les processus de collecte, de nettoyage, d’annotation et d’amélioration des données comme corps principal, et le développement d’algorithmes avec la construction, l’entraînement, le réglage et le déploiement du modèle comme corps principal. Parmi eux, en raison des besoins diversifiés de l’IA dans la nouvelle ère des données, tels que la multimodalité, la haute précision et une forte personnalisation, la dépendance des données de l’IA sur le travail humain dans la nouvelle ère est également très élevée, et il est également nécessaire d’améliorer encore l’interaction fluide entre l’IA et les personnes pour augmenter l’efficacité. L’étiquetage des données fait référence à l’identification et à la différenciation des éléments de caractéristiques dans les échantillons de données requis pour l’entraînement du modèle. Étant donné que le développement de l’IA est encore au stade de l’apprentissage supervisé, l’apprentissage et la vérification des informations de connotation des données et de la logique entre les données dans le processus d’apprentissage des modèles d’algorithmes d’IA représentés par l’apprentissage profond sont réalisés sur la base de l’identification des caractéristiques des données, et l’annotation des données est nécessaire, ce qui est l’une des tâches principales de la préparation des données et même du développement de projets d’intelligence artificielle. À l’instar du reste du flux de travail de préparation des données, l’étiquetage des données dépend fortement de la main-d’œuvre. Les longs cycles de travail et les coûts de main-d’œuvre énormes sont devenus l’un des principaux facteurs limitant le développement de l’industrie de l’IA. Les difficultés rencontrées du côté de l’offre de services d’annotation de données ont généré une demande du marché pour des outils d’automatisation et ont favorisé le développement et l’application à grande échelle de la technologie d’annotation intelligente des données.
Figure 1 : De l’acquisition de données aux jeux de données utilisables par l’IA
! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img.jinse.cn/7135831_watermarknone.png « 7135831 »)
À l’heure actuelle, dans le domaine de la conduite intelligente, en aval de la plus grande application de l’annotation de données, un grand nombre d’humains sont encore nécessaires pour étiqueter divers scénarios, tels que les chats et les chiens, les poteaux téléphoniques, les poussettes, etc. Par exemple, Scale AI est un important fournisseur de données pour OpenAI, et ils ont établi leurs propres studios d’annotation de données dans les pays du tiers monde à travers le monde pour aider OpenAI dans l’annotation de données textuelles/d’images.
Cependant, avec les progrès de l’IA, la proportion de pré-annotation dans le flux de travail augmente progressivement. Au début, l’annotation des données était principalement effectuée manuellement pour créer et accumuler des ensembles de données d’apprentissage automatique. Bien que relativement inefficaces et coûteuses, les données fournies à la machine présentent un grand avantage tant que les annotations sont en place. Au fil du temps, l’annotation manuelle s’est progressivement déplacée des États-Unis vers des pays du tiers-monde tels que le Venezuela et les Philippines afin de réduire les coûts.
Au fur et à mesure que le modèle se développe, la précision de l’annotation automatisée des données s’améliore, et le modèle peut être utilisé pour faciliter l’annotation manuelle, par exemple le prétraitement des données du modèle, puis leur envoi à l’annotation humaine, ou les résultats d’annotation fournis par le modèle automatisé sont examinés et corrigés manuellement. Par rapport à l’annotation manuelle pure, l’annotation assistée par l’IA accélère la vitesse d’annotation des données. À l’heure actuelle, l’une des plus grandes entreprises d’étiquetage de données au monde, telle que Scale AI, s’efforce de réduire la proportion d’implication humaine dans le processus d’étiquetage des données.
Bien que la pré-annotation ait obtenu de bons résultats dans le domaine de la vision par ordinateur, dans la nouvelle ère des langages et des grands modèles, la pré-annotation est encore très immature et ne peut pas remplacer complètement le travail humain. Les raisons sont les suivantes :1. Faible précision, en particulier lorsqu’il s’agit de tâches complexes et de cas limites. 2. Problèmes de biais d’échantillonnage et d’hallucinations de modèle. 3. Certains secteurs verticaux nécessitent de grands ensembles de données annotés par des experts en la matière. 4. L’évolutivité de la pré-annotation est médiocre, en particulier pour les petits langages ou les scénarios peu courants, le coût est élevé et la qualité est médiocre, et elle doit toujours être effectuée manuellement.
En résumé, la pré-annotation ne remplacera pas complètement l’annotation manuelle à court terme, et les deux coexisteront. Bien que le pourcentage d’annotations manuelles puisse diminuer, les auditeurs sont toujours tenus d’examiner l’annotation des données pendant le processus d’annotation.
Figure : Processus d’étiquetage des données dans le cadre du pré-étiquetage
! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img.jinse.cn/7135843_watermarknone.png « 7135843 »)
L’industrie de l’annotation de données n’est pas nouvelle, elle a commencé à émerger en 17/18 avec l’essor de la conduite intelligente. Le graphique ci-dessous montre la taille prévue du marché des fournisseurs d’étiquetage de données en Chine, et il convient de mentionner que la taille du marché de l’étiquetage de données aux États-Unis est environ 3 à 5 fois supérieure à celle de la Chine.
L’industrie de l’étiquetage des données est un marché relativement fragmenté, non pas comme un domaine avec des barrières techniques extrêmement élevées, mais plutôt comme un domaine avec des barrières techniques, humaines et de gestion organisationnelle représentant un tiers chacune. La compétitivité fondamentale dans ce domaine se reflète principalement dans les aspects suivants :1. Prix 2. Qualité 3. Couverture de l’expertise et des connaissances (diversité ?)4. vitesse
Le prix est évident, car tout le monde a besoin de beaucoup de données bon marché. Les pressions sur les prix entraînent une forme d’arbitrage géographique, alors que dans les pays développés des États-Unis, il peut en coûter 1 dollar pour payer un salaire pour remplir une étiquette de données, tandis que dans la Chine moins développée, cela ne coûte que 0,5 dollar, et aux Philippines, cela peut coûter aussi peu que 0,1 dollar. Par conséquent, l’une des solutions sur le marché est de donner des commandes aux pays industrialisés, puis de recruter des personnes dans les pays du tiers-monde pour résoudre le problème par le biais de studios exploités directement.
La qualité des données est également facile à comprendre, et des données de haute qualité sont nécessaires dans le domaine des grands modèles et de la conduite intelligente. Si la qualité des données introduites dans le modèle est médiocre, les performances du grand modèle en souffriront également. L’une des solutions efficaces pour résoudre le problème de la qualité des données consiste à générer des données brutes par le biais du pré-étiquetage du modèle, puis à annoter manuellement, puis à effectuer en continu un apprentissage par renforcement et un retour d’information humain pour améliorer la qualité de l’étiquetage des données. Ou bien, l’équipe doit être très claire sur le processus d’étiquetage des données pour les clients en aval, et être en mesure d’élaborer des procédures opérationnelles standard (SOP) afin que le personnel d’annotation des données puisse annoter en fonction des SOP pour améliorer la qualité.
Mais comment comprendre l’expertise et la couverture des connaissances ? Prenons trois exemples :
Il s’agit d’un véritable défi dans le cadre du modèle général. Annoter de grands modèles de texte peut être relativement facile, mais vous devez trouver des personnes capables d’annoter plusieurs langues telles que le chinois, l’anglais, le français, l’allemand, le russe et l’arabe, et la façon dont une entreprise d’étiquetage de données peut recruter et gérer autant de personnes distribuées à l’échelle mondiale sera un défi.
Prenons l’exemple d’une start-up d’applications d’IA dans le domaine des voicebots/digital humans. Les startups n’ont souvent pas le temps, la main-d’œuvre et l’argent nécessaires pour mettre en place une équipe d’annotation de données en interne. Ils avaient besoin de trouver une équipe externalisée pour les aider à étiqueter les familles de langues chinoises telles que l’accent du Sichuan, l’accent cantonais, l’accent de Shanghai, l’accent du Nord-Est, etc., ainsi que les familles de langues anglaises telles que l’accent anglais nord-américain, l’accent anglais britannique et l’accent anglais de Singapour. Il peut être très difficile de trouver un bon studio d’annotation de données sur le marché capable de gérer ces tâches. Si la vente directe ou la sous-traitance sont adoptées, il peut s’écouler un ou deux mois de temps de travail entre la réception des commandes et le recrutement, ce qui affectera gravement l’efficacité de l’approvisionnement.
Considérez un domaine plus spécialisé, où une startup qui se concentre sur les modèles juridiques nécessite beaucoup d’annotations de données juridiques. Le domaine du droit a encore des exigences professionnelles assez élevées, et les startups doivent trouver un fournisseur d’annotation de données qui répond aux critères suivants :1. Au moins une douzaine de personnes qui comprennent la loi, et qui peuvent également avoir besoin de couvrir la loi chinoise, la loi de Hong Kong, la loi américaine, etc. Doit être capable de comprendre le chinois et l’anglais ; 3. Le coût ne doit pas être trop élevé. Si vous demandez à un avocat de faire l’étiquetage, il peut être réticent à faire le travail en raison du salaire plus élevé de l’avocat. Par conséquent, la solution actuelle pour ce type de segmentation ne peut être que de recruter des stagiaires scolaires en interne pour travailler sur l’annotation des données. Pour le mode de gestion de la vente directe et de la sous-traitance, il est encore assez difficile de compléter la piste de ces subdivisions.
Ainsi, les principaux acteurs du marché peuvent être divisés en trois catégories :1. Réalisé en interne par de grandes entreprises (par exemple, Baidu crowdsourcing) ;2. Les startups avec un modèle direct/sous-traitant (analysées ci-dessous) ; Studios d’annotation de données de petite et moyenne taille.
Graphique : La taille du marché des données sur le marché chinois de l’IA
! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img.jinse.cn/7135849_watermarknone.png « 7135849 »)
Avant d’entrer dans le vif du sujet, jetons un coup d’œil aux principales startups actuelles de l’espace :
Il existe deux types de modèles de recharge :
Base de consommation : par exemple, Scale Image commence à 2 centimes par image et 6 centimes par étiquette, Mise à l’échelle de la vidéo commence à 13 centimes par image vidéo et 3 centimes par étiquette, Mise à l’échelle du texte commence à 5 centimes par tâche et 3 centimes par étiquette, et Mise à l’échelle de l’IA du document commence à 2 centimes par travail et 7 centimes par étiquette.
La base de projet, qui est basée sur la quantité de données dans le contrat, etc., est en fait un revenu basé sur un projet, avec une valeur unitaire allant de centaines de milliers de dollars à des dizaines de millions de dollars.
Avec un chiffre d’affaires prévu de 290 millions de dollars en 2022 et une valorisation actuelle de 7 milliards de dollars, Scale AI est la plus grande société d’annotation de données au monde. Les investisseurs de l’entreprise sont également très luxueux.
CAA haïtienne : La CAA haïtienne chinoise joue également un rôle important dans le domaine de l’annotation de données. L’entreprise possède une riche expérience dans l’annotation de données, le nettoyage de données, l’analyse de données, etc. Cependant, les informations détaillées sur son modèle d’affaires, ses méthodes de tarification et son financement ne sont pas encore claires.
Appen : L’australienne Appen est une autre des principales sociétés d’annotation de données au monde. À l’instar de Scale AI, Appen fournit des services tels que l’annotation de données, la collecte de données vocales et la traduction. La société dispose d’un grand nombre d’annotateurs dans le monde entier pour fournir aux clients des services d’annotation de données de haute qualité. Le modèle d’affaires et le financement détaillés d’Appen méritent également une étude plus approfondie.
! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img.jinse.cn/7135866_watermarknone.png « 7135866 »)
! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img.jinse.cn/7135867_watermarknone.png « 7135867 »)
Ces trois sociétés occupent une position importante dans l’espace mondial de l’annotation de données, représentant les positions de leader dans ce domaine aux États-Unis, en Chine et en Australie, respectivement. Avant de nous plonger dans les modèles d’affaires des startups et la concurrence sur le marché, une compréhension de ces entreprises leaders aidera à fournir une compréhension plus complète du contexte de l’industrie dans son ensemble.
Haitian AAC est une société cotée en actions A, mais ce n’est pas exactement une société d’étiquetage de données. Par rapport à la constitution de sa propre équipe pour faire l’annotation des données, Haitian est essentiellement un fournisseur de services techniques, sous-traitant des commandes à divers studios. Le cœur de l’expansion de l’AAC haïtien en Chine dépend de : 1. Il a une accumulation profonde dans l’annotation vocale, couvrant plus de 190 langues (représentant 70 à 80% des revenus) 2. Effet d’échelle 3. Bonne capacité d’internationalisation. En Chine, l’industrie de l’étiquetage des données est très sauvage et précoce, très dispersée et désordonnée, et il y a également un manque de normes et de normes industrielles.
! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img.jinse.cn/7135868_watermarknone.png « 7135868 »)
! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img.jinse.cn/7135871_watermarknone.png « 7135871 »)
Nous pouvons examiner la comparaison du modèle d’affaires entre (Appen) et Haïtien pour voir le modèle d’affaires de la vente directe / externalisation et l’expérience de la marge brute.
Figure : Modèles d’affaires directs/d’externalisation...
! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img.jinse.cn/7135872_watermarknone.png « 7135872 »)
! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img.jinse.cn/7135873_watermarknone.png « 7135873 »)
Avec autant de préfigurations, les lecteurs ayant une bonne mémoire n’ont pas pensé à la façon dont notre titre remodèle l’annotation des données avec la blockchain. Le texte intégral n’a pas encore parlé de la blockchain, comment la remodeler ?
L’avenir de l’IA doit être ouvert et souverain, qu’il s’agisse de données, de puissance de calcul ou de modèles, il doit fournir un accès universel et ouvert à la société sur la base d’une qualité et d’une efficacité élevées. Tous les participants qui contribuent à l’avancement de l’IA devraient avoir des droits de propriété sur leurs propres contributions et résultats, ainsi qu’une distribution raisonnable et des récompenses des avantages.
Notre récente société d’investissement, Quest Labs, vise à redéfinir la relation entre l’IA et les personnes dans la nouvelle ère, et à utiliser l’IA et la technologie blockchain pour perturber et résoudre les problèmes existants dans le secteur. En tant que pelle nécessaire en amont de la chaîne industrielle de l’IA, le service de données est le premier problème que Quest veut résoudre. Promouvoir l’efficacité de la production de données grâce à l’IA, et redéfinir le modèle économique et la capture de valeur des ensembles de données publics dans la nouvelle ère grâce à la blockchain, qui se complètent pour produire en permanence des données de grande valeur et améliorer la capacité et la cognition des annotateurs d’IA.
1.AI et intelligence humaine collaborative :
Grâce à Meituan, une plateforme mondiale de services de données d’IA qui correspond automatiquement à l’IA, nous passerons d’une économie planifiée centralisée à une économie de marché.
Du point de vue du monde du web2, il s’agit d’une plateforme de distribution pour l’annotation de données, un peu comme Didi et Meituan Takeaway. Mais du point de vue du web3, il s’agit d’un Axie Infinity+YGG avec un vrai cash-flow. Dans le marché haussier de 2021, la combinaison d’Axie et de YGG a amené un nombre considérable d’utilisateurs du tiers-monde dans le Web3, et ce type de guilde de jeu a nourri un très grand nombre de familles du tiers-monde pendant l’épidémie, en particulier les Philippines. Le marché a également donné à Axie et YGG de très bons rendements, et ce sont des Alphas très intéressants. En tant qu’investisseur dans le rapprochement du Web2 et du Web3, nous sommes tout à fait disposés à soutenir les projets et les équipes qui utilisent la technologie blockchain pour contribuer à des affaires réelles, et nous attendons avec impatience les performances de l’équipe à l’avenir. C’est aussi dans cette direction que l’on voit que peu de technologies Web3 peuvent donner des ailes au business du Web2.