Le champ de bataille des mégamodèles d'IA se fragmente.
En tant que fusible, Chatgpt a ouvert la porte à l'ère de l'IA2.0, et l'IA2.0 se caractérise par "l'intelligence industrielle et la numérisation", qui peuvent remplacer efficacement le travail et être largement utilisées dans tous les domaines de la vie. a déjà passé la période d'emballement, la mise en place du grand modèle IA est plus réaliste.
La manifestation la plus typique est que le grand modèle d'IA sort plus largement du cercle, pas seulement du côté B. Par exemple, même si chatGPT est sorti depuis plus de six mois, l'auteur peut encore entendre les voix des travailleurs migrants parler de chatGPT dans le café en bas à Shanghai CBD ; selon les médias, certaines entreprises utilisent également AIGC comme un outil de productivité.
Comme l'a déclaré Zhang Yong, président-directeur général d'Alibaba Group et PDG d'Alibaba Cloud Intelligence Group : Face à l'ère de l'IA, tous les produits valent la peine d'être refaits avec un grand modèle.
Les grandes usines, les instituts de recherche scientifique et les entrepreneurs ont tous pris fin.
De grands fabricants tels que Baidu Wenxin Yiyan, Huawei Pangu, 360 Zhinao, Shangtang Rixin, Ali Tongyi Qianwen, Jingdong Lingxi, Kunlun Wanwei Tiangong et d'autres grands modèles sont apparus successivement, suivis de Tencent Hunyuan, HKUST De grands modèles tels que Xunfei Xinghuo attendent dans ligne pour aller en ligne.
Les entrepreneurs ont aussi des célébrités : Wang Xiaochuan, fondateur de Sogou, Wang Huiwen, co-fondateur de Meituan, Kaifu Li, président de Sinovation Works, et d'autres ont fait des apparitions très médiatisées dans les grands modèles d'IA.
L'engouement pour les modèles à grande échelle d'IA qui a duré plus de quelques mois a engendré deux voies.
Course aux armements IA, grande différenciation des modèles
Les grands modèles d'IA sont entrés dans la phase de compétition et les chemins divergent progressivement.
Alors que le modèle d'IA se réchauffe progressivement, selon les statistiques des médias, début février, il n'y avait que 29 actions dans la section "ChatGPT" d'Oriental Fortune, et maintenant il a atteint 61 actions, et le nombre continue d'augmenter . Selon des statistiques incomplètes, à ce jour, plus de 40 entreprises et institutions de mon pays ont publié des produits modèles à grande échelle ou annoncé des plans de modèles à grande échelle.
Parmi eux, les acteurs participant à la "course aux armements" des modèles à grande échelle d'IA ont également développé deux axes de développement. Les grands modèles verticaux et les grands modèles généraux deviennent les deux principaux axes de développement dans le domaine de l'intelligence artificielle.
Les grands modèles verticaux font référence à des modèles optimisés pour des domaines ou des tâches spécifiques, tels que la reconnaissance vocale, le traitement du langage naturel, la classification d'images, etc.
Actuellement, de plus en plus d'entreprises rejoignent la voie des modèles verticaux à grande échelle. Xueersi a annoncé qu'il développait un grand modèle mathématique auto-développé, nommé MathGPT, pour les passionnés de mathématiques et les instituts de recherche scientifique du monde entier ; le 6 mai, Taoyun Technology a annoncé le lancement d'un grand modèle cognitif pour les enfants - Alpha Egg Children's Cognitive Big Le modèle apporte une nouvelle expérience interactive pour les enfants en termes de pratique de l'expression, de culture de l'égalisation, d'inspiration de la créativité et d'aide à l'apprentissage.
Les grands modèles généraux font référence à des modèles capables de gérer plusieurs tâches et domaines, tels que BERT, GPT, etc.
En raison des avantages du capital et des talents, les grands constructeurs visent principalement la piste des gros modèles à usage général.
Les grands fabricants visent les grands modèles à usage général. D'une part, ils peuvent combiner les capacités de l'IA avec leurs propres produits. Des sociétés Internet plus représentatives et des géants de la technologie tels qu'Alibaba, Huawei et Baidu.
Par exemple, suite à l'intégration par Microsoft de GPT-4 dans le compartiment de la famille Office, "Tongyi Qianwen" d'Ali a également commencé à accéder à DingTalk. Les utilisateurs peuvent générer du contenu dans des documents et, lors de vidéoconférences, ils peuvent générer chacun des vues et du contenu personnels.
Par exemple, le grand modèle de Baidu peut également être combiné avec sa propre entreprise. "Wen Xin Yi Yan" peut avoir une transformation qualitative dans l'itération des moteurs de recherche. "Yuyan" de NetEase et "ChatJD" de JD.com peuvent être utilisés en premier dans leur propres industries.
D'autre part, le grand modèle à usage général a une large applicabilité, et ceux qui surpassent les premiers peuvent établir un avantage de premier arrivé et devenir le leader de l'ère AI2.0. Après tout, tout le monde sait que "ceux qui courent vite obtiennent la viande, et ceux qui courent lentement ne peuvent manger que les restes".
Le grand modèle d'application verticale peut être décrit comme un "flux clair". Étant donné que le grand modèle d'application verticale est plus conforme aux besoins des scénarios verticaux et a une qualité supérieure à celle du grand modèle général, de nombreuses entreprises ont également vu les opportunités. Par exemple, Shenlan, Mobvoi, Youdao et d'autres entreprises qui se concentrent sur des pistes d'IA spécifiques.
Le développement de grands modèles verticaux se reflète principalement dans l'amélioration continue des performances des modèles dans divers domaines. Par exemple, le taux d'erreur de la reconnaissance vocale a diminué d'année en année et la capacité de compréhension sémantique du traitement du langage naturel a continué de s'améliorer. Le grand modèle général a fait des progrès remarquables dans l'apprentissage multi-tâches et l'apprentissage par transfert, et est devenu une direction de recherche importante dans le domaine du traitement du langage naturel.
Par exemple, de grands modèles biologiques peuvent améliorer l'efficacité des produits pharmaceutiques d'IA. Des rapports de recherche étrangers montrent que l'IA peut augmenter le taux de réussite de la recherche et du développement de nouveaux médicaments de 16,7 %, et que la recherche et le développement de médicaments assistés par l'IA peuvent économiser 54 milliards de dollars américains en coûts de recherche et développement chaque année, et économiser de 40 % à 60 % de temps et coût dans le processus principal de recherche et développement. Selon les informations publiques de Nvidia, l'utilisation de la technologie de l'IA peut réduire d'un tiers le temps nécessaire à la découverte précoce de médicaments et réduire les coûts d'un deux centième.
D'un point de vue industriel, le modèle général est une "encyclopédie", qui peut répondre à toutes les questions et s'appliquer à différents sols industriels, tandis que le modèle vertical s'apparente à un expert dans un seul domaine. Bien qu'il soit professionnel, son public est destiné à être un petit nombre de personnes.
Les données sont fatales
L'avantage du grand modèle vertical est qu'il n'est pas assez « gros » : la puissance de calcul n'est pas assez grande, et la difficulté de l'algorithme est faible.
Après que Wang Xiaochuan soit entré dans la piste des modèles à grande échelle, il a toujours souligné que la direction des efforts futurs n'est pas de faire de l'AGI (General Artificial Intelligence) comme OpenAI, mais de faire des modèles à grande échelle verticalement dans certains domaines spécifiques et de réaliser des applications d'atterrissage. .
Un grand modèle au sens large décrit en fait un grand modèle à usage général. Tout comme un "grand" modèle, la raison pour laquelle un grand modèle est "grand" est due au grand nombre de paramètres et à l'énorme quantité de données, qui ont un impact important sur les algorithmes, la puissance de calcul et l'espace de stockage des données. De grandes exigences, et ce ne sont pas seulement les gens qui peuvent se rattraper, mais aussi qui ont besoin de beaucoup d'argent. Vous savez, le succès d'Open AI a aussi été construit par Microsoft avec des milliards de dollars. L'énorme demande de capitaux est aussi un test pour la détermination des grands fabricants dans la recherche et le développement.
Au cours des cinq dernières années, le volume de paramètres des grands modèles d'IA a augmenté d'un ordre de grandeur chaque année. Par exemple, le volume de paramètres de GPT-4 est 16 fois supérieur à celui de GPT-3, atteignant 1 600 milliards ; et avec l'introduction de données multimodales telles que les images, l'audio et la vidéo , le volume de données des grands modèles est également en pleine expansion. Cela signifie que si vous voulez jouer avec un grand modèle, vous devez disposer d'une grande puissance de calcul.
Par rapport aux grands fabricants, les entreprises qui fabriquent des modèles verticaux à grande échelle ont des fonds, une puissance de calcul et des données relativement rares, de sorte qu'elles ne sont en fait pas sur la même ligne de départ que les acteurs de modèles à grande échelle à usage général.
Tout comme les véhicules à énergies nouvelles sont indissociables des trois composants majeurs que sont les moteurs, les batteries et les commandes électroniques, les grands modèles d'IA ne peuvent être séparés du support de la puissance de calcul, des algorithmes et des données.
Parmi la puissance de calcul, les algorithmes et les données, les données sont la difficulté des grands modèles verticaux.
Parmi les trois éléments, la difficulté de recherche et de développement de l'algorithme est relativement faible.Les entreprises actuelles ont leurs propres algorithmes de chemin pour implémenter de grands modèles, et il existe de nombreux projets open source à titre de référence.
La puce détermine la puissance de calcul. Le grand modèle global d'IA a besoin d'une puce plus performante pour compléter la formation et la construction du réseau de neurones du modèle global. Cependant, la puce actuelle est moins auto-développée et elle est encore principalement d'origine externe. Par exemple, la puce qui convient le mieux à ChatGPT est celle de Nvidia : la puce phare H100 et la puce sous-phare A100.
La difficulté réside dans les données. Des données de haute qualité sont la clé pour faciliter la formation et le réglage de l'IA Des données suffisantes et riches sont la base des grands modèles d'IA générative.
Selon la précédente divulgation d'OpenAI, le nombre de paramètres ChatGPT3 a atteint à lui seul 175 milliards et les données de formation ont atteint 45 To.
En raison du développement relativement mature de l'Internet mobile en Chine, une grande quantité de ressources de données chinoises sont stockées dans diverses entreprises ou institutions, ce qui rend leur partage difficile.
"Étant donné qu'un grand nombre de données commerciales, de données logistiques, de données financières, etc. de l'entreprise sont des données de domaine privé très essentielles, il est difficile d'imaginer que China Star Optoelectronics ou PetroChina utilisera les données pour que d'autres se forment." Xu Hui, PDG de Chuangxinqizhi, a récemment été interviewé par des valeurs mobilières Dans une interview avec le Times, il a également dit sans ambages.
Prenant l'exemple de l'industrie pharmaceutique de l'IA, les grands modèles biologiques sont confrontés au problème d'être "coincés" par la technologie. Le coût d'obtention de données expérimentales de haute précision pour la recherche et le développement de médicaments est relativement élevé et il existe un grand nombre de données non étiquetées dans la base de données publique. Il est nécessaire de faire bon usage à la fois d'une grande quantité de données non étiquetées et d'un quantité de données de haute précision, donc des exigences plus élevées sont mises en avant pour la construction du modèle.
**Qui gagnera le premier pot d'or ? **
Quel que soit le modèle, la commercialisation est la question centrale. À en juger par les acteurs actuels de l'IA avec de grands modèles, ils progressent rapidement en matière d'autonomisation et de commercialisation.
Bien que le modèle à grande échelle à usage général et le modèle à grande échelle vertical empruntent des voies différentes, ils sont toujours «familiaux» par essence et sont dans la même voie, de sorte que le problème de la concurrence ne peut être évité.
Pour le modèle général à grande échelle, le modèle vertical à grande échelle atterrit en premier et le chemin du modèle général à grande échelle sera plus étroit. De même, après que les modèles à grande échelle à usage général se seront rapidement emparés du marché, il sera plus difficile pour les modèles verticaux à grande échelle avec des secteurs d'activité étroits de gagner de l'argent.
Au stade idéal, qu'il s'agisse d'un modèle économique ou d'une valeur universelle, le modèle généraliste à grande échelle est meilleur que le modèle vertical à grande échelle. Cependant, la vraie vie n'est pas une utopie : celui qui court le plus vite entre le modèle généraliste à grande échelle et le modèle vertical à grande échelle dépend de la concurrence entre les différentes entreprises.
A en juger par le chaud AIGC de l'année dernière. Par rapport au fait de permettre aux utilisateurs d'utiliser l'IA pour générer du contenu avec un seuil inférieur sur l'extrémité C, certains acteurs du marché pensent que l'extrémité B sera le modèle commercial le plus important d'AIGC.
Huawei accorde également plus d'attention à sa propre activité ToB. Lors de la conférence de presse, Huawei a déclaré que le grand modèle Huawei Pangu utilise principalement l'IA pour autonomiser les industries et est utilisé dans de nombreux secteurs tels que l'énergie électrique, la finance et l'agriculture.Parmi eux, le grand modèle CV est utilisé dans les mines, et le NLP grand modèle est utilisé dans la recherche intelligente de documents.
Par exemple, Baidu, qui se spécialise dans les moteurs de recherche, a lancé Wenxin Yiyan avec des attributs de recherche comme GPT-3.
En plus de ChatGPT, en effet, avant la rafale des modèles à grande échelle de l'IA, il y avait des scènes d'atterrissage.Ces "gros" modèles sont en fait principalement des modèles à grande échelle verticaux.
Modèle de langage : tel que GPT, BERT, etc., principalement utilisé dans le domaine du traitement du langage naturel, comme la traduction automatique, la génération de texte, l'analyse des sentiments, etc.
Modèles d'images : tels que ResNet, Inception, etc., qui sont principalement utilisés dans le domaine de la vision par ordinateur, tels que la classification d'images, la détection de cibles, la segmentation d'images, etc.
Modèle de recommandation : tels que DNN, RNN, etc., qui sont principalement utilisés dans le domaine des systèmes de recommandation, tels que la recommandation de produits et la recommandation de publicités.
Chatbots : tels que Seq2Seq, Transformer, etc., qui sont principalement utilisés dans des scénarios tels que le service client intelligent et les assistants intelligents.
Contrôle des risques financiers : tels que XGBoost, LightGBM, etc., qui sont principalement utilisés dans les scénarios de contrôle des risques des institutions financières telles que les banques et les titres, tels que la notation de crédit et l'anti-fraude.
Diagnostic par imagerie médicale : tels que DeepLung, DeepLesion, etc., qui sont principalement utilisés dans le domaine du diagnostic par imagerie médicale, comme le diagnostic du cancer du poumon et l'analyse pathologique.
Gagner de l'argent est plus important que d'atterrir.
Selon le rapport de Guosheng Securities "Combien de puissance de calcul nécessaire pour ChatGPT", on estime que le coût de la formation GPT-3 est d'environ 1,4 million de dollars américains, et pour certains LLM (Large Language Model) plus importants, le coût de la formation est compris entre 2 millions de dollars américains et 12 millions de dollars américains entre. Sur la base du nombre moyen de visiteurs uniques de ChatGPT en janvier de 13 millions, la demande de puces correspondante est supérieure à 30 000 GPU NVIDIA A100, le coût d'investissement initial est d'environ 800 millions de dollars américains et le coût quotidien de l'électricité est d'environ 50 000 dollars américains.
Il ne fait aucun doute que les modèles à grande échelle à usage général sont plus largement utilisés dans les scénarios d'atterrissage. Pour les joueurs qui font confiance aux modèles à grande échelle à usage général, la commercialisation passe en second. Les modèles verticaux à grande échelle ont besoin d'une commercialisation plus rapide pour couvrir le fond ligne, donc les modèles verticaux à grande échelle ont plus d'avantages Probabilité élevée et taux d'adoption plus rapide.
Il n'y a pas de réponse définitive quant à savoir qui peut former un avantage absolu en premier. Cette "course aux armements" des grands modèles d'IA est à l'image du passage papillon du web 1 au web 2. Les entreprises sont dans une course contre la montre, et celui qui saisira l'opportunité le premier saisira le marché.
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Général VS vertical, le grand modèle s'est approché de la première balle de match
Source : Shenmou Finance, auteur | Zhang Wei
Le champ de bataille des mégamodèles d'IA se fragmente.
En tant que fusible, Chatgpt a ouvert la porte à l'ère de l'IA2.0, et l'IA2.0 se caractérise par "l'intelligence industrielle et la numérisation", qui peuvent remplacer efficacement le travail et être largement utilisées dans tous les domaines de la vie. a déjà passé la période d'emballement, la mise en place du grand modèle IA est plus réaliste.
La manifestation la plus typique est que le grand modèle d'IA sort plus largement du cercle, pas seulement du côté B. Par exemple, même si chatGPT est sorti depuis plus de six mois, l'auteur peut encore entendre les voix des travailleurs migrants parler de chatGPT dans le café en bas à Shanghai CBD ; selon les médias, certaines entreprises utilisent également AIGC comme un outil de productivité.
Comme l'a déclaré Zhang Yong, président-directeur général d'Alibaba Group et PDG d'Alibaba Cloud Intelligence Group : Face à l'ère de l'IA, tous les produits valent la peine d'être refaits avec un grand modèle.
Les grandes usines, les instituts de recherche scientifique et les entrepreneurs ont tous pris fin.
De grands fabricants tels que Baidu Wenxin Yiyan, Huawei Pangu, 360 Zhinao, Shangtang Rixin, Ali Tongyi Qianwen, Jingdong Lingxi, Kunlun Wanwei Tiangong et d'autres grands modèles sont apparus successivement, suivis de Tencent Hunyuan, HKUST De grands modèles tels que Xunfei Xinghuo attendent dans ligne pour aller en ligne.
Les entrepreneurs ont aussi des célébrités : Wang Xiaochuan, fondateur de Sogou, Wang Huiwen, co-fondateur de Meituan, Kaifu Li, président de Sinovation Works, et d'autres ont fait des apparitions très médiatisées dans les grands modèles d'IA.
L'engouement pour les modèles à grande échelle d'IA qui a duré plus de quelques mois a engendré deux voies.
Course aux armements IA, grande différenciation des modèles
Les grands modèles d'IA sont entrés dans la phase de compétition et les chemins divergent progressivement.
Alors que le modèle d'IA se réchauffe progressivement, selon les statistiques des médias, début février, il n'y avait que 29 actions dans la section "ChatGPT" d'Oriental Fortune, et maintenant il a atteint 61 actions, et le nombre continue d'augmenter . Selon des statistiques incomplètes, à ce jour, plus de 40 entreprises et institutions de mon pays ont publié des produits modèles à grande échelle ou annoncé des plans de modèles à grande échelle.
Parmi eux, les acteurs participant à la "course aux armements" des modèles à grande échelle d'IA ont également développé deux axes de développement. Les grands modèles verticaux et les grands modèles généraux deviennent les deux principaux axes de développement dans le domaine de l'intelligence artificielle.
Les grands modèles verticaux font référence à des modèles optimisés pour des domaines ou des tâches spécifiques, tels que la reconnaissance vocale, le traitement du langage naturel, la classification d'images, etc.
Actuellement, de plus en plus d'entreprises rejoignent la voie des modèles verticaux à grande échelle. Xueersi a annoncé qu'il développait un grand modèle mathématique auto-développé, nommé MathGPT, pour les passionnés de mathématiques et les instituts de recherche scientifique du monde entier ; le 6 mai, Taoyun Technology a annoncé le lancement d'un grand modèle cognitif pour les enfants - Alpha Egg Children's Cognitive Big Le modèle apporte une nouvelle expérience interactive pour les enfants en termes de pratique de l'expression, de culture de l'égalisation, d'inspiration de la créativité et d'aide à l'apprentissage.
Les grands modèles généraux font référence à des modèles capables de gérer plusieurs tâches et domaines, tels que BERT, GPT, etc.
En raison des avantages du capital et des talents, les grands constructeurs visent principalement la piste des gros modèles à usage général.
Les grands fabricants visent les grands modèles à usage général. D'une part, ils peuvent combiner les capacités de l'IA avec leurs propres produits. Des sociétés Internet plus représentatives et des géants de la technologie tels qu'Alibaba, Huawei et Baidu.
Par exemple, suite à l'intégration par Microsoft de GPT-4 dans le compartiment de la famille Office, "Tongyi Qianwen" d'Ali a également commencé à accéder à DingTalk. Les utilisateurs peuvent générer du contenu dans des documents et, lors de vidéoconférences, ils peuvent générer chacun des vues et du contenu personnels.
Par exemple, le grand modèle de Baidu peut également être combiné avec sa propre entreprise. "Wen Xin Yi Yan" peut avoir une transformation qualitative dans l'itération des moteurs de recherche. "Yuyan" de NetEase et "ChatJD" de JD.com peuvent être utilisés en premier dans leur propres industries.
D'autre part, le grand modèle à usage général a une large applicabilité, et ceux qui surpassent les premiers peuvent établir un avantage de premier arrivé et devenir le leader de l'ère AI2.0. Après tout, tout le monde sait que "ceux qui courent vite obtiennent la viande, et ceux qui courent lentement ne peuvent manger que les restes".
Le grand modèle d'application verticale peut être décrit comme un "flux clair". Étant donné que le grand modèle d'application verticale est plus conforme aux besoins des scénarios verticaux et a une qualité supérieure à celle du grand modèle général, de nombreuses entreprises ont également vu les opportunités. Par exemple, Shenlan, Mobvoi, Youdao et d'autres entreprises qui se concentrent sur des pistes d'IA spécifiques.
Le développement de grands modèles verticaux se reflète principalement dans l'amélioration continue des performances des modèles dans divers domaines. Par exemple, le taux d'erreur de la reconnaissance vocale a diminué d'année en année et la capacité de compréhension sémantique du traitement du langage naturel a continué de s'améliorer. Le grand modèle général a fait des progrès remarquables dans l'apprentissage multi-tâches et l'apprentissage par transfert, et est devenu une direction de recherche importante dans le domaine du traitement du langage naturel.
Par exemple, de grands modèles biologiques peuvent améliorer l'efficacité des produits pharmaceutiques d'IA. Des rapports de recherche étrangers montrent que l'IA peut augmenter le taux de réussite de la recherche et du développement de nouveaux médicaments de 16,7 %, et que la recherche et le développement de médicaments assistés par l'IA peuvent économiser 54 milliards de dollars américains en coûts de recherche et développement chaque année, et économiser de 40 % à 60 % de temps et coût dans le processus principal de recherche et développement. Selon les informations publiques de Nvidia, l'utilisation de la technologie de l'IA peut réduire d'un tiers le temps nécessaire à la découverte précoce de médicaments et réduire les coûts d'un deux centième.
D'un point de vue industriel, le modèle général est une "encyclopédie", qui peut répondre à toutes les questions et s'appliquer à différents sols industriels, tandis que le modèle vertical s'apparente à un expert dans un seul domaine. Bien qu'il soit professionnel, son public est destiné à être un petit nombre de personnes.
Les données sont fatales
L'avantage du grand modèle vertical est qu'il n'est pas assez « gros » : la puissance de calcul n'est pas assez grande, et la difficulté de l'algorithme est faible.
Après que Wang Xiaochuan soit entré dans la piste des modèles à grande échelle, il a toujours souligné que la direction des efforts futurs n'est pas de faire de l'AGI (General Artificial Intelligence) comme OpenAI, mais de faire des modèles à grande échelle verticalement dans certains domaines spécifiques et de réaliser des applications d'atterrissage. .
Un grand modèle au sens large décrit en fait un grand modèle à usage général. Tout comme un "grand" modèle, la raison pour laquelle un grand modèle est "grand" est due au grand nombre de paramètres et à l'énorme quantité de données, qui ont un impact important sur les algorithmes, la puissance de calcul et l'espace de stockage des données. De grandes exigences, et ce ne sont pas seulement les gens qui peuvent se rattraper, mais aussi qui ont besoin de beaucoup d'argent. Vous savez, le succès d'Open AI a aussi été construit par Microsoft avec des milliards de dollars. L'énorme demande de capitaux est aussi un test pour la détermination des grands fabricants dans la recherche et le développement.
Au cours des cinq dernières années, le volume de paramètres des grands modèles d'IA a augmenté d'un ordre de grandeur chaque année. Par exemple, le volume de paramètres de GPT-4 est 16 fois supérieur à celui de GPT-3, atteignant 1 600 milliards ; et avec l'introduction de données multimodales telles que les images, l'audio et la vidéo , le volume de données des grands modèles est également en pleine expansion. Cela signifie que si vous voulez jouer avec un grand modèle, vous devez disposer d'une grande puissance de calcul.
Par rapport aux grands fabricants, les entreprises qui fabriquent des modèles verticaux à grande échelle ont des fonds, une puissance de calcul et des données relativement rares, de sorte qu'elles ne sont en fait pas sur la même ligne de départ que les acteurs de modèles à grande échelle à usage général.
Tout comme les véhicules à énergies nouvelles sont indissociables des trois composants majeurs que sont les moteurs, les batteries et les commandes électroniques, les grands modèles d'IA ne peuvent être séparés du support de la puissance de calcul, des algorithmes et des données.
Parmi la puissance de calcul, les algorithmes et les données, les données sont la difficulté des grands modèles verticaux.
Parmi les trois éléments, la difficulté de recherche et de développement de l'algorithme est relativement faible.Les entreprises actuelles ont leurs propres algorithmes de chemin pour implémenter de grands modèles, et il existe de nombreux projets open source à titre de référence.
La puce détermine la puissance de calcul. Le grand modèle global d'IA a besoin d'une puce plus performante pour compléter la formation et la construction du réseau de neurones du modèle global. Cependant, la puce actuelle est moins auto-développée et elle est encore principalement d'origine externe. Par exemple, la puce qui convient le mieux à ChatGPT est celle de Nvidia : la puce phare H100 et la puce sous-phare A100.
La difficulté réside dans les données. Des données de haute qualité sont la clé pour faciliter la formation et le réglage de l'IA Des données suffisantes et riches sont la base des grands modèles d'IA générative.
Selon la précédente divulgation d'OpenAI, le nombre de paramètres ChatGPT3 a atteint à lui seul 175 milliards et les données de formation ont atteint 45 To.
En raison du développement relativement mature de l'Internet mobile en Chine, une grande quantité de ressources de données chinoises sont stockées dans diverses entreprises ou institutions, ce qui rend leur partage difficile.
"Étant donné qu'un grand nombre de données commerciales, de données logistiques, de données financières, etc. de l'entreprise sont des données de domaine privé très essentielles, il est difficile d'imaginer que China Star Optoelectronics ou PetroChina utilisera les données pour que d'autres se forment." Xu Hui, PDG de Chuangxinqizhi, a récemment été interviewé par des valeurs mobilières Dans une interview avec le Times, il a également dit sans ambages.
Prenant l'exemple de l'industrie pharmaceutique de l'IA, les grands modèles biologiques sont confrontés au problème d'être "coincés" par la technologie. Le coût d'obtention de données expérimentales de haute précision pour la recherche et le développement de médicaments est relativement élevé et il existe un grand nombre de données non étiquetées dans la base de données publique. Il est nécessaire de faire bon usage à la fois d'une grande quantité de données non étiquetées et d'un quantité de données de haute précision, donc des exigences plus élevées sont mises en avant pour la construction du modèle.
**Qui gagnera le premier pot d'or ? **
Quel que soit le modèle, la commercialisation est la question centrale. À en juger par les acteurs actuels de l'IA avec de grands modèles, ils progressent rapidement en matière d'autonomisation et de commercialisation.
Bien que le modèle à grande échelle à usage général et le modèle à grande échelle vertical empruntent des voies différentes, ils sont toujours «familiaux» par essence et sont dans la même voie, de sorte que le problème de la concurrence ne peut être évité.
Pour le modèle général à grande échelle, le modèle vertical à grande échelle atterrit en premier et le chemin du modèle général à grande échelle sera plus étroit. De même, après que les modèles à grande échelle à usage général se seront rapidement emparés du marché, il sera plus difficile pour les modèles verticaux à grande échelle avec des secteurs d'activité étroits de gagner de l'argent.
Au stade idéal, qu'il s'agisse d'un modèle économique ou d'une valeur universelle, le modèle généraliste à grande échelle est meilleur que le modèle vertical à grande échelle. Cependant, la vraie vie n'est pas une utopie : celui qui court le plus vite entre le modèle généraliste à grande échelle et le modèle vertical à grande échelle dépend de la concurrence entre les différentes entreprises.
A en juger par le chaud AIGC de l'année dernière. Par rapport au fait de permettre aux utilisateurs d'utiliser l'IA pour générer du contenu avec un seuil inférieur sur l'extrémité C, certains acteurs du marché pensent que l'extrémité B sera le modèle commercial le plus important d'AIGC.
Huawei accorde également plus d'attention à sa propre activité ToB. Lors de la conférence de presse, Huawei a déclaré que le grand modèle Huawei Pangu utilise principalement l'IA pour autonomiser les industries et est utilisé dans de nombreux secteurs tels que l'énergie électrique, la finance et l'agriculture.Parmi eux, le grand modèle CV est utilisé dans les mines, et le NLP grand modèle est utilisé dans la recherche intelligente de documents.
Par exemple, Baidu, qui se spécialise dans les moteurs de recherche, a lancé Wenxin Yiyan avec des attributs de recherche comme GPT-3.
En plus de ChatGPT, en effet, avant la rafale des modèles à grande échelle de l'IA, il y avait des scènes d'atterrissage.Ces "gros" modèles sont en fait principalement des modèles à grande échelle verticaux.
Gagner de l'argent est plus important que d'atterrir.
Selon le rapport de Guosheng Securities "Combien de puissance de calcul nécessaire pour ChatGPT", on estime que le coût de la formation GPT-3 est d'environ 1,4 million de dollars américains, et pour certains LLM (Large Language Model) plus importants, le coût de la formation est compris entre 2 millions de dollars américains et 12 millions de dollars américains entre. Sur la base du nombre moyen de visiteurs uniques de ChatGPT en janvier de 13 millions, la demande de puces correspondante est supérieure à 30 000 GPU NVIDIA A100, le coût d'investissement initial est d'environ 800 millions de dollars américains et le coût quotidien de l'électricité est d'environ 50 000 dollars américains.
Il ne fait aucun doute que les modèles à grande échelle à usage général sont plus largement utilisés dans les scénarios d'atterrissage. Pour les joueurs qui font confiance aux modèles à grande échelle à usage général, la commercialisation passe en second. Les modèles verticaux à grande échelle ont besoin d'une commercialisation plus rapide pour couvrir le fond ligne, donc les modèles verticaux à grande échelle ont plus d'avantages Probabilité élevée et taux d'adoption plus rapide.
Il n'y a pas de réponse définitive quant à savoir qui peut former un avantage absolu en premier. Cette "course aux armements" des grands modèles d'IA est à l'image du passage papillon du web 1 au web 2. Les entreprises sont dans une course contre la montre, et celui qui saisira l'opportunité le premier saisira le marché.