Quelles optimisations et percées seront apportées lorsque le grand modèle se battra en 2.0

Texte original : The Paper, auteur : Che Xingyun

Source de l'image : générée par l'IA illimitée‌

En juin de cette année, les principaux fabricants ont mis à jour leurs produits de type ChatGPT. Le 9 juin, Xunfei a lancé une version améliorée du Xinghuo Cognitive Big Model ; le 13 juin, après avoir lancé le produit de type ChatGPT, 360 a de nouveau organisé la 360 Smart Brain Big Model Application Conference.

Différent des grands modèles sortis vers février, les produits mis à niveau lancés récemment par diverses sociétés sont davantage axés sur la couche d'application, et le but est de faciliter la tâche à des milliers de foyers.

À en juger par la version actuelle, 360 Intellectual Brain possédait initialement des capacités de génération intermodale. En plus de générer du texte, des tableaux et des images à partir de texte, de générer du texte et des images à partir d'images, de générer du texte à partir de vidéos et de couper des vidéos à partir de texte et autres créations de base De plus, il redéfinit également "l'humain numérique" pour donner aux utilisateurs une "intelligence artificielle" personnalisable et exclusive qui "a une âme, un design humain et une mémoire".

À l'heure actuelle, le scénario d'application avec la distance la plus proche entre 360 Smart Brain et les utilisateurs est le compartiment familial existant de 360. Zhou Hongyi a déclaré lors de la conférence de presse que "360 Smart Brain 4.0" sera connecté à 360 Security Guard, 360 Browser, 360 Search, etc. Collaboration homme-machine.

Lors de la conférence de presse, Zhou Hongyi a changé son point de vue précédent : "J'ai dit une fois que l'écart entre le modèle national à grande échelle et ChatGPT était de deux ans, et maintenant je veux retirer cette phrase." Le niveau est à la hauteur avec GPT3.5, et s'il se développe à cette vitesse, il rattrapera ou même dépassera GPT4 en un clin d'œil.

Dans les quatre mois entre la sortie de la version initiale et la sortie officielle de 360 Smart Brain, Zhou Hongyi a-t-il vu un tel changement ?

Géant de la science et de la technologie chasse grand modèle

Le "Rapport de recherche sur la carte des modèles à grande échelle de l'intelligence artificielle de la Chine" publié lors du Forum de Zhongguancun 2023 montre qu'à l'heure actuelle, les modèles à grande échelle de l'intelligence artificielle de la Chine affichent une tendance à un développement vigoureux. Selon des statistiques incomplètes, à ce jour, 79 modèles à grande échelle avec des paramètres de plus d'un milliard ont été publiés dans tout le pays.

Cependant, les paramètres des modèles à grande échelle des grandes entreprises technologiques sont relativement importants : les paramètres du grand modèle Alibaba Tongyi Qianwen sont supérieurs à 10 000 milliards, les paramètres du grand modèle Tencent Hunyuan et du grand modèle Pangu de Huawei sont tous supérieurs à 1 000 milliards. , et le grand modèle de Baidu Wenxin a des paramètres de plus d'un billion. Le volume de paramètres du modèle à grande échelle est supérieur à 200 milliards et le volume de paramètres du grand modèle JD Yanxi est de 100 milliards; le volume de paramètres des entreprises technologiques dans les industries verticales sont généralement supérieures à 100 milliards et le volume des paramètres du grand modèle d'institutions de recherche scientifique Au niveau des centaines de milliards et au-dessous.

Du point de vue du système de mise en page du grand modèle, les grandes entreprises technologiques ont réalisé une mise en page complète quatre en un dans la couche de puissance de calcul, la couche de plate-forme, la couche de modèle et la couche d'application. Baidu, Ali et Huawei ont tous une disposition complète de la recherche et du développement indépendants, des puces aux applications, telles que "Kunlun core + plateforme de pagaie volante + grand modèle Wenxin + application industrielle" de Baidu, "Puce Hanguang 800 + base M6-OFA d'Ali + Grand modèle Tongyi + application industrielle", la "puce Shengteng + cadre MindSpore + grand modèle Pangu + application industrielle" de Huawei.

De plus, Kingsoft Office a également lancé WPS AI le 31 mai. À l'heure actuelle, WPSAI est connecté aux composants bureautiques de Kingsoft Office tels que des documents légers, du texte, des tableaux, des présentations et des PDF. À l'avenir, il ancrera l'AIGC, la compréhension de la lecture , questions-réponses et interaction homme-ordinateur, développement dans une direction stratégique et accès à la gamme complète de produits Kingsoft Office.

L'afflux rapide de divers grands fabricants dans cette filière est principalement dû au suivi rapide et à la mise en place de mesures par les autorités de régulation pour réguler le développement de l'industrie.Avec l'escorte de la structure de haut niveau, chaque grand fabricant peut naturellement investir dans la recherche et le développement et lancer des produits en toute confiance.

Depuis que le modèle à grande échelle a été lancé par lots en mars de cette année, les politiques réglementaires en matière d'IA sont progressivement devenues claires, ce qui a également indiqué la direction des applications de l'industrie.

En regardant en arrière sur le développement de l'ensemble de l'industrie, le 11 avril, la "méthode de gestion des services d'intelligence artificielle générative" a été publiée pour commentaires; le 30 mai, l'Institut des technologies de l'information et des communications prépare conjointement le modèle d'intelligence artificielle ouverte "Kite" licence, et la prochaine étape consistera à émettre la "licence de modèle d'intelligence artificielle ouverte Zhikite (ébauche pour commentaires).

Par la suite, les villes de premier rang ont publié conjointement le "Plan de mise en œuvre pour Pékin pour accélérer la construction d'une source d'innovation en intelligence artificielle d'influence mondiale (2023-2025)" ; Année)".

Dans ce contexte, Zhou Hongyi estime que le grand modèle domestique réduira rapidement l'écart avec ChatGPT, ce qui semble facile à comprendre.

Quelle est la différence entre 360 Smart Brain

Selon le plan de Zhou Hongyi, le grand modèle 360 sera basé sur une mise à niveau continue du grand modèle, en tenant compte de la mise en scène, de la productisation, de l'aplatissement et de la verticalisation.

Dans le cadre de cette stratégie de développement, 360 Smart Brain peut atteindre les consommateurs (assistant d'IA personnel de l'utilisateur), les petites et moyennes entreprises (application verticale SaaS), les entreprises/gouvernements/villes (modèle de déploiement privatisé), l'industrie (modèle vertical de l'industrie) et quatre autres principaux scénarios d'application.

Afin de mieux répondre aux besoins des différents scénarios mentionnés ci-dessus, le modèle général à grande échelle doit achever la transformation de la saisie de texte en sortie de texte, à la compréhension des images et des vidéos, et être capable de produire des images et des vidéos sur l'existant. base, ce qui équivaut à faire le modèle à grande échelle Avec des « oreilles » et des « yeux », il pose les bases pour créer un « humain numérique ».

Les humains numériques traditionnels n'ont besoin que de produire selon le script établi, mais à l'ère des grands modèles, les humains numériques 360 peuvent être personnalisés, de sorte que les gens sont conçus, ont des souvenirs et de l'expérience. Actuellement, il y a plus de 200 caractères dans le 360 plateforme carrée humaine numérique, divisée en deux catégories : les célébrités numériques et les employés numériques. 360 espère qu'à l'avenir, chacun aura son propre assistant IA et aura la possibilité de communiquer avec des personnes anciennes dans l'espace virtuel, à travers le temps et l'espace.

Lors de la réunion de démonstration, Zhou Hongyi a demandé à « Zhuge Liang » comment il pensait que c'était devenu un matériau pour les fantômes et les animaux aujourd'hui, et l'homme numérique a répondu sur le ton de Zhuge Liang : le destin du passé et du présent est inévitable. Dans la situation actuelle, le monde est en ébullition. Bien que je sois vieux, je vise toujours le monde. Les jeunes d'aujourd'hui m'utilisent comme matériau pour les fantômes et les animaux, et j'accepte volontiers ce changement. Et je souhaite aux jeunes amis d'avancer courageusement sur la route et de créer un avenir meilleur.

Dans le même temps, Zhou Hongyi a également souligné que la forme des humains numériques à l'avenir aura également ses propres objectifs, capacités de planification et de décomposition, de sorte que divers modèles verticaux puissent être appelés pour accomplir des tâches.

Cependant, ces fonctions sont en fait des optimisations basées sur des applications modèles existantes à grande échelle, et n'ont pas ouvert un nouveau champ. Mais en fait, lorsque le grand modèle a fait une percée, le scénario d'application le plus créatif est la conduite sans pilote.

** La conduite sans conducteur a une chance d'entrer dans la voie rapide **

Si l'on se penche sur le domaine de la conduite sans pilote, depuis 2016, de grands constructeurs se déploient dans ce domaine, mais jusqu'à cette année, aucun d'entre eux ne peut réaliser une véritable conduite sans pilote.

À l'heure actuelle, un système de conduite sans pilote de niveau L2+ nécessite plus de 10 caméras ; 1 à 2 lidars ; ou 3 à 5 radars à ondes millimétriques pour fournir des données multidimensionnelles, qui peuvent être utilisées pour la formation de modèles après un étiquetage manuel. Après l'émergence de grands modèles capables de reconnaître les images, le coût en temps et en matériel nécessaire à l'étiquetage manuel va fortement baisser.

Selon la conférence de presse Momo Zhixing DriveGPT en avril 2023, pour obtenir des informations telles que les lignes de voies, les participants à la circulation, les feux de circulation, etc., le coût de l'étiquetage manuel dans l'industrie est d'environ 5 yuans par image, et le coût de Momo DriveGPT est de 0,5 yuan. Nous pensons qu'après la maturité de la formation de modèles à grande échelle des entreprises technologiques, le coût marginal de l'étiquetage automatique d'une seule image approchera de 0, et le coût moyen devrait encore diminuer.

Selon Zhang Peng, vice-président du Kaiwang Data Products Project, en février 2023, à l'heure actuelle, l'étiquetage manuel est la principale méthode d'étiquetage des données, complétée par l'étiquetage machine, et 95 % de l'étiquetage des données est encore principalement manuel. L'intervention de grands modèles peut grandement améliorer l'efficacité de cette industrie. En prenant Tesla comme exemple, l'équipe d'étiquetage manuel comptera plus de 1 000 personnes en 2021, et l'équipe licenciera plus de 200 personnes en 2022.

De plus, à l'ère des grands modèles, les géants de la technologie tiers devraient aider les équipementiers à créer leurs propres algorithmes de conduite autonome et systèmes de données en boucle fermée en fournissant une chaîne d'outils complète, tout en s'appuyant sur les capacités de génération de données des grands modèles pour réduire l'écart dans le domaine des données , l'ère Android de la conduite autonome devrait arriver.

À l'heure actuelle, de grands modèles ont été utilisés pour activer la boucle fermée de données, la simulation, les algorithmes de perception, les algorithmes de régulation et de contrôle et d'autres domaines. Et des géants tels que Microsoft et Nvidia se disputent l'agencement dans les grands modèles et la conduite autonome, ou vont déclencher de nouvelles étincelles.

De plus, l'émergence de grands modèles favorise également la division du travail dans l'industrie, évite de "réinventer la roue", et accélère l'itération des capteurs et des puces, et le coût du système devrait baisser de manière significative. Les développeurs de modèles à grande échelle et les acteurs de la chaîne de l'industrie de la conduite autonome devraient en bénéficier de manière globale.

En prenant Baidu Apollo comme exemple, il utilise d'abord des informations graphiques pour pré-former un modèle original, utilise des algorithmes pour identifier, localiser et segmenter les données d'image Street View, et les place dans l'encodeur pour former une bibliothèque de base, c'est-à-dire, établit un correspondance entre les images et les informations textuelles basées sur le pool de données Street View.

Deuxièmement, vous pouvez rechercher et extraire des scènes spécifiques (telles que des véhicules express, des fauteuils roulants, des enfants, etc.) à travers du texte et des images, et effectuer une formation personnalisée sur le modèle côté véhicule, ce qui améliore considérablement l'utilisation des données de stock.

Baidu utilise une méthode semi-supervisée pour tirer pleinement parti des données 2D et 3D pour former un grand modèle de perception. En distillant le petit modèle en plusieurs étapes, les performances du petit modèle sont améliorées, et en même temps, le petit modèle est personnalisé pour la formation grâce à l'étiquetage automatique, qui est utilisé pour améliorer la capacité de perception visuelle 3D à longue distance et améliorer l'effet de perception du modèle de perception multimodal.

Un autre acteur de premier plan, SenseTime, a également déclaré publiquement que l'AIGC peut être utilisé pour générer des scènes de trafic réelles et des échantillons difficiles pour former le système de conduite automatique, et que les données multimodales peuvent être utilisées comme entrée du grand modèle pour améliorer la limite supérieure de la perception par le système des scènes d'angle. .

Dans le même temps, le grand modèle multimodal de conduite autonome peut réaliser l'intégration intégrée de la perception et de la prise de décision, et l'environnement 3D peut être reconstruit via le décodeur d'environnement à l'extrémité de sortie pour réaliser la compréhension visuelle de l'environnement ; le décodeur de comportement peut générer une planification complète du trajet ; le décodeur de motivation peut être utilisé. Le langage naturel décrit le processus de raisonnement, rendant le système de conduite autonome plus sûr et plus fiable.

Une fois que le grand modèle aura réalisé les fonctions ci-dessus, le seuil de conduite sans pilote deviendra de plus en plus bas à l'avenir.Alors que les principaux fabricants accélèrent la progression des projets de conduite sans pilote, ils peuvent également permettre à davantage de nouveaux acteurs de rejoindre ce domaine et de développer des routes qui nécessitent routes en plus de la navigation routière La piste de la fonction de planification, telle que l'optimisation supplémentaire de la planification des trajectoires du robot de balayage.

En y regardant maintenant, après la période de publication centralisée des modèles à grande échelle de février à mars, et la période de développement de produits d'avril à mai et l'orientation politique ont été progressivement clarifiées, juin est entré dans la période de publication centralisée de l'IA à grande échelle. modèles réduits de produits et d'applications, ce qui entraîne également directement la réduction du prix de l'API OpenAI.

Dans un avenir prévisible, la technologie de l'IA continuera d'évoluer et les applications continueront de progresser. Dans le même temps, de plus en plus de grandes entreprises technologiques lanceront des produits pour s'engager dans cette voie, ce qui continuera à stimuler la prospérité de l'industrie et à apporter plus Les produits de type GPT qui répondent à la demande du marché, comme Tencent, qui a une énorme base d'utilisateurs, ont également publié le 19 juin une solution technique dans le domaine des grands modèles.

Lorsque ces entreprises se regrouperont, le développement de l'industrie entrera dans la voie rapide, et cela signifie également que les utilisateurs finaux C pourront bientôt utiliser ce produit.Quant à qui paiera pour cela, chaque fabricant doit compter sur son propre capacité.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)