Le modèle open-source le plus puissant change de mains ? Kai-Fu Lee a mené l’équipe au sommet de nombreuses listes mondiales, et 400 000 traitements de texte ont battu un record

Source d’origine : qubits

Source de l’image : Généré par Unbounded AI

La bataille de 100 modèles, l’un des joueurs les plus attendus, a enfin fait ses débuts officiels !

Il s’agit du premier modèle open-source de la société AI 2.0 fondée par le Dr Kai-Fu Lee--Yi** série de grands modèles :

Yi-34BYi-6B

Bien que la série de grands modèles Yi ait fait ses débuts relativement tard, en termes d’effet, elle peut certainement être qualifiée de retardataire.

Dès son tournage, il a remporté un certain nombre de premières mondiales** :

  • Hugging Face s’est classé premier dans la liste de test anglaise, écrasant un certain nombre de modèles à grande échelle tels que le Llama-2 70B et le Falcon-180B avec une taille de 34B ;
  • Le seul modèle domestique à grande échelle qui a réussi à atteindre le sommet de HuggingFace ;
  • La capacité C-chinoise se classe au premier rang, surpassant tous les modèles open source dans le monde ;
  • MMLU, BBH et huit autres capacités complètes ont toutes remporté la performance ;
  • A remporté le trône de la plus longue fenêtre contextuelle du monde, atteignant 200K, qui peut gérer directement 400 000 caractères chinois pour une saisie de texte ultra-longue.
  • ......

Il convient de noter que Zero One Thousand Things et son grand modèle n’ont pas été réalisés du jour au lendemain, mais ont été brassés pendant plus de six mois.

Cela soulève inévitablement de nombreuses questions :

Par exemple, pourquoi voulez-vous attendre six mois et choisir de tourner vers la fin de l’année ?

Un autre exemple est de savoir comment réaliser autant de premières du premier coup ?

Avec ces questions, nous avons fait une communication exclusive avec Zero One Everything, et maintenant nous allons révéler les secrets un par un.

Vaincre 100 milliards de grands modèles de paramètres

Plus précisément, il y a deux points forts principaux de la série Yi de grands modèles nouvellement sortis et open-source :

  • « Gagner gros avec petit » pour battre les 100 milliards de modèles de paramètres
  • La fenêtre contextuelle la plus longue au monde prend en charge 400 000 mots

Dans le classement des modèles open-source pré-entraînés de Hugging Face, Yi-34B s’est classé premier au monde avec un score de 70,72, dépassant LLaMA-70B et Falcon-180B.

Il faut savoir que le nombre de paramètres du Yi-34B n’est que de 1/2, 1/5 des deux derniers. Non seulement il a remporté la liste avec « petit et grand », mais il a également réalisé un dépassement d’un ordre de grandeur croisé, battant le grand modèle de niveau 100 milliards avec une échelle de 10 milliards.

Parmi eux, Yi-34B a largement surpassé les autres grands modèles dans les deux indicateurs de MMLU (Massive Multi-task Language Understanding) et TruthfulQA (Authenticity Benchmark).

** **###### Hugging Face Open LLM Leaderboard (pré-entraîné) Grand modèle Leaderboard, Yi-34B en tête de liste (5 novembre 2023)

En se concentrant sur la maîtrise du chinois, le Yi-34B surpasse tous les modèles open source dans le classement des compétences en chinois C.

De même, le Yi-6B open-source surpasse tous les modèles open-source de même échelle.

** **###### C- Classement : Modèle accessible au public, Yi-34B n°1 mondial (5 novembre 2023)

Dans les trois principaux indicateurs chinois de CMMLU, E- et Gaokao, ** est nettement en avance sur GPT-4**, ce qui démontre le fort avantage du chinois, et nous en savons plus sur les racines

En termes de BooIQ et d’OBQA, il est au même niveau que GPT-4.

De plus, dans l’ensemble d’évaluation qui reflète la capacité globale du modèle, tels que MMLU (Massive Multitask Language Understanding) et BBH, les indicateurs d’évaluation les plus critiques des grands modèles, Yi-34B surpasse l’évaluation de la capacité générale, du raisonnement des connaissances, de la compréhension de la lecture et d’autres indicateurs, ce qui est très cohérent avec l’évaluation Hugging Face.

###### Score de chaque ensemble d’évaluation : modèle Yi v.s. Autres modèles open-source

Cependant, dans le communiqué, 010000 a également déclaré que les modèles de la série Yi ne fonctionnaient pas aussi bien que les modèles GPT dans les évaluations mathématiques et de code de GSM8k et MBPP.

En effet, l’équipe souhaitait préserver autant que possible les capacités génériques du modèle pendant la phase de pré-entraînement, de sorte qu’elle n’a pas inclus trop de données mathématiques et de code dans les données d’entraînement.

À l’heure actuelle, l’équipe mène des recherches dans le sens des mathématiques, et propose un grand modèle MammoTH qui peut résoudre des problèmes mathématiques généraux, en utilisant CoT et PoT pour résoudre des problèmes mathématiques, et qui est supérieur au modèle SOTA dans toutes les versions d’échelle et les ensembles de tests internes et externes. Parmi eux, MammoTH-34B a un taux de précision de 44% en MATH, ce qui dépasse le résultat CoT de GPT-4.

La série Yi de suivi lancera également un modèle de formation continue spécialisé dans le code et les mathématiques.

En plus des résultats éblouissants, Yi-34B a également rafraîchi la longueur de la grande fenêtre contextuelle du modèle à 200 Ko, ce qui peut gérer la saisie de texte ultra-long d’environ 400 000 caractères chinois.

C’est l’équivalent d’être capable de traiter deux romans « Three-Body Problem 1 »** à la fois**, de comprendre** des documents PDF de plus de 1000 pages, et même de remplacer de nombreux scénarios qui s’appuient sur des bases de données vectorielles pour construire des bases de connaissances externes.

La fenêtre contextuelle ultra-longue est une dimension importante pour refléter la force du grand modèle, et le fait de disposer d’une fenêtre contextuelle plus longue peut traiter des informations de base de connaissances plus riches, générer un texte plus cohérent et plus précis, et prendre en charge le grand modèle pour mieux gérer des tâches telles que le résumé de documents/questions-réponses.

Il est important de savoir que dans de nombreuses applications industrielles verticales de grands modèles (telles que la finance, le droit, la finance, etc.), des capacités de traitement de documents sont simplement nécessaires.

Par exemple, GPT-4 peut prendre en charge 32 Ko, soit environ 25 000 caractères, et Claude 2 peut prendre en charge 100 Ko, soit environ 200 000 caractères.

Zero One Everything a non seulement rafraîchi les données de l’industrie, mais est également devenue la première entreprise de modèles à grande échelle à ouvrir une fenêtre contextuelle ultra-longue dans la communauté open source.

Alors, comment la série Yi est-elle fabriquée ?

Plateforme de formation super Infra+ auto-développée

Zero One Ten Thousand Things dit que le secret de la série Yi vient de deux aspects :

  • Plate-forme expérimentale de formation à grande échelle auto-développée
  • Équipe Super Infra

La combinaison des deux éléments ci-dessus peut rendre le processus d’entraînement des grands modèles plus efficace, plus précis et plus automatisé. Dans la mêlée multimode actuelle, économisez un temps précieux, des calculs et des coûts de main-d’œuvre.

C’est l’une des raisons pour lesquelles les grands modèles de la série Yi sont « lents », mais aussi à cause d’eux, « lent c’est rapide ».

Tout d’abord, examinons la partie d’entraînement du modèle.

Il s’agit de jeter les bases de la capacité des grands modèles, et la qualité des données et des méthodes d’apprentissage est directement liée à l’effet final du modèle.

Par conséquent, 010000 a construit son propre pipeline de traitement de données intelligent et sa plate-forme expérimentale de formation à grande échelle.

Le pipeline de traitement intelligent des données est efficace, automatisé, évaluable et évolutif, et l’équipe est dirigée par d’anciens experts du Big Data et des graphes de connaissances de Google.

La « plate-forme d’expérience d’entraînement à grande échelle » peut guider la conception et l’optimisation des modèles, améliorer l’efficacité de l’entraînement des modèles et réduire le gaspillage de ressources informatiques.

Sur la base de cette plate-forme, l’erreur de prédiction de chaque nœud de Yi-34B est contrôlée à 0,5 % près, comme l’appariement des données, la recherche d’hyperparamètres et les expériences de structure de modèle.

En conséquence, par rapport à l’entraînement précédent à « l’alchimie extensive », l’entraînement de la série Yi de grands modèles a progressé jusqu’à devenir une « science de l’entraînement du modèle » : il est devenu plus détaillé et scientifique, les résultats expérimentaux peuvent être plus stables et l’échelle du modèle peut être étendue plus rapidement à l’avenir.

Regardons la partie Infra.

AI Infra fait référence à la technologie de base de l’intelligence artificielle, qui comprend diverses installations techniques sous-jacentes dans la formation et le déploiement de grands modèles, notamment les processeurs, les systèmes d’exploitation, les systèmes de stockage, l’infrastructure réseau, les plates-formes de cloud computing, etc.

Si le processus d’apprentissage doit jeter les bases de la qualité du modèle, AI Infra fournit une garantie pour ce lien, rendant la base plus solide, et il est également directement lié à la couche inférieure du grand modèle.

L’équipe de Zero One Everything a utilisé une métaphore plus vivante pour expliquer :

Si l’entraînement d’un grand modèle est de l’alpinisme, les capacités d’Infra définissent la limite de capacité entre l’algorithme d’entraînement d’un grand modèle et le modèle, c’est-à-dire le plafond de la « hauteur d’alpinisme ».

Surtout dans le contexte actuel de pénurie de ressources informatiques dans l’industrie, il est très important de promouvoir la recherche et le développement de grands modèles plus rapidement et plus régulièrement.

C’est pourquoi Zero One prend la partie Infra si au sérieux.

Kai-Fu Lee a également déclaré que les personnes qui ont fait de l’Infra modèle à grande échelle sont plus rares que les talents algorithmiques.

L’équipe d’Infra a participé à la prise en charge de la formation à grande échelle de plusieurs centaines de milliards de grands modèles.

Grâce à leur soutien, le coût de formation du modèle Yi-34B a été réduit de 40 %, et le coût de formation de l’échelle de simulation de 100 milliards de yuans peut être réduit jusqu’à 50 %. La formation réelle complète le temps de prédiction du domaine temporel standard l’erreur est inférieure à 1 heure - vous savez, généralement l’industrie mettra de côté quelques jours en tant qu’erreur.

Selon l’équipe, jusqu’à présent, le taux de précision de prédiction des erreurs de la capacité Infra 010000 a dépassé 90 %, le taux de détection précoce des défauts a atteint 99,9 % et le taux d’auto-réparation des défauts sans participation manuelle a dépassé 95 %, ce qui peut assurer efficacement le bon déroulement de l’entraînement du modèle.

Kai-Fu Lee a révélé qu’en complétant le pré-entraînement de Yi-34B, l’entraînement du modèle de paramètres de niveau 100 milliards a été officiellement lancé.

Et cela laisse entendre que les modèles plus grands sont susceptibles d’être disponibles plus rapidement que prévu :

pipelines de traitement des données, la recherche d’algorithmes, les plateformes d’expérimentation, les ressources GPU et l’infrastructure d’IA de Zero-One sont tous prêts, et nous allons aller de plus en plus vite.

Préemption Zéro Une Chose

Enfin, répondons aux questions que nous avons mentionnées au début.

La raison pour laquelle Zero One Everything a choisi de prendre le « train en retard » à la fin de l’année est en fait étroitement liée à ses propres objectifs.

Comme l’a déclaré Kai-Fu Lee dans ce communiqué :

Zero One Everything est fermement entré dans le premier objectif d’échelon du monde, de la première personne recrutée, de la première ligne de code écrite et du premier modèle conçu, il a toujours eu l’intention et la détermination initiales de devenir « World’s No.1 ».

Et pour être le premier, vous devez être capable de supporter le tempérament et de vous concentrer sur la culture d’une base solide afin de réaliser un blockbuster à vos débuts.

De plus, à l’époque de la création de Zero One Things, son point de départ était fondamentalement différent de celui des autres fabricants de modèles réduits à grande échelle.

Zero one représente l’ensemble du monde numérique, de zéro à un, et même toutes les choses de l’univers, le soi-disant Tao en engendre un... Donner naissance à toutes choses, c’est l’ambition de « zéro intelligence, toutes choses habilitées ».

Cela est également cohérent avec la pensée et le jugement de Kai-Fu Lee sur l’IA 2.0, après que ChatGPT ait conduit le boom des grands modèles, il a déclaré publiquement :

L’ère de l’IA 2.0, avec la percée du modèle du piédestal, va déclencher une révolution à plusieurs niveaux, de la technologie à l’application, en passant par la plate-forme. Tout comme Windows a conduit à la popularisation des PC, Android a donné naissance à l’écologie de l’Internet mobile, l’IA 2.0 donnera naissance à des opportunités de plate-forme dix fois plus grandes que l’Internet mobile, réécrira les logiciels, l’interface utilisateur et les applications existants, donnera également naissance à un nouveau lot d’applications axées sur l’IA et donnera naissance à des modèles commerciaux dirigés par l’IA.

** Le concept est d’abord basé sur l’IA, la force motrice est la vision technique **, soutenue par l’excellent héritage d’ingénierie chinois, le point de rupture est le modèle de piédestal, couvrant plusieurs niveaux de technologie, de plate-forme et d’application.

À cette fin, la voie entrepreneuriale choisie par Zero One depuis sa création est un modèle auto-développé.

Bien qu’il soit sorti tardivement, il n’est certainement pas lent en termes de vitesse.

Par exemple, au cours des trois premiers mois, 010000000000 a réalisé des tests internes de modèle à l’échelle de 10 milliards de paramètres ; Après trois mois supplémentaires, vous pouvez déverrouiller la première au monde avec une échelle de paramètres de 34B.

Une telle vitesse et un objectif aussi élevé doivent être indissociables de la forte force de l’équipe derrière 01000000000.

Zero One Everything** est personnellement dirigé par le Dr Kai-Fu Lee et occupe le poste de PDG**.

Au début, Zero One a rassemblé une équipe de dizaines de membres principaux, se concentrant sur la technologie des grands modèles, les algorithmes d’intelligence artificielle, le traitement du langage naturel, l’architecture système, l’architecture informatique, la sécurité des données, la recherche et le développement de produits et d’autres domaines.

Parmi eux, les membres de l’équipe conjointe qui ont rejoint l’équipe comprennent l’ancien vice-président d’Alibaba, l’ancien vice-président de Baidu, l’ancien dirigeant de Google Chine et l’ancien vice-président de Microsoft/SAP/Cisco, et les membres de l’équipe d’algorithmes et de produits sont tous issus de grands fabricants nationaux et étrangers.

Si l’on prend l’exemple des membres de l’équipe de l’algorithme et du modèle, il y a des maîtres de l’algorithme dont les articles ont été cités par GPT-4, des chercheurs exceptionnels qui ont remporté les prix de recherche interne de Microsoft et des super ingénieurs qui ont remporté le prix spécial du PDG d’Alibaba. Au total, il a publié plus de 100 articles académiques liés aux grands modèles dans des conférences académiques renommées telles que l’ICLR, NeurIPS, CVPR et ICCV.

De plus, au début de sa création, 010000 a commencé à construire une plate-forme expérimentale, construisant un cluster de milliers de GPU pour l’entraînement, le réglage et l’inférence. En termes de données, l’objectif principal est d’améliorer le nombre de paramètres valides et la densité des données de haute qualité utilisées.

À partir de là, il n’est pas difficile de voir où se trouve la confiance du modèle de la série Yi du zéro une chose est d’oser frapper en arrière.

Il est entendu que sur la base de la série Yi de grands modèles, il itérera rapidement et ouvrira des versions plus quantitatives, des modèles de dialogue, des modèles mathématiques, des modèles de code et des modèles multimodaux.

Dans l’ensemble, avec l’entrée du cheval noir de 010 000 choses, la bataille des 100 modèles est devenue plus intense et plus vivante.

Il vaut la peine d’attendre avec impatience le nombre de « premières mondiales » que le grand modèle de la série Yi subvertira à l’avenir.

Une dernière chose

Pourquoi le nom « Yi » ? **

Le nom vient du pinyin de « 一 », et le « Y » de « Yi » est à l’envers, ressemblant astucieusement au caractère chinois « humain », combiné avec le i de AI, qui représente Humain + IA.

Nous pensons que l’autonomisation de l’IA fera avancer la société humaine, et que l’IA devrait créer une grande valeur pour les êtres humains dans l’esprit de donner la priorité aux personnes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 1
  • Reposter
  • Partager
Commentaire
0/400
WindfallWealthvip
· 2023-11-06 04:02
Le tonnerre est fort et la pluie est faible.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)