C’est tout à l’heure que Baichuan Intelligent Baichuan2-192K est sorti, avec la plus longue fenêtre de contexte au monde ! Après avoir lu « Le problème à trois corps » à un moment donné, j’ai gagné 7 SOTA
La fenêtre contextuelle la plus longue du monde est arrivée ! Aujourd’hui, Baichuan Intelligent a publié le grand modèle Baichuan2-192K, avec une longueur de fenêtre contextuelle allant jusqu’à 192K (350 000 caractères chinois), soit 4,4 fois celle de Claude 2 et 14 fois celle de GPT-4 !
Une nouvelle référence dans le domaine des fenêtres contextuelles longues, ici !
Aujourd’hui, Baichuan Intelligent a officiellement lancé le grand modèle avec la plus longue fenêtre contextuelle au monde - Baichuan2-192K.
Contrairement au modèle précédent, la longueur de la fenêtre contextuelle de ce modèle est de 192 Ko, ce qui équivaut à environ 350 000 caractères chinois.
Pour être plus précis, Baichuan2-192K peut traiter 14 fois plus de caractères chinois que GPT-4 (contexte 32K, environ 25 000 mots) et Claude 2 (contexte 100K, environ 80 000 mots), et peut lire une copie de « The Three-Body Problem » en une seule séance.
L’enregistrement de la fenêtre contextuelle que Claude tenait depuis longtemps a été rafraîchi aujourd’hui
En lui jetant la première partie du problème à trois corps « Il était une fois sur Terre », Baichuan2-192K mâcha un peu, et connut immédiatement bien toute l’histoire.
Quel est le numéro sur la 36e photo du compte à rebours que Wang Miao a vu ? Réponse : 1194 :16 :37. Quel modèle d’appareil photo utilise-t-il ? R : Leica M2. Combien de fois Dashi et lui ont-ils bu au total ? Réponse : Deux fois.
En regardant la deuxième « Forêt Sombre », Baichuan2-192K répondit non seulement immédiatement que l’Organisation des Trois Corps de la Terre avait établi deux bases de Red Bank, et que les « Gouttelettes d’Eau » étaient faites de matériaux avec de fortes interactions.
De plus, même les questions impopulaires auxquelles le « Problème à trois corps et les érudits à dix niveaux » peuvent ne pas être en mesure de répondre, Baichuan2-192K est également fluide dans les réponses, et il est facile de répondre.
Qui a le plus d’apparitions de son nom ? Réponse : Luo Ji.
On peut dire que lorsque la fenêtre contextuelle est étendue à 350 000 mots, l’expérience d’utilisation du grand modèle semble avoir soudainement ouvert un nouveau monde !
Le contexte le plus long du monde, en tête de Claude 2 sur toute la ligne
Grand modèle, qu’est-ce qui sera coincé dans le cou ?
Si l’on prend l’exemple de ChatGPT, bien que ses capacités soient étonnantes, ce modèle « omnipotent » a une contrainte inévitable : il ne prend en charge qu’un maximum de 32K tokens (25 000 caractères chinois) dans le contexte. Les professions telles que les avocats, les analystes, etc., doivent traiter des textes qui prennent beaucoup plus de temps que cela la plupart du temps.
Une fenêtre contextuelle plus grande permet au modèle d’obtenir des informations sémantiques plus riches à partir de l’entrée, et même d’effectuer directement des questions-réponses et un traitement de l’information basé sur la compréhension du texte intégral.
En conséquence, le modèle peut non seulement mieux saisir la pertinence du contexte, éliminer l’ambiguïté, mais aussi générer du contenu avec plus de précision, atténuer le problème de « l’illusion » et améliorer les performances. De plus, avec la bénédiction d’un contexte long, il peut également être profondément combiné avec des scènes plus verticales, et jouer un rôle réel dans le travail, la vie et l’apprentissage des gens.
Récemment, la licorne de la Silicon Valley Anthropic a reçu 4 milliards d’investissements d’Amazon et 2 milliards d’investissements de Google. La faveur des deux géants est bien sûr liée à la position de leader de Claude dans la technologie des capacités à long contexte.
Cette fois-ci, le modèle de fenêtre longue Baichuan-192K publié par Baichuan Intelligence dépasse de loin le modèle Claude 2-100K en termes de longueur de fenêtre contextuelle, et a également obtenu une avance complète dans l’évaluation de multiples dimensions telles que la qualité de la génération de texte, la compréhension du contexte et la capacité de questions-réponses.
10 avis faisant autorité, 7 SOTAs
Long est une liste publiée par l’Université de Californie à Berkeley et d’autres universités pour l’évaluation des modèles de fenêtres longues, qui mesure principalement la capacité du modèle à se souvenir et à comprendre le contenu des fenêtres longues.
En termes de compréhension contextuelle, Baichuan2-192K est nettement en avance sur les autres modèles de la liste d’évaluation de la compréhension de texte à longue fenêtre faisant autorité Long, et peut toujours maintenir de très bonnes performances après une longueur de fenêtre de plus de 100K.
En revanche, l’effet global chute très fortement après que la longueur de la fenêtre Claude 2 dépasse 80K.
De plus, Baichuan2-192K a également obtenu de bons résultats dans 10 séries d’évaluation de questions-réponses et de résumés en chinois et en anglais, tels que Dureader, NarrativeQA, LSHT et TriviaQA.
Parmi eux, 7 ont atteint SOTA, qui a nettement surpassé les autres modèles à longue fenêtre.
La confusion est un critère très important lorsqu’il s’agit de la qualité de la génération de texte.
On peut simplement comprendre que lorsqu’un document de haute qualité conforme aux habitudes de langage naturel humain est utilisé comme ensemble de test, plus la probabilité que le modèle génère la version chinoise de l’ensemble de test est élevée, plus la confusion du modèle est faible et meilleur est le modèle.
Selon les résultats des tests du « Language Modeling Benchmark Dataset PG-19 » publiés par DeepMind, le niveau de confusion de Baichuan2-192K était excellent au stade initial, et la capacité de modélisation de séquence de Baichuan2-192K a continué à s’améliorer à mesure que la longueur de la fenêtre s’étendait.
### Optimisation conjointe des algorithmes d’ingénierie, amélioration synchrone des performances de longueur
Bien que les contextes longs puissent améliorer les performances du modèle, les fenêtres longues signifient également plus de puissance de calcul et plus de mémoire vidéo.
À l’heure actuelle, la pratique courante dans l’industrie consiste à faire glisser la fenêtre, à réduire l’échantillonnage, à réduire le modèle, etc.
Cependant, ces approches sacrifient toutes d’autres aspects du modèle à des degrés divers.
Afin de résoudre ce problème, Baichuan2-192K atteint un équilibre entre la longueur de la fenêtre et les performances du modèle grâce à une optimisation extrême des algorithmes et de l’ingénierie, et permet d’améliorer simultanément la longueur de la fenêtre et les performances du modèle.
Tout d’abord, en termes d’algorithmes, Baichuan Intelligent propose un schéma d’extrapolation pour le codage de position dynamique RoPE et ALiBi, qui peut effectuer différents degrés d’interpolation dynamique du masque d’attention pour le codage de position ALiBi de différentes longueurs, ce qui peut améliorer la capacité de modélisation du modèle à s’appuyer sur de longues séquences tout en assurant la résolution.
Deuxièmement, en termes d’ingénierie, sur la base du cadre d’entraînement distribué auto-développé, Baichuan Intelligence intègre presque toutes les technologies d’optimisation avancées sur le marché, y compris le parallélisme tensoriel, le parallélisme de flux, le parallélisme de séquence, le recalcul et le déchargement, et a créé un ensemble complet de schémas distribués parallèles 4D, qui peuvent trouver automatiquement la stratégie distribuée la plus appropriée en fonction de la situation de charge spécifique du modèle, ce qui réduit considérablement l’occupation de la mémoire dans le processus d’entraînement et d’inférence à longue fenêtre.
Le test interne est officiellement ouvert et l’expérience de première main est publiée
Aujourd’hui, Baichuan2-192K a officiellement commencé la bêta fermée !
Baichuan2-192K a été connecté à ses propres applications et entreprises par le biais d’appels API, et maintenant les médias financiers, les cabinets d’avocats et d’autres institutions ont conclu une coopération avec Baichuan Intelligence.
Il est concevable qu’avec l’application des capacités de contexte long de pointe de Baichuan2-192K à des scénarios spécifiques tels que les médias, la finance et le droit, il élargira sans aucun doute un espace plus large pour la mise en œuvre de grands modèles.
Grâce aux API, Baichuan2-192K peut être efficacement intégré dans des scènes plus verticales et profondément intégré à celles-ci.
Dans le passé, les documents contenant d’énormes quantités de contenu devenaient souvent une montagne que nous ne pouvions pas franchir dans notre travail et nos études.
Avec Baichuan2-192K, des centaines de pages de documents peuvent être traitées et analysées en même temps, et des informations critiques peuvent être extraites et analysées.
Qu’il s’agisse d’un long résumé/révision de document, d’un long article ou rapport, ou d’une aide à la programmation complexe, Baichuan2-192K vous donnera un énorme coup de pouce.
Pour les gestionnaires de fonds, il peut aider à résumer et à interpréter les états financiers, à analyser les risques et les opportunités de l’entreprise.
Pour les avocats, cela peut aider à identifier les risques dans plusieurs documents juridiques, à examiner les contrats et les documents juridiques.
Pour les développeurs, il peut aider à lire des centaines de pages de documentation de développement et à répondre à des questions techniques.
Depuis, la majorité des chercheurs scientifiques disposent également d’un outil de recherche scientifique, qui leur permet de parcourir rapidement un grand nombre d’articles et de résumer les dernières avancées de pointe.
De plus, un contexte plus long a un potentiel encore plus grand.
Les applications agentes et multimodales sont les points chauds de la recherche de pointe dans l’industrie actuelle. Avec des capacités contextuelles plus longues, les grands modèles peuvent mieux traiter et comprendre les entrées multimodales complexes, ce qui permet un meilleur apprentissage par transfert.
La longueur du contexte, un champ de bataille pour les soldats
On peut dire que la longueur de la fenêtre contextuelle est l’une des technologies de base des grands modèles.
Aujourd’hui, de nombreuses équipes commencent par une « saisie de texte long » pour renforcer la compétitivité différenciée du modèle de base. Si le nombre de paramètres détermine la complexité du modèle de grande taille, la longueur de la fenêtre de contexte détermine la quantité de « mémoire » dont dispose le modèle de grande taille.
Sam Altman a dit un jour que nous pensions que nous voulions une voiture volante, pas 140/280 caractères, mais en réalité, nous voulions 32 000 jetons.
Au pays et à l’étranger, la recherche et les produits visant à élargir la fenêtre contextuelle peuvent être décrits comme infinis.
En mai de cette année, GPT-4, qui a un contexte 32K, a déclenché une discussion animée.
À l’époque, les internautes qui avaient débloqué cette version ont fait l’éloge de GPT-4 32K comme le meilleur chef de produit au monde.
Bientôt, la startup Anthropic a annoncé que Claude avait été en mesure de prendre en charge une longueur de jeton de contexte de 100K, soit environ 75 000 mots.
En d’autres termes, une fois que la personne moyenne a lu la même quantité de contenu en environ 5 heures, elle doit passer plus de temps à digérer, mémoriser et analyser. Pour Claude, cela prend moins d'1 minute.
Dans la communauté open source, Meta a également proposé une méthode capable d’étendre efficacement les capacités de contexte, ce qui peut faire en sorte que la fenêtre contextuelle du modèle de base atteigne 32 768 jetons, et a permis d’améliorer considérablement les performances dans diverses tâches de détection de contexte synthétique et de modélisation du langage.
Les résultats montrent que le modèle avec des paramètres 70B a atteint des performances au-delà de gpt-3.5-turbo-16K dans diverses tâches à contexte long.
Adresse:
La méthode LongLoRA proposée par des chercheurs des équipes chinoises de Hong Kong et du MIT permet d’étendre la longueur du texte du modèle 7B à 100k tokens et la longueur du texte du modèle 70B à 32k tokens avec seulement deux lignes de code et une machine A100 à 8 cartes.
Adresse:
Des chercheurs de DeepPavlov, de l’AIRI et du London Institute of Mathematical Sciences ont utilisé la méthode RMT (Recurrent Memory Transformer) pour augmenter la longueur effective du contexte de BERT à un « niveau sans précédent de 2 millions de jetons » et maintenir une précision de récupération de mémoire élevée.
Cependant, bien que RMT puisse évoluer jusqu’à des longueurs de séquence presque infinies sans augmenter la consommation de mémoire, il existe toujours un problème de décroissance de la mémoire dans les RNN et des temps d’inférence plus longs.
Adresse:
Actuellement, la longueur de la fenêtre contextuelle des LLM est principalement de l’ordre de 4 000 à 100 000 jetons, et elle continue de croître.
Grâce à la recherche multidimensionnelle sur la fenêtre contextuelle dans l’industrie de l’IA et le milieu universitaire, elle montre son importance pour les LLM.
Et cette fois-ci, le grand modèle domestique a inauguré le moment historique de la plus longue fenêtre de contexte.
La fenêtre contextuelle de 192 Ko, qui a rafraîchi les données de l’industrie, représente non seulement une autre percée dans la technologie de modélisation à grande échelle de Baichuan Intelligence, mais aussi une autre étape importante dans le développement du modèle à grande échelle. Cela entraînera inévitablement un nouveau choc dans la réforme de la forme côté produit.
Fondée en avril 2023, Baichuan Intelligent a successivement publié quatre grands modèles commerciaux open-source et gratuits de Baichuan-7B/13B et Baichuan2-7B/13B en seulement 6 mois, ainsi que deux grands modèles fermés de Baichuan-53B et Baichuan2-53B.
De cette façon, il s’agit essentiellement d’un LLM le premier jour de janvier.
Maintenant, avec la sortie de Baichuan2-192K, la technologie de fenêtre à contexte long de grand modèle entrera également pleinement dans l’ère chinoise !
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
C’est tout à l’heure que Baichuan Intelligent Baichuan2-192K est sorti, avec la plus longue fenêtre de contexte au monde ! Après avoir lu « Le problème à trois corps » à un moment donné, j’ai gagné 7 SOTA
Source de l’article : New Zhiyuan
Une nouvelle référence dans le domaine des fenêtres contextuelles longues, ici !
Aujourd’hui, Baichuan Intelligent a officiellement lancé le grand modèle avec la plus longue fenêtre contextuelle au monde - Baichuan2-192K.
Contrairement au modèle précédent, la longueur de la fenêtre contextuelle de ce modèle est de 192 Ko, ce qui équivaut à environ 350 000 caractères chinois.
Pour être plus précis, Baichuan2-192K peut traiter 14 fois plus de caractères chinois que GPT-4 (contexte 32K, environ 25 000 mots) et Claude 2 (contexte 100K, environ 80 000 mots), et peut lire une copie de « The Three-Body Problem » en une seule séance.
En lui jetant la première partie du problème à trois corps « Il était une fois sur Terre », Baichuan2-192K mâcha un peu, et connut immédiatement bien toute l’histoire.
De plus, même les questions impopulaires auxquelles le « Problème à trois corps et les érudits à dix niveaux » peuvent ne pas être en mesure de répondre, Baichuan2-192K est également fluide dans les réponses, et il est facile de répondre.
Le contexte le plus long du monde, en tête de Claude 2 sur toute la ligne
Grand modèle, qu’est-ce qui sera coincé dans le cou ?
Si l’on prend l’exemple de ChatGPT, bien que ses capacités soient étonnantes, ce modèle « omnipotent » a une contrainte inévitable : il ne prend en charge qu’un maximum de 32K tokens (25 000 caractères chinois) dans le contexte. Les professions telles que les avocats, les analystes, etc., doivent traiter des textes qui prennent beaucoup plus de temps que cela la plupart du temps.
En conséquence, le modèle peut non seulement mieux saisir la pertinence du contexte, éliminer l’ambiguïté, mais aussi générer du contenu avec plus de précision, atténuer le problème de « l’illusion » et améliorer les performances. De plus, avec la bénédiction d’un contexte long, il peut également être profondément combiné avec des scènes plus verticales, et jouer un rôle réel dans le travail, la vie et l’apprentissage des gens.
Récemment, la licorne de la Silicon Valley Anthropic a reçu 4 milliards d’investissements d’Amazon et 2 milliards d’investissements de Google. La faveur des deux géants est bien sûr liée à la position de leader de Claude dans la technologie des capacités à long contexte.
Cette fois-ci, le modèle de fenêtre longue Baichuan-192K publié par Baichuan Intelligence dépasse de loin le modèle Claude 2-100K en termes de longueur de fenêtre contextuelle, et a également obtenu une avance complète dans l’évaluation de multiples dimensions telles que la qualité de la génération de texte, la compréhension du contexte et la capacité de questions-réponses.
10 avis faisant autorité, 7 SOTAs
Long est une liste publiée par l’Université de Californie à Berkeley et d’autres universités pour l’évaluation des modèles de fenêtres longues, qui mesure principalement la capacité du modèle à se souvenir et à comprendre le contenu des fenêtres longues.
En termes de compréhension contextuelle, Baichuan2-192K est nettement en avance sur les autres modèles de la liste d’évaluation de la compréhension de texte à longue fenêtre faisant autorité Long, et peut toujours maintenir de très bonnes performances après une longueur de fenêtre de plus de 100K.
En revanche, l’effet global chute très fortement après que la longueur de la fenêtre Claude 2 dépasse 80K.
Parmi eux, 7 ont atteint SOTA, qui a nettement surpassé les autres modèles à longue fenêtre.
On peut simplement comprendre que lorsqu’un document de haute qualité conforme aux habitudes de langage naturel humain est utilisé comme ensemble de test, plus la probabilité que le modèle génère la version chinoise de l’ensemble de test est élevée, plus la confusion du modèle est faible et meilleur est le modèle.
Bien que les contextes longs puissent améliorer les performances du modèle, les fenêtres longues signifient également plus de puissance de calcul et plus de mémoire vidéo.
À l’heure actuelle, la pratique courante dans l’industrie consiste à faire glisser la fenêtre, à réduire l’échantillonnage, à réduire le modèle, etc.
Cependant, ces approches sacrifient toutes d’autres aspects du modèle à des degrés divers.
Tout d’abord, en termes d’algorithmes, Baichuan Intelligent propose un schéma d’extrapolation pour le codage de position dynamique RoPE et ALiBi, qui peut effectuer différents degrés d’interpolation dynamique du masque d’attention pour le codage de position ALiBi de différentes longueurs, ce qui peut améliorer la capacité de modélisation du modèle à s’appuyer sur de longues séquences tout en assurant la résolution.
Deuxièmement, en termes d’ingénierie, sur la base du cadre d’entraînement distribué auto-développé, Baichuan Intelligence intègre presque toutes les technologies d’optimisation avancées sur le marché, y compris le parallélisme tensoriel, le parallélisme de flux, le parallélisme de séquence, le recalcul et le déchargement, et a créé un ensemble complet de schémas distribués parallèles 4D, qui peuvent trouver automatiquement la stratégie distribuée la plus appropriée en fonction de la situation de charge spécifique du modèle, ce qui réduit considérablement l’occupation de la mémoire dans le processus d’entraînement et d’inférence à longue fenêtre.
Le test interne est officiellement ouvert et l’expérience de première main est publiée
Aujourd’hui, Baichuan2-192K a officiellement commencé la bêta fermée !
Baichuan2-192K a été connecté à ses propres applications et entreprises par le biais d’appels API, et maintenant les médias financiers, les cabinets d’avocats et d’autres institutions ont conclu une coopération avec Baichuan Intelligence.
Il est concevable qu’avec l’application des capacités de contexte long de pointe de Baichuan2-192K à des scénarios spécifiques tels que les médias, la finance et le droit, il élargira sans aucun doute un espace plus large pour la mise en œuvre de grands modèles.
Grâce aux API, Baichuan2-192K peut être efficacement intégré dans des scènes plus verticales et profondément intégré à celles-ci.
Dans le passé, les documents contenant d’énormes quantités de contenu devenaient souvent une montagne que nous ne pouvions pas franchir dans notre travail et nos études.
Qu’il s’agisse d’un long résumé/révision de document, d’un long article ou rapport, ou d’une aide à la programmation complexe, Baichuan2-192K vous donnera un énorme coup de pouce.
Pour les gestionnaires de fonds, il peut aider à résumer et à interpréter les états financiers, à analyser les risques et les opportunités de l’entreprise.
Pour les avocats, cela peut aider à identifier les risques dans plusieurs documents juridiques, à examiner les contrats et les documents juridiques.
Depuis, la majorité des chercheurs scientifiques disposent également d’un outil de recherche scientifique, qui leur permet de parcourir rapidement un grand nombre d’articles et de résumer les dernières avancées de pointe.
Les applications agentes et multimodales sont les points chauds de la recherche de pointe dans l’industrie actuelle. Avec des capacités contextuelles plus longues, les grands modèles peuvent mieux traiter et comprendre les entrées multimodales complexes, ce qui permet un meilleur apprentissage par transfert.
La longueur du contexte, un champ de bataille pour les soldats
On peut dire que la longueur de la fenêtre contextuelle est l’une des technologies de base des grands modèles.
Aujourd’hui, de nombreuses équipes commencent par une « saisie de texte long » pour renforcer la compétitivité différenciée du modèle de base. Si le nombre de paramètres détermine la complexité du modèle de grande taille, la longueur de la fenêtre de contexte détermine la quantité de « mémoire » dont dispose le modèle de grande taille.
Sam Altman a dit un jour que nous pensions que nous voulions une voiture volante, pas 140/280 caractères, mais en réalité, nous voulions 32 000 jetons.
En mai de cette année, GPT-4, qui a un contexte 32K, a déclenché une discussion animée.
À l’époque, les internautes qui avaient débloqué cette version ont fait l’éloge de GPT-4 32K comme le meilleur chef de produit au monde.
En d’autres termes, une fois que la personne moyenne a lu la même quantité de contenu en environ 5 heures, elle doit passer plus de temps à digérer, mémoriser et analyser. Pour Claude, cela prend moins d'1 minute.
Les résultats montrent que le modèle avec des paramètres 70B a atteint des performances au-delà de gpt-3.5-turbo-16K dans diverses tâches à contexte long.
La méthode LongLoRA proposée par des chercheurs des équipes chinoises de Hong Kong et du MIT permet d’étendre la longueur du texte du modèle 7B à 100k tokens et la longueur du texte du modèle 70B à 32k tokens avec seulement deux lignes de code et une machine A100 à 8 cartes.
Des chercheurs de DeepPavlov, de l’AIRI et du London Institute of Mathematical Sciences ont utilisé la méthode RMT (Recurrent Memory Transformer) pour augmenter la longueur effective du contexte de BERT à un « niveau sans précédent de 2 millions de jetons » et maintenir une précision de récupération de mémoire élevée.
Cependant, bien que RMT puisse évoluer jusqu’à des longueurs de séquence presque infinies sans augmenter la consommation de mémoire, il existe toujours un problème de décroissance de la mémoire dans les RNN et des temps d’inférence plus longs.
Actuellement, la longueur de la fenêtre contextuelle des LLM est principalement de l’ordre de 4 000 à 100 000 jetons, et elle continue de croître.
Et cette fois-ci, le grand modèle domestique a inauguré le moment historique de la plus longue fenêtre de contexte.
La fenêtre contextuelle de 192 Ko, qui a rafraîchi les données de l’industrie, représente non seulement une autre percée dans la technologie de modélisation à grande échelle de Baichuan Intelligence, mais aussi une autre étape importante dans le développement du modèle à grande échelle. Cela entraînera inévitablement un nouveau choc dans la réforme de la forme côté produit.
De cette façon, il s’agit essentiellement d’un LLM le premier jour de janvier.
Maintenant, avec la sortie de Baichuan2-192K, la technologie de fenêtre à contexte long de grand modèle entrera également pleinement dans l’ère chinoise !