Jusqu’à 20 fois ! Compressez les invites textuelles du modèle telles que ChatGPT pour économiser considérablement la puissance de calcul de l’IA

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

Dans les scénarios de texte long, les grands modèles de langage tels que ChatGPT sont souvent confrontés à des coûts de puissance de calcul plus élevés, à une latence plus longue et à des performances moins bonnes. Pour résoudre ces trois défis, Microsoft a ouvert LongLLMLingua.

Il est rapporté que le principe technique de base de LongLLMLingua est d’atteindre jusqu’à 20 fois la compression limite de « l’invite de texte », et en même temps d’évaluer avec précision la pertinence du contenu de l’invite par rapport au problème, d’éliminer le contenu non pertinent et de conserver les informations clés, et d’atteindre l’objectif de réduire les coûts et d’augmenter l’efficacité.

Les résultats expérimentaux montrent que les performances de l’invite ** compressée par LongLLMLingua sont supérieures de 17,1 % à celles de l’invite d’origine, et que les jetons saisis dans GPT-3.5-Turbo sont réduits de 4 fois**. Les tests LongBench et ZeroScrolls ont montré des économies de coûts de 28,5 $ et 27,4 $ pour 1 000 échantillons.

Lorsqu’un indice d’environ 10 k jetons est compressé et que le taux de compression est compris entre 2 et 10x, la latence de bout en bout peut être réduite de 1,4 à 3,8x, ce qui accélère considérablement le taux d’inférence.

Adresse papier :

Adresse Open Source :

D’après l’article d’introduction, LongLLMLingua est principalement composé de quatre modules : la compression grossière à grain fin, la réorganisation des documents, le taux de compression dynamique et la récupération des sous-séquences après compression.

Module de compression à gros grains sensible aux problèmes

L’idée de ce module est d’utiliser conditionnellement le texte de la question, d’évaluer la pertinence de chaque paragraphe par rapport à la question et de retenir les paragraphes les plus pertinents.

Plus précisément, en calculant le degré de confusion conditionnelle du texte problématique et de chaque paragraphe, le degré de corrélation logique entre les deux est évalué, et plus la confusion conditionnelle est faible, plus la pertinence est élevée.

Sur cette base, définissez un seuil pour conserver les paragraphes à faible confusion et filtrer les paragraphes qui ne sont pas pertinents pour le problème. Cela permet à la compression grossière de supprimer rapidement de grandes quantités d’informations redondantes en fonction du problème.

Module de réorganisation de documents

Des études ont montré que parmi les invites, le contenu proche des positions de début et de fin a le plus grand impact sur le modèle de langage. Par conséquent, le module réorganise chaque paragraphe en fonction de sa pertinence, de sorte que les informations clés apparaissent dans une position plus sensible pour le modèle, réduisant ainsi la perte d’informations en position médiane.

En utilisant le module de compression à gros grains pour calculer la pertinence de chaque paragraphe par rapport au problème, les paragraphes sont triés de manière à ce que le paragraphe ayant le plus haut degré de pertinence soit classé premier. Cela améliore encore la perception des informations critiques par le modèle.

Après avoir obtenu les paragraphes connexes réorganisés, le nombre de mots dans chaque paragraphe doit être compressé davantage. À ce stade, le module de taux de compression dynamique ajuste finement l’invite.

Module de taux de compression dynamique

Utilisez un taux de compression plus faible pour les paragraphes plus pertinents et allouez plus de budget aux mots réservés, tout en utilisant un taux de compression plus élevé pour les paragraphes moins pertinents.

Le taux de compression de chaque paragraphe est déterminé dynamiquement en utilisant l’associativité du paragraphe dans le résultat de compression à gros grains. Les paragraphes les plus pertinents ont le taux de compression le plus bas, et ainsi de suite.

Bénéficiez d’un contrôle de compression adaptatif et précis pour conserver efficacement les informations critiques. Après la compression, il est également nécessaire d’améliorer la fiabilité des résultats, ce qui nécessite le module de récupération de sous-séquence compressé suivant.

Module de récupération de sous-séquence après compression

Au cours du processus de compression, certains mots-clés peuvent être supprimés de manière excessive, ce qui affecte l’intégrité de l’information, et le module peut détecter et restaurer ces mots-clés.

Le principe de fonctionnement est d’utiliser la relation de sous-séquence entre le texte source, le texte compressé et le texte généré pour récupérer les phrases nominales clés complètes à partir des résultats générés, réparer le manque d’informations apporté par la compression et améliorer la précision des résultats.

L’ensemble du processus est un peu comme notre flux de travail pour parcourir rapidement les articles, passer au crible les informations, intégrer les points clés, etc., afin que le modèle capture rapidement les informations clés du texte et produise des résumés de haute qualité.

LongLLMLingua données expérimentales

Les chercheurs ont construit un ensemble de données de questions et réponses multi-documents basé sur des questions naturelles, dans lequel chaque exemple contenait une question et 20 documents connexes à partir desquels des réponses étaient nécessaires.

Ce jeu de données simule des scénarios réels de moteur de recherche et de questions-réponses pour évaluer les performances de questions-réponses du modèle dans des documents longs.

En outre, les chercheurs ont utilisé un ensemble plus général de repères de compréhension de textes longs, y compris LongBench et ZeroSCROLLS, pour évaluer l’efficacité de la méthode dans un plus large éventail de scénarios.

Parmi eux, LongBench couvre des tâches telles que les questions-réponses sur un seul document, les questions-réponses sur plusieurs documents, les résumés textuels et l’apprentissage de quelques échantillons, y compris les ensembles de données en anglais. ZeroSCROLLS comprend des tâches typiques de compréhension du langage telles que le résumé de texte, la compréhension des réponses aux questions et l’analyse des sentiments.

Sur ces ensembles de données, les chercheurs ont comparé les performances de l’invite compressée de LongLLMLingua avec l’invite d’origine sur un grand modèle de langage. Dans le même temps, l’efficacité de LongLLMLingua a été évaluée par comparaison avec d’autres méthodes de compression rapide, telles que LLMLingua basée sur des puzzles et des méthodes basées sur la récupération.

Les résultats expérimentaux montrent que l’invite compressée de LongLLMLingua est généralement meilleure que l’invite d’origine en termes de précision des questions-réponses et de qualité du texte généré.

Par exemple, sur NaturalQuestions, la compression 4x des invites a amélioré la précision des questions-réponses de 17,1 %. Lors de la compression d’un indice d’environ 10 000 jetons, le taux de compression est compris entre 2 et 10x, et la latence de bout en bout peut être réduite de 1,4 à 3,8 fois. Cela prouve pleinement que LongLLMLingua peut améliorer l’extraction d’informations clés tout en compressant les indices.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)