GPT-4 agit comme un « planificateur et auditeur », un modèle subversif de carte Wensheng à deux couches

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

Des modèles tels que DALL-E 3, Midjourney et Stable Diffusion ont fait preuve d’une grande capacité créative pour générer des images de haute qualité de différents types tels que des croquis, des images punk, 3D et bidimensionnelles à partir de texte, mais ils manquent légèrement de graphiques scientifiques (colonnes, histogrammes, boîtes, arbres, etc.).

Cela est dû au fait que le modèle manque des objets importants lors de la génération de diagrammes, génère des flèches de relation objet incorrectes et produit des étiquettes de texte illisibles qui manquent d’un contrôle de mise en page précis sur les objets. En particulier, lorsque plusieurs objets ont des flèches complexes ou des relations de segment de ligne, il n’est pas possible d’afficher un texte clair et lisible, ce qui est essentiel pour la génération de graphiques.

Afin de résoudre ces deux problèmes, l’Université de Caroline du Nord a proposé le framework DiagrammerGPT. Tout d’abord, utilisez GPT-4 pour agir en tant que « planificateur » afin de générer des informations de planification de la mise en page pour le diagramme en fonction des descriptions textuelles.

Les informations de planification contiennent des entités (objets et étiquettes de texte), des relations entre les entités (flèches, segments, etc.) et des informations de mise en page pour les entités (coordonnées de la boîte englobante). Ensuite, GPT-4 est utilisé comme « auditeur » pour examiner l’ensemble du plan de planification et optimiser les détails des graphiques.

Dans la phase de génération de diagramme, le modèle de diffusion DiagramGLIGEN peut être utilisé pour générer des graphiques précis en fonction du plan de diagramme, et les étiquettes de texte peuvent être rendues par la bibliothèque Pillow pour améliorer la précision.

Selon les données de test, DiagrammerGPT est nettement meilleur que les graphiques générés par des modèles tels que Stable Diffusion, VPGen et AutomaTikZ sur plusieurs indicateurs quantitatifs.

En ce qui concerne l’évaluation de la précision de la relation entre les graphiques et les textes et les objets, DiagrammerGPT a obtenu des scores supérieurs de 36 % et 48 % à ceux du modèle de référence, respectivement. Cette étude est une percée majeure pour les modèles de graphes de haute précision pour la génération de texte.

Adresse Open Source :

Adresse:

Planification des graphiques

La plus grande innovation du framework DiagrammerGPT est qu’il utilise la puissante puissance de traitement du langage naturel de GPT-4 pour guider la génération de mises en page de diagrammes. Afin de générer un plan plus précis, un mécanisme de rétroaction en boucle fermée est également conçu.

Un GPT-4 agit en tant que « planificateur » pour générer le plan initial, et l’autre GPT-4 agit en tant qu'« auditeur », évaluant l’exactitude du plan et fournissant des commentaires. Les planificateurs peuvent ajuster la mise en page en fonction des commentaires.

1) Génération initiale de la planification des graphiques

Les chercheurs ont entraîné GPT-4 sur 10 échantillons d’apprentissage contextuel, chacun contenant une description textuelle complète du diagramme, des entités, des relations et des informations de mise en page. Le plan comporte 3 éléments :

Entités : liste d’objets et d’étiquettes de texte. Un objet fait référence à un élément d’image dans un diagramme, et une étiquette de texte fait référence à une description textuelle d’un objet.

Relations : relations entre les entités, telles que les connexions de flèches, les connexions de segments de ligne, les objets d’étiquetage d’étiquettes de texte, etc.

Mise en page : informations de coordonnées de la boîte englobante pour toutes les entités, au format [x,y,w,h].

2) Optimisation de la planification

Afin d’améliorer encore la qualité de la planification, un mécanisme de rétroaction en boucle fermée pour les planificateurs et les auditeurs a été proposé pour une optimisation itérative. GPT-4 agit en tant que planificateur et un autre GPT-4 agit en tant qu’auditeur. L’auditeur vérifie si le plan correspond à la description textuelle et fournit une rétroaction. Les planificateurs mettent à jour les plans en fonction des commentaires.

Parmi eux, l’auditeur GPT-4 est également formé par le biais d’un apprentissage spécifique au contexte pour fournir un feedback efficace. Les deux formations utilisent différents échantillons d’apprentissage contextuel.

Génération de graphiques

Les chercheurs ont utilisé le modèle de diffusion Diagram GLIGEN pour la génération de graphes et ont ajouté une couche d’auto-attention fermée, qui peut utiliser les informations de mise en page de la planification de graphes pour guider la génération d’images.

Contrairement au modèle GLIGEN d’origine, qui ne traite que des objets, DiagramGLIGEN peut gérer à la fois les relations entre les étiquettes de texte et les flèches en tant qu’entrées de mise en page. DiagramGLIGEN est entraîné sur le jeu de données AI2D-Caption pour générer des diagrammes scientifiques spécifiques à un domaine.

Cependant, en raison du mauvais rendu du texte du modèle de diffusion lui-même, les chercheurs ont utilisé la bibliothèque Pillow pour afficher explicitement les étiquettes de texte afin d’améliorer la clarté du texte.

Formation, jeu de données d’évaluation

Sur la base de l’ensemble de données de graphes scientifiques AI2D, les chercheurs ont construit l’ensemble de données AI2D-Caption pour l’entraînement et le test des données de génération de texte en graphique. AI2D contient environ 4 900 images de tableaux et de graphiques scientifiques, couvrant l’astronomie, la biologie, l’ingénierie, etc.

Au total, 105 graphiques ont été sélectionnés, et un grand modèle de langage a été utilisé pour générer des titres d’images détaillés et des descriptions d’objets pour chaque graphique. Parmi eux, 30 ont été utilisés comme échantillons d’apprentissage contextuel pour le modèle de langage, et 75 ont été utilisés comme ensembles de test.

Par rapport à l’AI2D original, qui n’avait qu’un titre simple, AI2D-Caption fournit une description textuelle plus riche, y compris le titre complet du graphique et les détails de chaque objet.

De multiples données de benchmark montrent que sur VP, la précision du rendu des objets, des nombres, des relations et du texte de DiagrammerGPT est nettement meilleure que celle du modèle de benchmark, ce qui prouve la haute qualité de ses graphiques générés à bien des égards.

Sur les légendes d’images, les graphiques générés par DiagrammerGPT peuvent produire des légendes plus pertinentes et plus proches des valeurs de vérité. Sur CLIPScore, la similarité image-texte et image-image de DiagrammerGPT est plus élevée, plus proche des graphiques et des titres de vérité. Des évaluations humaines ont également été effectuées, la majorité d’entre eux déclarant préférer les graphiques générés par DiagrammerGPT.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)