GPT-4は「プランナーとオーディター」として機能し、破壊的な2層文生チャートモデルです

2023-11-20 08:45:43

出典:AIGCオープンコミュニティ

画像ソース: Unbounded AIによって生成

DALL-E 3、Midjourney、Stable Diffusionなどのモデルは、テキストからスケッチ、パンク、3D、2次元画像など、さまざまなタイプの高品質の画像を生成する優れた創造力を示していますが、科学的なチャート(列、ヒストグラム、ボックスライン、ツリーなど)の生成にはわずかに欠けています。

これは、ダイアグラムの生成時にモデルが重要なオブジェクトを見逃したり、誤ったオブジェクト関係の矢印を生成したり、オブジェクトに対するきめ細かなレイアウト制御を欠いた判読不能なテキストラベルを生成したりするためです。特に、複数のオブジェクトに複雑な矢印や線分関係がある場合、チャートの生成に不可欠な明確で読みやすいテキストをレンダリングすることができません。

この2つの問題を解決するために、ノースカロライナ大学はDiagrammerGPTフレームワークを提案しました。まず、GPT-4 を「プランナー」として機能させ、テキストの説明に基づいて図のレイアウト計画情報を生成します。

計画情報には、エンティティ (オブジェクトとテキストラベル)、エンティティ間の関係 (矢印、セグメントなど)、およびエンティティのレイアウト情報 (境界ボックスの座標) が含まれます。そして、GPT-4を「監査人」として利用し、計画計画全体をレビューし、チャートの詳細を最適化します。

ダイアグラム生成段階では、DiagramGLIGEN拡散モデルを使用してダイアグラムプランに従って正確なチャートを生成し、テキストラベルをPillowライブラリでレンダリングして精度を向上させることができます。

テストデータによると、DiagrammerGPT は、複数の定量的指標で Stable Diffusion、VPGen、AutomaTikZ などのモデルによって生成されたチャートよりも大幅に優れています。

チャートとテキストやオブジェクトの関係の精度評価に関しては、DiagrammerGPTはベンチマークモデルよりもそれぞれ36%と48%の優れたスコアを達成しました。この研究は、テキスト生成のための高精度グラフモデルにとって大きなブレークスルーです。

オープンソースアドレス:

住所：

チャートプランニング

DiagrammerGPT フレームワークの最大の革新は、GPT-4 の強力な自然言語処理能力を使用して、ダイアグラムレイアウトの生成をガイドすることです。より正確な計画を生成するために、クローズドループフィードバックメカニズムも設計されています。

1つのGPT-4は初期計画を生成する「プランナー」として機能し、もう1つのGPT-4は計画の正確性を評価してフィードバックを提供する「監査人」として機能します。プランナーは、フィードバックに基づいてレイアウトを調整できます。

1)初期チャート計画作成

研究者らは、それぞれに完全なダイアグラムテキストの説明、エンティティ、関係、レイアウト情報を含む10個のコンテキスト学習サンプルでGPT-4をトレーニングしました。計画には3つの要素があります。

エンティティ: オブジェクトとテキストラベルのリスト。オブジェクトは図のイメージ要素を参照し、テキストラベルはオブジェクトのテキストによる説明を参照します。

関係: 矢印接続、線分セグメント接続、テキストラベルラベル付けオブジェクトなど、エンティティ間の関係。

レイアウト: すべてのエンティティの境界ボックス座標情報 ([x,y,w,h] 形式)。

2) 計画の最適化

計画の質をさらに向上させるために、計画立案者と監査人向けのクローズドループフィードバックメカニズムが提案され、反復的な最適化が行われました。 GPT-4はプランナーとして機能し、別のGPT-4は監査人として機能します。監査人は、計画がテキストの説明と一致するかどうかをチェックし、フィードバックを提供します。プランナーは、フィードバックに基づいて計画を更新します。

その中で、監査人GPT-4は、効果的なフィードバックを提供するために、コンテキスト固有の学習を通じてトレーニングも受けています。どちらのトレーニングも、異なるコンテキスト学習サンプルを使用します。

チャート生成

研究者らは、グラフ生成にDiagram GLIGEN拡散モデルを使用し、グラフ計画のレイアウト情報を使用して画像生成をガイドできるゲート付きセルフアテンションレイヤーを追加しました。

オブジェクトのみを扱う元のGLIGEモデルとは異なり、DiagramGLIGENはテキストラベルと矢印の両方の関係をレイアウト入力として処理できます。 DiagramGLIGEN は、ドメイン固有の科学図を生成するために、AI2D-Caption データセットでトレーニングされます。

しかし、拡散モデル自体のテキストのレンダリングが不十分なため、研究者はPillowライブラリを使用してテキストラベルを明示的にレンダリングし、テキストの明瞭さを向上させました。

トレーニング、評価データセット

研究者らは、AI2D科学グラフデータセットに基づいて、テキストからグラフへの生成のトレーニングとデータテストのためのAI2D-Captionデータセットを構築しました。 AI2Dには、天文学、生物学、工学などをカバーする科学的なチャートやグラフの約4,900枚の画像が含まれています。

合計 105 のチャートが選択され、大規模な言語モデルを使用して、各チャートの詳細な画像タイトルとオブジェクトの説明が生成されました。そのうち、30 個は言語モデルのコンテキスト学習サンプルとして使用され、75 個はテストセットとして使用されました。

単純なタイトルしかなかった元の AI2D と比較して、AI2D-Caption は、完全なチャートタイトルと各オブジェクトの詳細を含む、より豊富なテキスト説明を提供します。

複数のベンチマークデータによると、VP では、DiagrammerGPT のオブジェクト、数、関係、およびテキストのレンダリング精度がベンチマークモデルよりも大幅に優れており、生成されたチャートの高品質が多くの面で証明されています。

画像のキャプションでは、DiagrammerGPT によって生成されたグラフは、真理値に近い、より関連性の高いキャプションを生成できます。 CLIPScore では、DiagrammerGPT の画像とテキスト、画像と画像の類似性が高く、真理値チャートやタイトルに近づいています。人間による評価も行われ、大多数がDiagrammerGPTによって生成されたチャートを好むと答えました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

0/400

コメントなし

トピック
#GUSD Now Live on Gate
10k 人気度
#ETH Trend Watch
32k 人気度
#Rise of Solana Treasury Holders
24k 人気度
#Gate Alpha CELB Points Airdrop
20k 人気度
#Commerce Dept. Goes On-Chain
14k 人気度

ピン

サイトマップ