GPT-4 выступает в роли «планировщика и аудитора», подрывной двухуровневой модели диаграммы Вэньшэна

Первоисточник: Открытое сообщество AIGC

Источник изображения: Generated by Unbounded AI

Такие модели, как DALL-E 3, Midjourney и Stable Diffusion, продемонстрировали большую творческую способность генерировать высококачественные изображения различных типов, такие как скетчи, панк, 3D и двухмерные изображения из текста, но им немного не хватает генерации научных диаграмм (столбцов, гистограмм, прямоугольников, деревьев и т. д.).

Это связано с тем, что модель пропускает важные объекты при создании схем, создает неправильные стрелки связи между объектами и создает нечитаемые текстовые метки, в которых отсутствует детальный контроль макета над объектами. В частности, когда несколько объектов имеют сложные отношения между стрелками или сегментами линий, невозможно отобразить четкий и читаемый текст, что имеет решающее значение для создания диаграммы.

Для решения этих двух проблем Университет Северной Каролины предложил фреймворк DiagrammerGPT. Во-первых, используйте GPT-4 в качестве «планировщика» для создания информации о планировании компоновки для диаграммы на основе текстовых описаний.

Сведения о планировании содержат сущности (объекты и текстовые метки), отношения между объектами (стрелки, сегменты и т. д.) и сведения о макете для объектов (координаты ограничивающей рамки). Затем GPT-4 используется в качестве «аудитора» для проверки всего плана планирования и оптимизации деталей диаграмм.

На этапе создания диаграммы диффузионная модель DiagramGLIGEN может быть использована для создания точных диаграмм в соответствии с планом диаграммы, а текстовые метки могут быть визуализированы библиотекой Pillow для повышения точности.

Согласно тестовым данным, DiagrammerGPT значительно лучше, чем графики, сгенерированные такими моделями, как Stable Diffusion, VPGen и AutomaTikZ по множеству количественных показателей.

С точки зрения оценки точности взаимосвязи между диаграммами и текстами и объектами, DiagrammerGPT получил на 36% и 48% лучших результатов, чем эталонная модель, соответственно. Это исследование является крупным прорывом в области высокоточных графовых моделей для генерации текста.

Адрес с открытым исходным кодом:

Адрес:

Планирование графиков

Самая большая инновация фреймворка DiagrammerGPT заключается в том, что он использует мощную вычислительную мощность естественного языка GPT-4 для управления генерацией макетов диаграмм. Для формирования более точного плана также разработан механизм обратной связи с обратной связью.

Один GPT-4 выступает в качестве «планировщика» для создания первоначального плана, а другой GPT-4 действует как «аудитор», оценивая точность плана и предоставляя обратную связь. Планировщики могут корректировать макет на основе отзывов.

1) Генерация начального планирования графика

Исследователи обучили GPT-4 на 10 примерах контекстного обучения, каждый из которых содержал полное текстовое описание диаграммы, сущности, отношения и информацию о макете. План состоит из 3 элементов:

Сущности: список объектов и текстовых меток. Объект относится к элементу изображения в схеме, а текстовая метка — к текстовому описанию объекта.

Связи: связи между объектами, такими как соединения стрелками, соединения сегментов линий, объекты надписей текстовых меток и т. д.

Компоновка: информация о координатах ограничительной рамки для всех объектов в формате [x,y,w,h].

2) Оптимизация планирования

В целях дальнейшего повышения качества планирования был предложен механизм обратной связи для планировщиков и аудиторов замкнутого цикла для итеративной оптимизации. GPT-4 выступает в роли планировщика, а другой GPT-4 — в качестве аудитора. Аудитор проверяет, соответствует ли план текстовому описанию, и дает обратную связь; Планировщики обновляют планы на основе отзывов.

Среди них аудитор GPT-4 также обучается с помощью контекстно-зависимого обучения для обеспечения эффективной обратной связи. В обоих тренингах используются разные примеры контекстуального обучения.

Генерация графика

Исследователи использовали диффузионную модель Diagram GLIGEN для генерации графов и добавили слой зависимого самовнимания, который может использовать информацию о планировке графа для управления генерацией изображений.

В отличие от исходной модели GLIGEN, которая имеет дело только с объектами, DiagramGLIGEN может обрабатывать как текстовые метки, так и отношения стрелок в качестве входных данных макета. DiagramGLIGEN обучается на наборе данных AI2D-Caption для создания научных диаграмм, специфичных для предметной области.

Однако из-за плохой визуализации текста самой диффузионной модели исследователи использовали библиотеку Pillow для явного рендеринга текстовых меток для повышения четкости текста.

Набор данных для обучения, оценки

На основе набора данных научного графа AI2D исследователи построили набор данных AI2D-Caption для обучения и тестирования данных генерации текста в график. AI2D содержит около 4 900 изображений научных диаграмм и графиков, охватывающих астрономию, биологию, инженерию и многое другое.

Всего было отобрано 105 диаграмм, и для создания подробных заголовков изображений и описаний объектов для каждой диаграммы использовалась большая языковая модель. Из них 30 использовались в качестве выборок контекстного обучения для языковой модели, а 75 — в качестве тестовых наборов.

По сравнению с оригинальным AI2D, у которого был только простой заголовок, AI2D-Caption предоставляет более богатое текстовое описание, включая полный заголовок диаграммы и сведения о каждом объекте.

Многочисленные данные тестов показывают, что на VP точность отображения объектов, чисел, отношений и текста DiagrammerGPT значительно выше, чем у эталонной модели, что доказывает высокое качество сгенерированных диаграмм во многих аспектах.

В подписях к изображениям диаграммы, сгенерированные DiagrammerGPT, могут создавать более релевантные подписи, которые ближе к истинным значениям. На CLIPScore сходство изображения с текстом и изображения в DiagrammerGPT выше, ближе к диаграммам и заголовкам правды. Также были проведены оценки на людях, и большинство из них заявили, что предпочитают диаграммы, сгенерированные DiagrammerGPT.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить