До 20 раз! Сжимайте текстовые подсказки модели, такие как ChatGPT, чтобы значительно сэкономить вычислительную мощность ИИ

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

В сценариях с длинным текстом большие языковые модели, такие как ChatGPT, часто сталкиваются с более высокими затратами на вычислительную мощность, более длительной задержкой и более низкой производительностью. Чтобы решить эти три проблемы, корпорация Майкрософт открыла исходный код LongLLMLingua.

Сообщается, что основной технический принцип LongLLMLingua заключается в том, чтобы достичь до 20 раз предельного сжатия «текстовой подсказки», и в то же время можно точно оценить релевантность контента в подсказке проблеме, устранить нерелевантный контент и сохранить ключевую информацию, а также достичь цели снижения затрат и повышения эффективности.

Результаты экспериментов показывают, что производительность ** приглашения, сжатого LongLLMLingua, на 17,1% выше, чем у оригинального приглашения, а токены, введенные в GPT-3.5-Turbo, уменьшены в 4 раза**. Тесты LongBench и ZeroScrolls показали экономию затрат в размере 28,5 и 27,4 долларов США на 1000 образцов.

Когда подсказка около 10 тыс. токенов сжимается, а коэффициент сжатия находится в диапазоне 2-10x, сквозная задержка может быть уменьшена в 1,4-3,8x, что значительно ускоряет скорость вывода.

Адрес доклада:

Адрес с открытым исходным кодом:

Согласно вводной статье, LongLLMLingua в основном состоит из четырех модулей: проблемно-ориентированное крупнозернистое сжатие, изменение порядка документов, динамическая степень сжатия и восстановление подпоследовательностей после сжатия.

Модуль крупнозернистого сжатия с учетом проблем

Идея этого модуля состоит в том, чтобы условно использовать текст вопроса, оценить, насколько каждый абзац относится к вопросу, и сохранить наиболее релевантные абзацы.

В частности, путем вычисления степени условного замешательства в тексте задачи и в каждом абзаце оценивается степень логической корреляции между ними, и чем ниже условная путаница, тем выше релевантность.

Исходя из этого, установите пороговое значение, чтобы оставить абзацы с низкой путаницей и отфильтровать абзацы, которые не имеют отношения к проблеме. Это позволяет с помощью грубого сжатия быстро удалять большие объемы избыточной информации в зависимости от проблемы.

Модуль изменения порядка документов

Исследования показали, что среди подсказок наибольшее влияние на языковую модель оказывает контент, близкий к начальным и конечным позициям. Таким образом, модуль переупорядочивает каждый абзац в соответствии с его актуальностью, чтобы ключевая информация отображалась в более чувствительной позиции для модели, уменьшая потерю информации в средней позиции.

При использовании модуля крупнозернистого сжатия для вычисления релевантности каждого абзаца к проблеме абзацы сортируются таким образом, что абзац с наибольшей степенью релевантности ранжируется первым. Это еще больше улучшает восприятие модели критически важной информации.

После получения переупорядоченных связанных абзацев количество слов в каждом абзаце необходимо дополнительно сжать. На этом этапе модуль динамической степени сжатия точно настраивает приглашение.

Модуль динамической степени сжатия

Используйте более низкую степень сжатия для более релевантных абзацев и выделяйте больше бюджета для зарезервированных слов, в то время как используйте более высокую степень сжатия для менее релевантных абзацев.

Степень сжатия для каждого абзаца динамически определяется с помощью ассоциативности абзаца в крупнозернистом результате сжатия. Наиболее релевантные абзацы имеют наименьшую степень сжатия и так далее.

Обеспечьте адаптивное, точное управление сжатием для эффективного хранения критически важной информации. После сжатия также необходимо повысить достоверность результатов, для чего требуется следующий модуль восстановления сжатой подпоследовательности.

Модуль восстановления подпоследовательностей после сжатия

В процессе сжатия некоторые ключевые слова могут быть чрезмерно удалены, что влияет на целостность информации, и модуль может обнаружить и восстановить эти ключевые слова.

Принцип работы заключается в использовании отношения подпоследовательности между исходным текстом, сжатым текстом и сгенерированным текстом для восстановления полных ключевых фраз существительных из сгенерированных результатов, устранения недостатка информации, принесенного сжатием, и повышения точности результатов.

Весь процесс немного похож на наш рабочий процесс для быстрого просмотра статей, просеивания информации, интеграции ключевых моментов и т. д., чтобы модель быстро захватывала ключевую информацию в тексте и создавала высококачественные резюме.

Экспериментальные данные LongLLMLingua

Исследователи создали набор данных из нескольких документов на основе естественных вопросов, в котором каждый пример содержал вопрос и 20 связанных с ним документов, из которых требовались ответы.

Этот набор данных имитирует реальные сценарии поисковой системы и вопросов и ответов для оценки производительности модели в области вопросов и ответов в длинных документах.

Кроме того, исследователи использовали более общий набор тестов для понимания длинных текстов, включая LongBench и ZeroSCROLLS, чтобы оценить эффективность метода в более широком диапазоне сценариев.

Среди них LongBench охватывает такие задачи, как вопросы и ответы с одним документом, вопросы и ответы с несколькими документами, текстовое резюме и обучение с несколькими образцами, включая наборы данных на английском языке. ZeroSCROLLS включает в себя типичные задачи на понимание языка, такие как обобщение текста, понимание ответов на вопросы и анализ тональности.

На этих наборах данных исследователи сравнили производительность сжатого приглашения LongLLMLingua с исходным приглашением на большой языковой модели. В то же время эффективность LongLLMLingua оценивалась путем сравнения с другими методами быстрого сжатия, такими как LLMLingua на основе головоломок и методы, основанные на извлечении.

Экспериментальные результаты показывают, что сжатая подсказка LongLLMLingua в целом лучше, чем исходная подсказка с точки зрения точности вопросов и ответов и качества сгенерированного текста.

Например, в NaturalQuestions 4-кратное сжатие подсказок повысило точность вопросов и ответов на 17,1%. При сжатии подсказки около 10 тыс. токенов коэффициент сжатия находится в диапазоне 2-10х, а сквозная задержка может быть уменьшена в 1,4-3,8х. Это полностью доказывает, что LongLLMLingua может улучшить извлечение ключевой информации при сжатии подсказок.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить