У сценаріях з довгим текстом великі мовні моделі, такі як ChatGPT, часто стикаються з вищими витратами на обчислювальну потужність, довшою затримкою та гіршою продуктивністю. Щоб вирішити ці три проблеми, Microsoft відкрила вихідний код LongLLMLingua.
Повідомляється, що основний технічний принцип LongLLMLingua полягає в досягненні до 20 разів граничного стиснення «текстового запиту», і в той же час може точно оцінити релевантність контенту в підказці до проблеми, усунути нерелевантний контент і зберегти ключову інформацію, а також досягти мети зниження витрат і підвищення ефективності.
Експериментальні результати показують, що продуктивність ** підказки, стиснутої LongLLMLingua, на 17,1% вища, ніж у оригінального підказки, а токени, введені в GPT-3.5-Turbo, знижуються в 4 рази**. Тести LongBench і ZeroScrolls показали економію коштів у розмірі $28,5 і $27,4 за 1 000 зразків.
Коли натяк на близько 10 тисяч токенів стискається, а ступінь стиснення знаходиться в діапазоні 2-10x, наскрізна затримка може бути зменшена в 1,4-3,8 рази, що значно прискорює швидкість висновків.
Паперова адреса:
Адреса з відкритим вихідним кодом:
У вступній статті LongLLMLingua в основному складається з чотирьох модулів: проблемно-орієнтоване грубо-дрібнозернисте стиснення, перевпорядкування документів, динамічний коефіцієнт стиснення та відновлення підпослідовностей після стиснення.
Ідея цього модуля полягає в тому, щоб умовно використовувати текст запитання, оцінити, наскільки кожен абзац відповідає питанню, і зберегти більш релевантні абзаци.
Зокрема, обчислюючи ступінь умовної плутанини в тексті проблеми та кожному абзаці, оцінюється ступінь логічної кореляції між ними, і чим нижча умовна плутанина, тим вища релевантність.
Виходячи з цього, встановіть поріг, щоб абзаци залишалися з невеликою плутаниною та відфільтровували абзаци, які не стосуються проблеми. Це дозволяє грубозернистому стисненню швидко видаляти великі обсяги надлишкової інформації, заснованої на проблемі.
Модуль перевпорядкування документів
Дослідження показали, що серед підказок найбільший вплив на мовну модель має контент, близький до початкової та кінцевої позицій. Тому модуль змінює порядок кожного абзацу відповідно до його релевантності, щоб ключова інформація з'являлася в більш чутливому для моделі положенні, зменшуючи втрати інформації в середній позиції.
Використовуючи модуль грубозернистого стиснення для обчислення відповідності кожного абзацу проблемі, абзаци сортуються таким чином, щоб абзац з найвищим ступенем релевантності ранжувався першим. Це ще більше покращує сприйняття моделі критично важливої інформації.
Після отримання перевпорядкованих пов'язаних абзаців кількість слів у кожному абзаці потрібно додатково стиснути. У цей момент модуль динамічного ступеня стиснення тонко налаштовує підказку.
Модуль динамічного ступеня стиснення
Використовуйте нижчий коефіцієнт стиснення для більш релевантних абзаців і виділяйте більше бюджету для зарезервованих слів, тоді як вищий коефіцієнт стиснення використовуйте для менш релевантних абзаців.
Ступінь стиснення для кожного абзацу динамічно визначається використанням асоціативності абзацу в грубозернистому результаті стиснення. Найбільш релевантні абзаци мають найнижчий ступінь стиснення і так далі.
Досягніть адаптивного, точного керування стисненням для ефективного зберігання важливої інформації. Після стиснення також необхідно підвищити достовірність результатів, для чого потрібен наступний модуль відновлення стиснених підпослідовностей.
Модуль відновлення підпослідовностей після стиснення
У процесі стиснення деякі ключові слова можуть бути надмірно видалені, що вплине на цілісність інформації, і модуль може виявити та відновити ці ключові слова.
Принцип роботи полягає у використанні зв'язку підпослідовностей між вихідним текстом, стисненим текстом і згенерованим текстом для відновлення повних ключових іменникових фраз зі згенерованих результатів, виправлення нестачі інформації, принесеної стисненням, і підвищення точності результатів.
Весь процес трохи схожий на наш робочий процес швидкого перегляду статей, просіювання інформації, інтеграції ключових моментів тощо, щоб модель швидко фіксувала ключову інформацію тексту та створювала високоякісні резюме.
Експериментальні дані LongLLMLingua
Дослідники побудували набір даних із кількох документів на основі природних запитань, у якому кожен приклад містив запитання та 20 пов'язаних документів, з яких були потрібні відповіді.
Цей набір даних моделює реальні сценарії пошукової системи та запитань і відповідей, щоб оцінити ефективність моделі запитань і відповідей у довгих документах.
Крім того, дослідники використовували більш загальний набір тестів для розуміння довгого тексту, включаючи LongBench і ZeroSCROLLS, щоб оцінити ефективність методу в більш широкому діапазоні сценаріїв.
Серед них LongBench охоплює такі завдання, як запитання та відповіді з одного документа, запитання та відповіді з кількох документів, текстове резюме та вивчення кількох зразків, включаючи набори даних англійською мовою. ZeroSCROLLS включає типові завдання на розуміння мови, такі як узагальнення тексту, розуміння відповідей на запитання та аналіз настроїв.
На цих наборах даних дослідники порівняли продуктивність стисненого запиту LongLLMLingua з оригінальним запитом на великій мовній моделі. У той же час, ефективність LongLLMLingua оцінювалася шляхом порівняння з іншими методами оперативного стиснення, такими як LLMLingua на основі головоломок і методами на основі пошуку.
Експериментальні результати показують, що стиснений запит LongLLMLingua, як правило, кращий за оригінальний запит з точки зору точності запитань і відповідей та якості згенерованого тексту.
Наприклад, на NaturalQuestions 4-кратне стиснення підказок покращило точність запитань і відповідей на 17,1%. При стисненні натяку приблизно на 10 тисяч токенів ступінь стиснення знаходиться в діапазоні 2-10х, а наскрізна затримка може бути зменшена в 1,4-3,8 рази. Це повністю доводить, що LongLLMLingua може покращити вилучення ключової інформації під час стиснення підказок.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
До 20 разів! Стисніть текстові підказки моделі, такі як ChatGPT, щоб значно заощадити обчислювальну потужність ШІ
Першоджерело: AIGC Open Community
У сценаріях з довгим текстом великі мовні моделі, такі як ChatGPT, часто стикаються з вищими витратами на обчислювальну потужність, довшою затримкою та гіршою продуктивністю. Щоб вирішити ці три проблеми, Microsoft відкрила вихідний код LongLLMLingua.
Повідомляється, що основний технічний принцип LongLLMLingua полягає в досягненні до 20 разів граничного стиснення «текстового запиту», і в той же час може точно оцінити релевантність контенту в підказці до проблеми, усунути нерелевантний контент і зберегти ключову інформацію, а також досягти мети зниження витрат і підвищення ефективності.
Експериментальні результати показують, що продуктивність ** підказки, стиснутої LongLLMLingua, на 17,1% вища, ніж у оригінального підказки, а токени, введені в GPT-3.5-Turbo, знижуються в 4 рази**. Тести LongBench і ZeroScrolls показали економію коштів у розмірі $28,5 і $27,4 за 1 000 зразків.
Коли натяк на близько 10 тисяч токенів стискається, а ступінь стиснення знаходиться в діапазоні 2-10x, наскрізна затримка може бути зменшена в 1,4-3,8 рази, що значно прискорює швидкість висновків.
Паперова адреса:
Адреса з відкритим вихідним кодом:
У вступній статті LongLLMLingua в основному складається з чотирьох модулів: проблемно-орієнтоване грубо-дрібнозернисте стиснення, перевпорядкування документів, динамічний коефіцієнт стиснення та відновлення підпослідовностей після стиснення.
Проблемно-орієнтований грубозернистий модуль стиснення
Ідея цього модуля полягає в тому, щоб умовно використовувати текст запитання, оцінити, наскільки кожен абзац відповідає питанню, і зберегти більш релевантні абзаци.
Виходячи з цього, встановіть поріг, щоб абзаци залишалися з невеликою плутаниною та відфільтровували абзаци, які не стосуються проблеми. Це дозволяє грубозернистому стисненню швидко видаляти великі обсяги надлишкової інформації, заснованої на проблемі.
Модуль перевпорядкування документів
Дослідження показали, що серед підказок найбільший вплив на мовну модель має контент, близький до початкової та кінцевої позицій. Тому модуль змінює порядок кожного абзацу відповідно до його релевантності, щоб ключова інформація з'являлася в більш чутливому для моделі положенні, зменшуючи втрати інформації в середній позиції.
Використовуючи модуль грубозернистого стиснення для обчислення відповідності кожного абзацу проблемі, абзаци сортуються таким чином, щоб абзац з найвищим ступенем релевантності ранжувався першим. Це ще більше покращує сприйняття моделі критично важливої інформації.
Модуль динамічного ступеня стиснення
Використовуйте нижчий коефіцієнт стиснення для більш релевантних абзаців і виділяйте більше бюджету для зарезервованих слів, тоді як вищий коефіцієнт стиснення використовуйте для менш релевантних абзаців.
Досягніть адаптивного, точного керування стисненням для ефективного зберігання важливої інформації. Після стиснення також необхідно підвищити достовірність результатів, для чого потрібен наступний модуль відновлення стиснених підпослідовностей.
Модуль відновлення підпослідовностей після стиснення
У процесі стиснення деякі ключові слова можуть бути надмірно видалені, що вплине на цілісність інформації, і модуль може виявити та відновити ці ключові слова.
Принцип роботи полягає у використанні зв'язку підпослідовностей між вихідним текстом, стисненим текстом і згенерованим текстом для відновлення повних ключових іменникових фраз зі згенерованих результатів, виправлення нестачі інформації, принесеної стисненням, і підвищення точності результатів.
Експериментальні дані LongLLMLingua
Дослідники побудували набір даних із кількох документів на основі природних запитань, у якому кожен приклад містив запитання та 20 пов'язаних документів, з яких були потрібні відповіді.
Цей набір даних моделює реальні сценарії пошукової системи та запитань і відповідей, щоб оцінити ефективність моделі запитань і відповідей у довгих документах.
Крім того, дослідники використовували більш загальний набір тестів для розуміння довгого тексту, включаючи LongBench і ZeroSCROLLS, щоб оцінити ефективність методу в більш широкому діапазоні сценаріїв.
Серед них LongBench охоплює такі завдання, як запитання та відповіді з одного документа, запитання та відповіді з кількох документів, текстове резюме та вивчення кількох зразків, включаючи набори даних англійською мовою. ZeroSCROLLS включає типові завдання на розуміння мови, такі як узагальнення тексту, розуміння відповідей на запитання та аналіз настроїв.
Експериментальні результати показують, що стиснений запит LongLLMLingua, як правило, кращий за оригінальний запит з точки зору точності запитань і відповідей та якості згенерованого тексту.
Наприклад, на NaturalQuestions 4-кратне стиснення підказок покращило точність запитань і відповідей на 17,1%. При стисненні натяку приблизно на 10 тисяч токенів ступінь стиснення знаходиться в діапазоні 2-10х, а наскрізна затримка може бути зменшена в 1,4-3,8 рази. Це повністю доводить, що LongLLMLingua може покращити вилучення ключової інформації під час стиснення підказок.