У новітніх розробках у галузі штучного інтелекту якість підказок, створених людиною, має вирішальний вплив на точність відповіді великих мовних моделей (LLM). У рекомендаціях OpenAI зазначено, що точні, детальні та конкретні запитання мають вирішальне значення для продуктивності цих великих мовних моделей. Однак, чи зможе пересічний користувач переконатися, що його запитання достатньо зрозуміле для LLM?
Важливо відзначити, що існує чітка різниця між природною здатністю людини розуміти і інтерпретацією машин в певних ситуаціях. Наприклад, людям може здатися, що поняття «парні місяці» відноситься до таких місяців, як лютий, квітень тощо, тоді як GPT-4 може неправильно інтерпретувати його як місяць із парною кількістю днів. Це не тільки розкриває обмеження штучного інтелекту в розумінні повсякденних контекстів, але й спонукає нас замислитися над тим, як ефективніше спілкуватися з цими великими мовними моделями. З постійним розвитком технології штучного інтелекту те, як подолати розрив між людьми та машинами в розумінні мови, є важливою темою для майбутніх досліджень.
У відповідь Лабораторія загального штучного інтелекту на чолі з професором Гу Цюаньцюань з Каліфорнійського університету в Лос-Анджелесі (UCLA) опублікувала дослідницький звіт, в якому пропонує інноваційне рішення неоднозначності великих мовних моделей (таких як GPT-4) у розумінні проблем. Дослідження завершили аспіранти Іхе Ден, Вейтун Чжан і Цзисян Чен.
*Адреса:
Адреса проекту:
Суть схеми полягає в тому, щоб велика мовна модель повторювала і розширювала поставлені питання, щоб підвищити точність відповідей. Дослідження показало, що питання, переформульовані GPT-4, стали більш детальними, а формат запитань зрозумілішим. Цей метод перефразування і розширення значно підвищує точність відповідей моделі. Експерименти показали, що хороший переказ питання підвищує точність відповіді з 50% до майже 100%. Цей приріст продуктивності не тільки демонструє потенціал великих мовних моделей для самовдосконалення, але й надає новий погляд на те, як ШІ може ефективніше обробляти та розуміти людську мову.
Метод
Ґрунтуючись на цих висновках, дослідники пропонують просту, але ефективну підказку (): «Перефразуйте та розгорніть запитання та дайте відповідь» (RaR). Ця підказка безпосередньо покращує якість відповідей LLM на запитання та демонструє значне покращення роботи з проблемами.
Дослідницька група також запропонувала варіант RaR, названий «Двокроковий RaR», щоб повною мірою скористатися здатністю великих моделей, таких як GPT-4, переказувати проблеми. Цей підхід складається з двох кроків: по-перше, для заданої задачі генерується задача перефразування за допомогою спеціалізованого LLM перефразування; По-друге, початкове запитання та переказане запитання об'єднуються, щоб спонукати відповідального LLM відповісти.
Результати
Експерименти над різними завданнями показали постійну ефективність у підвищенні точності відповідей GPT4, як (однокрокових), так і двокрокових RaR. Примітно, що RaR продемонстрував значні покращення в завданнях, які інакше були б складними для GPT-4, з точністю в деяких випадках, що наближається до 100%. Виходячи з цього, дослідницька група узагальнила наступні два ключові висновки:
Repeat and Expand (RaR) забезпечує підхід до підказок за принципом «підключи та працюй», який може ефективно підвищити продуктивність LLM у різноманітних завданнях.
При оцінці ефективності LLM на завданнях Q&A (QA) дуже важливо перевірити якість питань.
Крім того, дослідники використовували двокроковий RaR для вивчення продуктивності різних моделей, таких як GPT-4, GPT-3.5 і Vicuna-13b-v.15. Експериментальні результати показують, що для моделей з більш складними архітектурами і більш потужною обчислювальною потужністю, таких як GPT-4, метод RaR може значно підвищити точність і ефективність обробки його завдань. Для більш простих моделей, таких як Вікунья, була продемонстрована ефективність стратегії RaR, хоча і в меншій мірі. Виходячи з цього, дослідники додатково вивчили якість питань після переказу різних моделей. Для задачі переказу меншої моделі іноді може спостерігатися збурення мети питання. Запитання для перефразування, надані просунутими моделями, такими як GPT-4, як правило, більше відповідають людським намірам і покращують відповіді інших моделей.
Цей висновок виявляє важливий феномен: існують відмінності в якості та ефективності задачі переказу мовних моделей на різних рівнях. Просунуті моделі, такі як GPT-4, зокрема, здатні переказувати проблему не тільки для того, щоб забезпечити собі більш чітке розуміння проблеми, але й служити ефективним вхідним сигналом для покращення продуктивності інших менших моделей.
Відмінність від ланцюжка думок (CoT)
Щоб зрозуміти різницю між RaR і ланцюжком думок (CoT), дослідники придумали своє математичне формулювання і пролили світло на те, як RaR математично відрізняється від CoT і як їх можна легко поєднати.
Це дослідження також передбачає, що якість запитань повинна бути покращена, щоб забезпечити належну оцінку здатності моделі міркувати. Наприклад, у випадку з «підкиданням монети» було виявлено, що на відміну від людських намірів, GPT-4 розумів слово «підкидання» як випадкове підкидання. Ця помилка зберігається в процесі висновків, коли керована модель використовує для висновку «Давайте подумаємо крок за кроком». Тільки після того, як питання буде з'ясовано, велика мовна модель відповість на очікуване питання.
Крім того, дослідники помітили, що на додаток до тексту запитання, приклади запитань і відповідей, які використовуються для кількох пострілів CoT, також були написані людьми. У зв'язку з цим виникає питання: як реагують великі мовні моделі (LLM), коли ці штучно сконструйовані приклади є недосконалими? Дослідження наводить цікавий приклад і показує, що погані приклади невеликої кількості щеплень CoT можуть мати негативний вплив на LLM. Наприклад, у випадку із завданням конкатенації останньої літери приклад задачі показав позитивні результати у покращенні продуктивності моделі. Однак, коли логіка підказки змінюється, наприклад, від пошуку останньої літери до знаходження першої, GPT-4 дає неправильну відповідь. Цей феномен підкреслює чутливість моделі до прикладів людини.
Дослідники виявили, що, використовуючи RaR, GPT-4 зміг виправити логічні дефекти в даному прикладі, тим самим покращивши якість і надійність кількох пострілів CoT.
Висновок
У спілкуванні між людьми і великими мовними моделями (LLM) можуть виникати непорозуміння: питання, які здаються зрозумілими людям, все ще можуть бути зрозумілі великими мовними моделями як інші питання. Дослідницька група Каліфорнійського університету в Лос-Анджелесі розробила RaR як новий підхід, заснований на цьому питанні, що спонукало LLM повторити та уточнити питання, перш ніж відповісти.
Експериментальна оцінка RaR на серії еталонних наборів даних підтвердила ефективність його підходу. Подальший аналіз показує, що поліпшення якості задачі, отримане за допомогою переказу, може бути перенесено між моделями.
Очікується, що в майбутньому такі методи, як RaR, продовжуватимуть удосконалюватися, а їх інтеграція з іншими методами, такими як CoT, прокладе шлях до більш точної та ефективної взаємодії між людьми та великими мовними моделями, що в кінцевому підсумку розширить межі можливостей інтерпретації та міркування ШІ.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
GPT-4 краще ставить запитання, ніж ви: нехай велика модель переказує їх автономно, руйнуючи бар'єри для діалогу з людьми
Першоджерело: Heart of the Machine
У новітніх розробках у галузі штучного інтелекту якість підказок, створених людиною, має вирішальний вплив на точність відповіді великих мовних моделей (LLM). У рекомендаціях OpenAI зазначено, що точні, детальні та конкретні запитання мають вирішальне значення для продуктивності цих великих мовних моделей. Однак, чи зможе пересічний користувач переконатися, що його запитання достатньо зрозуміле для LLM?
Важливо відзначити, що існує чітка різниця між природною здатністю людини розуміти і інтерпретацією машин в певних ситуаціях. Наприклад, людям може здатися, що поняття «парні місяці» відноситься до таких місяців, як лютий, квітень тощо, тоді як GPT-4 може неправильно інтерпретувати його як місяць із парною кількістю днів. Це не тільки розкриває обмеження штучного інтелекту в розумінні повсякденних контекстів, але й спонукає нас замислитися над тим, як ефективніше спілкуватися з цими великими мовними моделями. З постійним розвитком технології штучного інтелекту те, як подолати розрив між людьми та машинами в розумінні мови, є важливою темою для майбутніх досліджень.
У відповідь Лабораторія загального штучного інтелекту на чолі з професором Гу Цюаньцюань з Каліфорнійського університету в Лос-Анджелесі (UCLA) опублікувала дослідницький звіт, в якому пропонує інноваційне рішення неоднозначності великих мовних моделей (таких як GPT-4) у розумінні проблем. Дослідження завершили аспіранти Іхе Ден, Вейтун Чжан і Цзисян Чен.
Суть схеми полягає в тому, щоб велика мовна модель повторювала і розширювала поставлені питання, щоб підвищити точність відповідей. Дослідження показало, що питання, переформульовані GPT-4, стали більш детальними, а формат запитань зрозумілішим. Цей метод перефразування і розширення значно підвищує точність відповідей моделі. Експерименти показали, що хороший переказ питання підвищує точність відповіді з 50% до майже 100%. Цей приріст продуктивності не тільки демонструє потенціал великих мовних моделей для самовдосконалення, але й надає новий погляд на те, як ШІ може ефективніше обробляти та розуміти людську мову.
Метод
Ґрунтуючись на цих висновках, дослідники пропонують просту, але ефективну підказку (): «Перефразуйте та розгорніть запитання та дайте відповідь» (RaR). Ця підказка безпосередньо покращує якість відповідей LLM на запитання та демонструє значне покращення роботи з проблемами.
Результати
Repeat and Expand (RaR) забезпечує підхід до підказок за принципом «підключи та працюй», який може ефективно підвищити продуктивність LLM у різноманітних завданнях.
При оцінці ефективності LLM на завданнях Q&A (QA) дуже важливо перевірити якість питань.
Відмінність від ланцюжка думок (CoT)
Щоб зрозуміти різницю між RaR і ланцюжком думок (CoT), дослідники придумали своє математичне формулювання і пролили світло на те, як RaR математично відрізняється від CoT і як їх можна легко поєднати.
Висновок
У спілкуванні між людьми і великими мовними моделями (LLM) можуть виникати непорозуміння: питання, які здаються зрозумілими людям, все ще можуть бути зрозумілі великими мовними моделями як інші питання. Дослідницька група Каліфорнійського університету в Лос-Анджелесі розробила RaR як новий підхід, заснований на цьому питанні, що спонукало LLM повторити та уточнити питання, перш ніж відповісти.
Експериментальна оцінка RaR на серії еталонних наборів даних підтвердила ефективність його підходу. Подальший аналіз показує, що поліпшення якості задачі, отримане за допомогою переказу, може бути перенесено між моделями.
Очікується, що в майбутньому такі методи, як RaR, продовжуватимуть удосконалюватися, а їх інтеграція з іншими методами, такими як CoT, прокладе шлях до більш точної та ефективної взаємодії між людьми та великими мовними моделями, що в кінцевому підсумку розширить межі можливостей інтерпретації та міркування ШІ.