GPT-4 أفضل في طرح الأسئلة مما تفعله: دع النموذج الكبير يعيد سرده بشكل مستقل ، وكسر الحواجز التي تحول دون الحوار مع البشر

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

في أحدث التطورات في مجال الذكاء الاصطناعي ، فإن جودة المطالبات التي ينشئها الإنسان لها تأثير حاسم على دقة استجابة نماذج اللغة الكبيرة (LLMs). تنص توصيات OpenAI على أن الأسئلة الدقيقة والمفصلة والمحددة ضرورية لأداء نماذج اللغة الكبيرة هذه. ومع ذلك ، هل سيتمكن المستخدم العادي من التأكد من أن سؤاله واضح بما يكفي ل LLM؟

من المهم أن نلاحظ أن هناك فرقا واضحا بين القدرة الطبيعية للبشر على فهم وتفسير الآلات في مواقف معينة. على سبيل المثال ، قد يبدو مفهوم "الأشهر الزوجية" للبشر أنه يشير إلى أشهر مثل فبراير وأبريل وما إلى ذلك ، بينما قد يسيء GPT-4 تفسيره على أنه شهر بعدد زوجي من الأيام. هذا لا يكشف فقط عن قيود الذكاء الاصطناعي في فهم السياقات اليومية ، ولكنه يدفعنا أيضا إلى التفكير في كيفية التواصل بشكل أكثر فعالية مع هذه النماذج اللغوية الكبيرة. مع التقدم المستمر لتكنولوجيا الذكاء الاصطناعي ، تعد كيفية سد الفجوة بين البشر والآلات في فهم اللغة موضوعا مهما للبحث في المستقبل.

ردا على ذلك ، أصدر مختبر الذكاء الاصطناعي العام بقيادة البروفيسور Gu Quanquan من جامعة كاليفورنيا ، لوس أنجلوس (UCLA) تقريرا بحثيا يقترح حلا مبتكرا لغموض نماذج اللغة الكبيرة (مثل GPT-4) في فهم المشكلة. تم الانتهاء من الدراسة من قبل طلاب الدكتوراه Yihe Deng و Weitong Zhang و Zixiang Chen.

*عنوان:

  • عنوان المشروع:

جوهر المخطط هو جعل نموذج اللغة الكبيرة يكرر ويوسع الأسئلة المطروحة لتحسين دقة إجاباته. وجدت الدراسة أن الأسئلة التي أعاد صياغتها GPT-4 أصبحت أكثر تفصيلا وشكل السؤال أكثر وضوحا. تعمل طريقة إعادة الصياغة والتوسع هذه على تحسين دقة إجابات النموذج بشكل كبير. أظهرت التجارب أن السرد الجيد للسؤال يزيد من دقة الإجابة من 50٪ إلى ما يقرب من 100٪. لا يوضح هذا الكسب في الأداء إمكانات نماذج اللغات الكبيرة لتحسين نفسها فحسب ، بل يوفر أيضا منظورا جديدا حول كيفية معالجة الذكاء الاصطناعي وفهم اللغة البشرية بشكل أكثر كفاءة.

الطريقة

بناء على هذه النتائج ، يقترح الباحثون مطالبة بسيطة ولكنها فعالة (): "إعادة صياغة وتوسيع السؤال ، والرد" (RaR). تعمل هذه المطالبة على تحسين جودة إجابات LLM على الأسئلة بشكل مباشر وتوضح تحسنا كبيرا في معالجة المشكلات.

اقترح فريق البحث أيضا نوعا مختلفا من RaR ، يسمى "RaR بخطوتين" ، للاستفادة الكاملة من قدرة النماذج الكبيرة مثل GPT-4 على إعادة سرد المشكلات. يتبع هذا النهج خطوتين: أولا ، بالنسبة لمشكلة معينة ، يتم إنشاء مشكلة إعادة الصياغة باستخدام ماجستير في إعادة الصياغة متخصص. ثانيا ، يتم الجمع بين السؤال الأصلي والسؤال المعاد سرده لمطالبة LLM المستجيب بالإجابة.

النتائج

أظهرت التجارب على مهام مختلفة فعالية متسقة في تحسين دقة استجابات GPT4 ، سواء (خطوة واحدة) أو خطوتين RaR. والجدير بالذكر أن RaR أظهر تحسينات كبيرة في المهام التي قد تكون صعبة على GPT-4 ، مع دقة تقترب من 100٪ في بعض الحالات. بناء على ذلك ، لخص فريق البحث الاستنتاجين الرئيسيين التاليين:

  1. يوفر التكرار والتوسيع (RaR) نهج التوصيل والتشغيل والصندوق الأسود للمطالبة التي يمكن أن تحسن بشكل فعال أداء LLMs في مجموعة متنوعة من المهام.

  2. عند تقييم أداء LLMs في مهام الأسئلة والأجوبة (QA) ، من الأهمية بمكان التحقق من جودة الأسئلة.

علاوة على ذلك ، استخدم الباحثون RaR بخطوتين لاستكشاف أداء نماذج مختلفة مثل GPT-4 و GPT-3.5 و Vicuna-13b-v.15. تظهر النتائج التجريبية أنه بالنسبة للنماذج ذات البنى الأكثر تعقيدا وقوة المعالجة الأكثر قوة ، مثل GPT-4 ، يمكن لطريقة RaR أن تحسن بشكل كبير من دقة وكفاءة معالجة المشكلات. بالنسبة للنماذج الأبسط ، مثل Vicuna ، تم إثبات فعالية استراتيجية RaR ، وإن كان بدرجة أقل. بناء على ذلك ، قام الباحثون بفحص جودة الأسئلة بعد إعادة سرد نماذج مختلفة. بالنسبة لمشكلة إعادة سرد نموذج أصغر ، يمكن أن يكون هناك أحيانا اضطراب في نية السؤال. تميل أسئلة إعادة الصياغة التي توفرها النماذج المتقدمة مثل GPT-4 إلى أن تكون أكثر اتساقا مع النية البشرية وتعزز استجابات النماذج الأخرى.

تكشف هذه النتيجة عن ظاهرة مهمة: هناك اختلافات في جودة وفعالية مشكلة إعادة سرد نماذج اللغة على مستويات مختلفة. النماذج المتقدمة مثل GPT-4 ، على وجه الخصوص ، قادرة على إعادة سرد المشكلة ليس فقط لتزويد نفسها بفهم أوضح للمشكلة ، ولكن أيضا لتكون بمثابة مدخل فعال لتحسين أداء النماذج الأصغر الأخرى.

** الاختلاف عن سلسلة الفكر (CoT) **

لفهم الفرق بين RaR وسلسلة الفكر (CoT) ، توصل الباحثون إلى صياغتهم الرياضية وألقوا الضوء على كيفية اختلاف RaR رياضيا عن CoT وكيف يمكن دمجها بسهولة.

تقترح هذه الدراسة أيضا أنه يجب تحسين جودة الأسئلة لضمان إمكانية تقييم قدرة النموذج على التفكير بشكل صحيح. على سبيل المثال ، في حالة "تقليب العملة" ، وجد أنه على عكس النوايا البشرية ، فهم GPT-4 كلمة "قلب" على أنها رمية عشوائية. يستمر هذا المفهوم الخاطئ في عملية الاستدلال عندما يستخدم النموذج الموجه "دعونا نفكر خطوة بخطوة" للاستدلال. فقط بعد توضيح السؤال ، سيجيب نموذج اللغة الكبيرة على السؤال المتوقع.

علاوة على ذلك ، لاحظ الباحثون أنه بالإضافة إلى نص السؤال ، فإن أمثلة الأسئلة والأجوبة المستخدمة في CoT قليلة اللقطات كتبها البشر أيضا. هذا يطرح السؤال: كيف تتفاعل نماذج اللغة الكبيرة (LLMs) عندما تكون هذه الأمثلة المصطنعة معيبة؟ تقدم الدراسة مثالا مثيرا للاهتمام وتجد أن الأمثلة السيئة ل CoT قليل الطلقات يمكن أن يكون لها تأثير سلبي على LLMs. في حالة مهمة تسلسل الحرف الأخير ، على سبيل المثال ، أظهر مثال المشكلة المستخدم سابقا نتائج إيجابية في تحسين أداء النموذج. ومع ذلك ، عندما يتغير المنطق الفوري ، مثل من العثور على الحرف الأخير إلى العثور على الحرف الأول ، يعطي GPT-4 إجابة خاطئة. تسلط هذه الظاهرة الضوء على حساسية النموذج للأمثلة البشرية.

وجد الباحثون أنه باستخدام RaR ، كان GPT-4 قادرا على تصحيح العيوب المنطقية في مثال معين ، وبالتالي تحسين جودة ومتانة CoT قليل الطلقات.

استنتاج

يمكن أن يكون هناك سوء فهم في التواصل بين البشر ونماذج اللغة الكبيرة (LLMs): الأسئلة التي تبدو واضحة للبشر قد لا تزال مفهومة من قبل نماذج اللغة الكبيرة على أنها أسئلة أخرى. طور فريق البحث في جامعة كاليفورنيا في لوس أنجلوس RaR كنهج جديد يعتمد على هذا السؤال ، مما دفع LLMs إلى تكرار وتوضيح السؤال قبل الإجابة.

وأكد التقييم التجريبي ل RaR على سلسلة من مجموعات البيانات المرجعية فعالية نهجها. يظهر المزيد من التحليل أن تحسين جودة المشكلة التي تم الحصول عليها من خلال إعادة السرد يمكن نقله عبر النماذج.

من الآن فصاعدا ، من المتوقع أن تستمر طرق مثل RaR في التحسن ، وسيمهد تكاملها مع طرق أخرى مثل CoT الطريق لتفاعلات أكثر دقة وفعالية بين البشر ونماذج اللغة الكبيرة ، مما يؤدي في النهاية إلى دفع حدود قدرات الذكاء الاصطناعي على التفسير والتفكير.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت