الإصدار مفتوح المصدر من "ChatGPT Plus" موجود هنا ، والذي يمكنه إجراء تحليل البيانات ، والمكالمات الإضافية ، والوصول التلقائي إلى الإنترنت ، ووكلاء الأرض في العالم الحقيقي

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

يعد اشتراك OpenAI ChatGPT Plus قويا ويمكنه تنفيذ "تحليل البيانات المتقدم" و "المكونات الإضافية" و "التصفح باستخدام Bing" ، والتي يمكن استخدامها كأداة إنتاجية مهمة في الحياة اليومية. ومع ذلك ، لأسباب تجارية ، يتم اختيار المصدر المغلق ، ولا يمكن للباحثين والمطورين استخدامه إلا دون الحاجة إلى إجراء أي بحث أو تحسين عليه.

بناء على ذلك ، قام باحثون من جامعة هونغ كونغ و XLang Lab و Sea الذكاء الاصطناعي Lab و Salesforce بإنشاء OpenAgents بشكل مشترك ، وهو إطار عمل وكيل مفتوح المصدر لأدوات الإنتاجية في العالم الحقيقي ، ورمز كامل المصدر مفتوح المصدر (الواجهة الأمامية الكاملة ، الخلفية ، رمز البحث) لتلبية احتياجات الجميع من الباحثين إلى المطورين إلى المستخدمين.

يحاول OpenAgents تقريب وظائف ChatGPT Plus باستخدام التقنيات القائمة على "نماذج اللغة الكبيرة" (LLMs) والتعليمات البرمجية الهندسية الكاملة. يمكن للوكيل تنفيذ كود Python / SQL ، واستدعاء الأدوات بمهارة ، ويمكنه أيضا العثور على الخرائط والمنشورات على الإنترنت ، على طول الطريق من تنفيذ كود البحث إلى الواجهة الأمامية الخلفية ، مما يجعله تطبيقا على مستوى الهبوط يمكن للجميع استخدامه. يكشف OpenAgents بشكل كامل عن التكنولوجيا التي يستخدمونها والصعوبات التي يواجهونها ، ويفتح الكود بالكامل المصدر ، ويغطي كل شيء من البحث العلمي إلى الكود المنطقي إلى الكود الأمامي. الكود مثالي وسهل التمديد ويمكن نشره محليا مباشرة بنقرة واحدة ، ويتم توفير الوثائق الداعمة مع حالات الاستخدام الغنية لمساعدة الباحثين والمطورين على بناء وكلائهم وتطبيقاتهم الخاصة على النموذج.

* خريطة نظرة عامة على OpenAgents ، واجهة ويب تواجه المستخدم ، النشر المحلي للمطورين ، وكلاء اللغة للباحثين. *

* رابط الرمز:

  • وصلة ورقية:
  • رابط تجريبي:
  • رابط الوثيقة:

** نفس ChatGPT Plus و "ليس هو نفسه"

على اليسار يوجد تنفيذ OpenAgents ، وعلى اليمين يوجد ChatGPT Plus:

دعونا نلقي نظرة على وظيفة "تحليل البيانات". مع نفس المهمة المتمثلة في تحليل أسعار الأسهم ، يمكن ل OpenAgents و ChatGPT القيام بعمل جيد في تحليل متطلبات المستخدمين لأسعار الأسهم والمعاملات. بينما يمكن ل OpenAgents البحث تلقائيا في مجموعة بيانات Kaggle وتنزيلها ، يتطلب ChatGPT من المستخدمين تحميلها محليا.

جرب أقدم وظيفة "مكون إضافي" في OpenAI. أراد المستخدم رسم بعض ثماني السطوح ، وكلاهما نجح في استدعاء المكون الإضافي Wolfram لرسم صور لثماني السطوح المتعددة.

أخيرا ، ألق نظرة على "تصفح الويب". عندما يريد المستخدم التحقق من تذكرة الطيران من هونغ كونغ إلى نيويورك في 20 أكتوبر ، يتعرف OpenAgents على نية المستخدم ويقفز مباشرة إلى Skycanner ، ويفكر مثل "شخص حقيقي" أثناء ملء المعلومات في موقع الويب ، وأخيرا يعود إلى صفحة الدردشة لتلخيص المعلومات ؛ ChatGPT في أمان لضمان إمكانية التحكم ، على غرار استدعاء المكونات الإضافية ، والقيام بتصفح الويب في السحابة وإرجاع آخر المعلومات التي تم البحث عنها.

نظرا لأن OpenAgents يوفر تعليمات برمجية مفتوحة المصدر ، يمكن للمطورين والباحثين تخصيص بضعة أسطر من التعليمات البرمجية وتكييفها مع النموذج المطلوب والتحسين وإنشاء الميزات التي يريدونها وحتى إنشاء وكلاء جدد. هذا ضروري لمزيد من التطوير والبحث في هذا الاتجاه.

** يبدو الأمر بسيطا ، لماذا يخطو وكلاء "الإنتاجية القابلة للاستخدام" على العديد من الحفر؟ **

هناك العديد من أطر العمل مفتوحة المصدر للوكلاء ، والبرامج الوسيطة القائمة على نماذج كبيرة تظهر في تيار لا نهاية له ، لماذا ليس من السهل بناء وكيل مناسب وقابل للاستخدام حقا ، OpenAgents مقارنة بأطر عمل الوكيل الأخرى في ورقتهم:

* قارن OpenAgents مع الأطر الأخرى. *

كما ترون من الجدول ، فإن "الواجهة" و "البيئة" هما من الأشياء التي تميز OpenAgents. تم تصميم أطر العمل مفتوحة المصدر الحالية مثل LangChain و AutoGPT و BabyAGI لتزويد المطورين بتطبيقات إثبات مبكرة للمفهوم وواجهات وحدة التحكم ، ولكنها ليست قوية بما يكفي في العالم الحقيقي ، مما يحد من الوصول إلى جمهور أوسع ، خاصة أولئك الذين ليسوا على دراية بالبرمجة أو وحدات التحكم. في بنية مغلقة المصدر ، تنشر OpenAI منتجات جيدة التصميم في ChatGPT Plus ، خاصة ميزات مثل تحليلات البيانات المتقدمة (المعروفة سابقا باسم مترجمي التعليمات البرمجية) ، والمكونات الإضافية ، وتصفح Bing ، والاستفادة من النماذج المدربة بشكل أكبر ، ورمز منطق الأعمال ، ومجتمعات البرامج التي تمت رعايتها (على سبيل المثال ، متاجر المكونات الإضافية). لكن المصدر المغلق يجعل من الصعب استخدامها كمنصات تطوير وبحث ، ولا يمكن للمجتمع الوقوف على أكتاف العمالقة للاستكشاف والتقييم والتحسين. بعد التركيز على هذه الأبعاد ، يوفر OpenAgents ، كإطار عمل وكيل مفتوح المصدر للسيناريوهات الحقيقية ، للمجتمع منصة يمكنها التنافس مع ChatGPT Plus.

على "الواجهة" ، يوفر OpenAgents عروضا توضيحية لصفحات الويب عبر الإنترنت (ودعم التعليمات البرمجية مفتوحة المصدر) ، ويمكن للمستخدمين العاديين ذوي الخلفيات غير المبرمجين التفاعل بسهولة مع الوكلاء ، في حين أن العمل السابق عادة لا يوفر أو يوفر التفاعل في شكل "واجهة أوامر وحدة التحكم" (CLI) ، مما يرفع بشكل كبير عتبة استخدام الوكلاء. في "البيئة الداعمة" ، يدعم OpenAgents بيئات العالم الحقيقي والتي يمكن التحكم فيها ، ويدعم أكثر من 200+ مكالمة أداة يومية ، ويدعم تصفح الويب التلقائي.

تركز هذه الميزات على OpenAgents وتجهزها بأقل عائق أمام الاختيار للمستخدمين العاديين ؛ كما أنه يوفر للبحث والمطورين وما إلى ذلك ما قد يكون أفضل فرصة مباشرة للمستخدم.

** كخطوة أولى في مستقبل الإنتاجية Agent: منصة وكيل يمكن "للمستخدمين" و "المطورين" و "الباحثين" استخدامها **

لمعالجة المشكلات المذكورة أعلاه ، فإن OpenAgents متحمس للعمل كمنصة مفتوحة المصدر لاستخدام ونشر الوكلاء ، والتي تتضمن حاليا ثلاثة وكلاء رئيسيين:

  • وكلاء البيانات لبايثون و SQL ؛
  • وكلاء المكونات الإضافية المستخدمة من قبل أكثر من 200 أداة ؛
  • وكيل ويب لتصفح الويب التلقائي.

تعتقد OpenAgents أنه لكي تصل نماذج اللغات الكبيرة إلى إمكاناتها الكاملة ، يجب أن تتحول من أدوات نظرية بحتة أو موجهة نحو المطورين إلى أنظمة ديناميكية وتفاعلية لقاعدة مستخدمين واسعة. يمكن "للمستخدمين العاديين" استكشاف وظائف الوكيل بسهولة من خلال واجهة مستخدم الويب عبر الإنترنت دون خبرة في الترميز. بالإضافة إلى ذلك ، يوفر OpenAgents "للمطورين" منطق أعمال كامل ورمز بحث لسهولة النشر محليا ، ويمكن ل "الباحثين" بناء وكلاء لغويين بشكل أكبر. أخيرا ، يهدف OpenAgents إلى أن يكون منصة حقيقية وشاملة لتقييم الوكلاء الذين يمكن تفاعلهم مع البشر: بناء على الاحتياجات الحقيقية ، يتفاعل المستخدمون الحقيقيون مع الوكلاء لإكمال مهامهم ، وتسجيل عملية التفاعل بين المستخدم والوكيل بالكامل وتعليقات المستخدمين لمزيد من التقييم. مقارنة بالمعايير والأنظمة الأساسية الحالية ، يوفر OpenAgents بيئة واقعية حيث يمكن للوكلاء تلبية مجموعة متنوعة من احتياجات المستخدم الحقيقية.

التحديات التي واجهتها وتغلبت عليها

** التحدي 1: عيوب بناء نماذج لغوية في العالم الحقيقي بناء على تلميحات **

عند إنشاء تطبيقات مستندة إلى المطالبة للمستخدمين الحقيقيين ، استخدم الإرشادات الموجودة في المطالبات لتعيين متطلبات محددة. تخدم هذه التعليمات أغراضا مختلفة ، بعضها لضمان توافق مخرجات نموذج اللغة الكبيرة مع تنسيق معين تتم معالجته بواسطة منطق الواجهة الخلفية (الإخراج كقاموس لمفاتيح محددة) ؛ بعضها لتحسين جماليات الإخراج (قائمة العناصر بشكل فردي واحدة تلو الأخرى قدر الإمكان) ؛ يستخدم بعضها لمنع الهجمات المحتملة (حرمان المستخدم من حلقة لا نهائية من البرامج التي تم إنشاؤها بشكل ضار وتنفيذها).

تتطلب هذه القيود ذات الغرض من القيد لتقييد نماذج اللغة من المطورين والباحثين تصحيح بعض التعليمات القابلة للاستخدام بشكل متكرر ، والتي عادة ما تكون معا مئات "الرموز المميزة" أو حتى الآلاف من الرموز المميزة ، وسيتم إدخال هذه التعليمات بشكل متكرر في النموذج كبادئة ، مما يؤدي إلى استهلاك كبير لموارد بطاقة الرسومات ؛ من ناحية أخرى ، كلما زاد عدد الرموز المميزة ، زاد الاعتماد على LLM بأداء جيد ، لذلك يطرح هذا المسار الفني متطلبات معينة لقدرة تتبع التعليمات وطول السياق المدعوم لنماذج اللغة الكبيرة.

حقق نموذج المصدر المفتوح الحالي تحسينات كبيرة في هذه المجالات ، لكنه لا يزال غير كاف للاستخدام العملي في التجارب ، ويمكن أن يستمر البحث في هذا الاتجاه. بالإضافة إلى ذلك ، يجب إيلاء المزيد من الاهتمام للتطوير والبحث الأساسيين لنماذج الوكلاء ، بالإضافة إلى تدريب نماذج الوكلاء المخصصة لمجالات ومتطلبات محددة. قد يكون هذا النهج أكثر كفاءة ويمكن التحكم فيه من الاعتماد فقط على المطالبات لنموذج قوي وراثيا ولكنه ثابت.

التحدي 2: حقائق لا يمكن السيطرة عليها

يتطلب تنفيذ الذكاء اللغوي في العالم الحقيقي مواجهة العديد من عوامل العالم الحقيقي التي لا يمكن السيطرة عليها ، بما في ذلك سلوك المستخدم ، والبنية التحتية للإنترنت ، ومنطق الأعمال ، والتي لم يتم نمذجتها بشكل كاف في الدراسات السابقة. وهذا يتطلب إعادة تقييم وحتى قلب العديد من الافتراضات والأساليب المستخدمة في الدراسات السابقة. شيء واحد يجب مراعاته هو أن الخادم الذي يتم استدعاء واجهة برمجة التطبيقات عليه قد يتعطل. يتطلب هذا الموقف مراقبة أوامر المستخدم وإكمالها بشكل مطرد ، وليس كما هو مفترض في دراسات استخدام الأداة السابقة. قد يشعر المستخدمون بعدم الرضا أثناء عملية إنشاء رد ، مما قد يتسبب في مقاطعة نموذج اللغة أثناء عملية الإنشاء.

بالإضافة إلى ذلك ، قد تؤدي الأحداث غير المتوقعة مثل النوافذ المنبثقة لاختبار CAPTCHA أو تغييرات الإعلانات على صفحات الويب إلى إدخال درجة من العشوائية في بنية صفحة ويب مستقرة نسبيا لم يتم أخذها في الاعتبار في الجهود السابقة لأتمتة تصفح الويب. هناك العديد من هذه المشاكل ، مثل البيئة التي تتغير في الوقت الذي يستغرقه العامل للتفاعل والتفكير (والذي يستغرق الآن ثوان غالبا) ، وهكذا.

التحدي 3: مقاييس إضافية من سيناريوهات العالم الحقيقي**

غالبا ما تركز الدراسات المحددة كثيرا على مقاييس الأداء وتتجاهل الاحتياجات الأساسية في سيناريوهات العالم الحقيقي. على سبيل المثال ، يتيح استخدام البث ، حيث يتم عرض كل رمز مميز تم إنشاؤه للمستخدم في أسرع وقت ممكن ، للمستخدمين الشعور بسرعة بالتعليقات من النظام دون الحاجة إلى انتظار إنشاء النص الطويل قبل رؤيته معا. يمكن للمطالبات المصممة خصيصا أن تجعل تنسيق الرد للوكيل أكثر جمالا ، مما له تأثير كبير على تجربة المستخدم. ومع ذلك، فإن الأساليب الحالية لا تأخذ هذه الآثار في الاعتبار بشكل كاف. نتيجة لذلك ، على الرغم من أن مؤشرات الأداء في الدقة ممتازة ، إلا أنها من الناحية العملية قد تؤدي إلى أوقات استجابة طويلة ، وضعف قابلية قراءة النص ، وغيرها من المشكلات التي تؤدي إلى ضعف تجربة المستخدم ، ويحتاج البحث التالي إلى مزيد من النظر في المفاضلة بين الأداء وتجربة المستخدم.

** التحدي 4: تعقيد التقييم الناجم عن مشكلات النظام **

يمكن أن يؤدي بناء وكلاء مباشرين محددين للتطبيق إلى تلبية المزيد من احتياجات المستخدمين مع الكشف أيضا عن المزيد من تحديات التقييم. ومع ذلك ، يقدم بناء التطبيقات المستند إلى LLM تعقيدا إضافيا يجعل من الصعب تحديد ما إذا كانت حالات الفشل ناتجة عن قيود تطبيقات LLM أو عدم كفاية التعليمات البرمجية المنطقية. على سبيل المثال ، من غير المعقول الحكم على قدرة الوكيل لأن المستخدم لا يمكنه سحب الملف الذي تم تحميله وإفلاته مباشرة من الواجهة ، مما يؤدي إلى الفشل في إكمال العملية التي يريدها المستخدم. لذلك ، من الواعد والضروري تحسين نظام تصميم الوكيل ومنطق التشغيل ، أو تبسيط عملية الوكيل ومنطق استخدام المستخدم ، أو بناء منطق تصميم وتنفيذ أكثر اكتمالا.

النظرة المستقبلية

كيف يمكن ل OpenAgents مساعدة المجتمع في الخطوة التالية في البحث والتطوير؟ في رؤيتهم ، هناك على الأقل ما يلي:

** العمل المستقبلي 1: بناء المزيد من تطبيقات الوكلاء **

يفتح OpenAgents عملية تطوير وكيل لغة كاملة على مستوى التطبيق والتقنيات المطلوبة ، ويفتح الكود. هذا يفتح إمكانيات للتطبيقات المبتكرة الأخرى والمستخدمين النهائيين. يمكن للمطورين إنشاء أي تطبيق جديد يريدونه ، مثل الحوار متعدد الوسائط ، والحوار الصوتي ، ومساعد التعليمات البرمجية على مستوى المكتبة ، وما إلى ذلك.

مستقبل العمل 2: تكامل الأدوات والمكونات

يستكشف OpenAgents ويعالج الاحتياجات الأساسية لبناء تطبيقات الوكيل على مستوى المرافق ، مما يوفر أساسا قويا للمجتمع للتوسع أفقيا بسهولة من خلال دمج المكونات الأخرى. في الوقت نفسه ، يمكن توسيع المزيد من النماذج الأساسية ، مثل النماذج متعددة الوسائط الحديثة واسعة النطاق ، وتكييفها مع تصميمات واجهة المستخدم الجديدة.

** مستقبل العمل 3: البحث في مجال التفاعل بين الإنسان والحاسوب **

استنادا إلى منصة OpenAgents ، يمكن للمطورين والباحثين بسهولة إنشاء تطبيقات وكيل جديدة بناء على نماذج اللغات الكبيرة. وبالتالي يمكن أن يساعد OpenAgents في بناء عروض توضيحية للتطبيق للباحثين في التفاعل بين الإنسان والحاسوب (HCI) للتعمق في تصميمات واجهة أكثر سهولة وسهولة في الاستخدام. سيؤدي ذلك إلى زيادة مشاركة المستخدم ورضاه.

** العمل المستقبلي 4: توليد واجهة المستخدم التكيفية **

تعد أتمتة إنشاء واجهات المستخدم مجالا مثيرا للاهتمام وصعبا. يمكن تكييف هذه الواجهات ذاتيا أو تخصيصها بناء على معايير محددة ، مثل جهاز المستخدم أو تفضيلاته أو سياقه. يمكن للباحثين الخوض في كيفية تطبيق نماذج اللغة الكبيرة في واجهات المستخدم التكيفية المستندة إلى OpenAgents وتأثيرها على تجربة المستخدم.

** العمل المستقبلي 5: تقييم نماذج اللغة الكبيرة في سيناريوهات التطبيق في العالم الحقيقي **

يعد إنشاء طريقة تقييم محايدة وقوية للنماذج ذات اللغات الكبيرة أمرا ضروريا لتقييم قدراتها وأدائها بشكل عادل. حاليا ، يتم قياس الوكلاء باستخدام البيانات التي تم جمعها مسبقا وبيئة خاضعة للرقابة. وفي حين أن هذه التقييمات حاسمة، فإنها غالبا ما لا تعكس بشكل كامل التحديات الديناميكية في العالم الحقيقي. إن تشجيع المجتمع على توسيع أو تحسين مقاييس ومنصات التقييم هذه سيؤدي إلى تقدم المجال بشكل كبير وتوفير تقييمات ورؤى أكثر دقة حول الأداء الفعلي وقدرات نماذج اللغة الكبيرة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت