الطبيعة | الذكاء الاصطناعي أجهزة الكشف على قيد الحياة مرة أخرى؟ معدل النجاح يصل إلى 98٪ ، متغلبا على OpenAI

المصدر: نيو تشى يوان

تم حل المشكلة التي لم يستطع OpenAI حلها بواسطة فريق بحث في جامعة كانساس؟ يتمتع كاشف محتوى الذكاء الاصطناعي الأكاديمي الذي طوروه بمعدل دقة يصل إلى 98٪. إذا تم الترويج لهذه التكنولوجيا على نطاق واسع في الأوساط الأكاديمية ، فقد يتم التخفيف من انتشار الذكاء الاصطناعي الأوراق بشكل فعال.

مع الذكاء الاصطناعي أجهزة الكشف عن النصوص الآن ، لا توجد طريقة تقريبا للتمييز بشكل فعال بين النص الذي تم إنشاؤه الذكاء الاصطناعي والنص البشري.

حتى أداة الكشف التي طورتها OpenAI كانت غير متصلة بالإنترنت بهدوء بعد نصف عام من إطلاقها لأن دقة الكشف كانت منخفضة للغاية.

لكن في الآونة الأخيرة ، أبلغت Nature عن نتائج البحث لفريق في جامعة كانساس ، وطوروا نظاما أكاديميا للكشف عن الذكاء الاصطناعي يمكنه التمييز بشكل فعال بين ما إذا كانت الورقة تحتوي على محتوى تم إنشاؤه الذكاء الاصطناعي ، بمعدل دقة يصل إلى 98٪!

عنوان المقال:

الفكرة الأساسية لفريق البحث ليست السعي إلى إنشاء كاشف عام ، ولكن فقط لبناء كاشف نص الذكاء الاصطناعي مفيد حقا للأوراق الأكاديمية في مجال معين.

عنوان:

يقول الباحثون إن تخصيص برامج الكشف لأنواع معينة من النصوص المكتوبة يمكن أن يكون مسارا تقنيا لتطوير كاشف الذكاء الاصطناعي عالمي.

"إذا كان بإمكانك بناء نظام فحص لمجال معين بسرعة وسهولة ، فليس من الصعب بناء مثل هذا النظام لمجالات مختلفة."

استخرج الباحثون 20 سمة رئيسية لأسلوب كتابة الورقة وقاموا بتغذية هذه الميزات في نموذج XGBoost للتدريب ، مما جعل من الممكن التمييز بين النص البشري والنص الذكاء الاصطناعي.

وتشمل هذه الخصائص الرئيسية العشرين التغييرات في طول الجملة ، وعدد المرات التي يتم فيها استخدام كلمات معينة وعلامات الترقيم ، وما إلى ذلك.

وفقا للباحثين ، "يمكن الحصول على معدل دقة مرتفع للغاية باستخدام عدد قليل فقط من الميزات".

** صحة تصل إلى 98٪ **

في دراستهم الأخيرة ، تم تدريب الكاشف في القسم التمهيدي لعشر أوراق بحثية في مجلة الكيمياء نشرتها الجمعية الكيميائية الأمريكية (ACS).

اختار فريق البحث قسم "المقدمة" لأنه إذا كان لدى ChatGPT إمكانية الوصول إلى الأدبيات الأساسية ، فسيكون من السهل كتابة هذا الجزء من الورقة.

قام الباحثون بتدريب الأداة ب 100 اقتباس منشور كنص مكتوب من قبل الإنسان ، ثم طلبوا من ChatGPT-3.5 كتابة 200 اقتباس بأسلوب مجلة ACS.

بالنسبة للمقدمات ال 200 التي كتبها GPT-3.5 ، تم تزويد 100 منها بعناوين ورقية GPT-3.5 للكتابة ، بينما بالنسبة للأوراق ال 100 الأخرى ، تم توفير الملخصات كأساس للكتابة.

أخيرا ، عند اختبار الكاشف لكل من الاقتباسات المكتوبة من قبل الإنسان والتي تم إنشاؤها بواسطة الذكاء الاصطناعي في نفس المجلة.

حدد الكاشف ChatGPT-3.5 بدقة 100٪ في قسم المقدمة بناء على العنوان. بالنسبة للاقتباسات التي تم إنشاؤها بواسطة ChatGPT بناء على الكتابة المجردة ، يكون معدل الدقة أقل قليلا عند 98٪.

الأداة فعالة بنفس القدر للنصوص المكتوبة بواسطة GPT-4.

في المقابل ، يتعرف كاشف الذكاء الاصطناعي للأغراض العامة ZeroGPT فقط على الاقتباسات المكتوبة الذكاء الاصطناعي بمعدل دقة يتراوح بين 35 و 65٪ ، اعتمادا على إصدار ChatGPT المستخدم وما إذا كان يتم إنشاء الاقتباس بناء على عنوان الورقة أو الملخص.

كما أن أداة تصنيف النصوص التي صنعتها OpenAI (والتي أزالتها OpenAI في وقت النشر) لم يكن أداؤها جيدا ، مع دقة 10-55٪ فقط في التعرف على الاقتباسات المكتوبة الذكاء الاصطناعي.

يعمل كاشف ChatGPT الجديد هذا بشكل جيد حتى عند التعامل مع المجلات غير المدربة.

يمكنه أيضا التعرف على النص الذكاء الاصطناعي تم إنشاؤه خصيصا لإرباك مطالبات كاشف الذكاء الاصطناعي.

ومع ذلك ، في حين أن نظام الكشف يعمل بشكل جيد للغاية بالنسبة لأوراق المجلات العلمية ، عند استخدامه للكشف عن المقالات الإخبارية في الصحف الجامعية ، فإن الاعتراف أقل من مثالي.

وأشادت ديبورا ويبر-وولف، عالمة الكمبيوتر في جامعة برلين للعلوم التطبيقية التي تدرس الانتحال الأكاديمي، بالدراسة، قائلة إن ما يفعله الباحثون كان "رائعا للغاية".

تفاصيل المقال

تعتمد المنهجية التي استخدمها الباحثون على 20 ميزة رئيسية وخوارزمية XGBoost.

تشمل الميزات العشرون المستخرجة ما يلي:

(1) عدد الجمل لكل فقرة ، (2) عدد الكلمات لكل فقرة ، (3) وجود أقواس ، (4) وجود شرطات ، (5) وجود فواصل منقوطة أو نقطتين ، (6) وجود علامات استفهام ، (7) وجود فواصل عليا ، (8) الانحراف المعياري لطول الجملة ، (9) (متوسط) فرق طول الجمل المتتالية في الفقرات ، (10) وجود جمل أقل من 11 كلمة ، (11) وجود جمل تزيد عن 34 كلمة ، (12) وجود أرقام ، (13) هناك ضعف عدد الأحرف الكبيرة (مقارنة بالفترات) في نص الفقرات ، والكلمات التالية موجودة: (14) على الرغم من ، (15) ولكن ، (16) ولكن ، (17) لأن ، (18) هذا ، (19) شخص آخر أو باحث ، (20) ، إلخ.

يمكن العثور على العملية التفصيلية لتدريب الكاشف باستخدام XGBoost في قسم الإجراء التجريبي في الورقة الأصلية.

وكان المؤلف قد قام بعمل مماثل من قبل، ولكن نطاق العمل الأصلي كان محدودا للغاية.

من أجل تطبيق هذه الطريقة الواعدة على مجلات الكيمياء ، يلزم إجراء مراجعة بناء على مجموعة متنوعة من المخطوطات من مجلات متعددة في هذا المجال.

بالإضافة إلى ذلك ، تتأثر القدرة على اكتشاف الذكاء الاصطناعي النص بالمطالبات المقدمة لنموذج اللغة ، لذلك يجب اختبار أي طريقة مصممة لاكتشاف الكتابة الذكاء الاصطناعي مقابل المطالبات التي قد تربك استخدام الذكاء الاصطناعي ، وهو متغير لم يتم تقييمه في الدراسات السابقة.

أخيرا ، تم إطلاق إصدار جديد من ChatGPT ، GPT-4 ، وهو تحسن كبير مقارنة ب GPT-3.5. يجب أن تكون الذكاء الاصطناعي أجهزة الكشف عن النصوص فعالة ضد النص من الإصدارات الجديدة من نماذج اللغة مثل GPT-4.

لتوسيع نطاق كاشف الذكاء الاصطناعي ، يأتي جمع البيانات هنا من 13 مجلة مختلفة و 3 ناشرين مختلفين ، ومطالبات الذكاء الاصطناعي مختلفة ، ونماذج مختلفة لتوليد النصوص الذكاء الاصطناعي.

قم بتدريب مصنف XGBoost باستخدام نص بشري حقيقي ونص تم إنشاؤه بواسطة الذكاء الاصطناعي. ثم يتم إنشاء نماذج جديدة لتقييم النموذج من خلال طرق مثل الكتابة البشرية ، ومطالبات الذكاء الاصطناعي ، و GPT-3.5 و GPT-4.

أظهرت النتائج أن هذه الطريقة البسيطة المقترحة في هذه الورقة فعالة للغاية. لديها معدل دقة من 98٪ إلى 100٪ في التعرف على النص الذي تم إنشاؤه الذكاء الاصطناعي ، اعتمادا على المطالبة والطراز. بالمقارنة ، فإن أحدث مصنف ل OpenAI لديه معدل دقة يتراوح بين 10٪ و 56٪.

سيسمح الكاشف في هذه الورقة للمجتمع العلمي بتقييم تغلغل ChatGPT في مجلات الكيمياء ، وتحديد عواقب استخدامه ، وإدخال استراتيجيات التخفيف بسرعة عند ظهور المشاكل.

النتائج والمناقشة

اختار المؤلفون عينة من الكتابة البشرية من 10 مجلات كيميائية تابعة للجمعية الكيميائية الأمريكية (ACS).

وتشمل هذه الكيمياء غير العضوية ، والكيمياء التحليلية ، ومجلة الكيمياء الفيزيائية أ ، ومجلة الكيمياء العضوية ، و ACS Omega ، ومجلة التعليم الكيميائي ، و ACS Nano ، والعلوم والتكنولوجيا البيئية ، ودراسات في كيمياء السموم ، و ACS Chemical Biology.

باستخدام قسم المقدمة المكون من 10 مقالات في كل مجلة ، كان هناك ما مجموعه 100 عينة كتابة بشرية في مجموعة التدريب. تم اختيار القسم التمهيدي لأنه ، مع المطالبة المناسبة ، هذا هو الجزء من المقالة الذي من المرجح أن يكتبه ChatGPT.

يعد استخدام 10 مقالات فقط لكل مجلة مجموعة بيانات صغيرة بشكل غير عادي ، لكن المؤلفين لا يعتقدون أنها مشكلة ، بل على العكس تماما ، على افتراض أنه يمكن تطوير نموذج فعال باستخدام مجموعة تدريب صغيرة كهذه ، يمكن نشر الطريقة بسرعة بأقل قدر من قوة الحوسبة.

تم تدريب نماذج مماثلة باستخدام 10 ملايين وثيقة.

التصميم الفوري هو جانب رئيسي في هذه الدراسات. لكل نص مكتوب من قبل الإنسان ، يقوم الذكاء الاصطناعي المقارن بإنشائه باستخدام مطالبتين مختلفتين ، وكلاهما مصمم لمطالبة ChatGPT بالكتابة مثل الكيميائي.

نصيحة 1 هي: "اكتب مقدمة من 300 إلى 400 كلمة لمقال بعنوان xxx بأسلوب مجلة ACS."

النصيحة 2 هي: "يرجى كتابة مقدمة من 300 إلى 400 كلمة للمقال مع هذا الملخص بأسلوب مجلة ACS."

كما هو متوقع ، قام ChatGPT بدمج العديد من الحقائق والمفردات الأساسية من الملخص في المقدمة في هذه الحلقة.

تحتوي مجموعة بيانات التدريب بأكملها على 100 مقدمة تم إنشاؤها بشكل مصطنع و 200 مقدمة تم إنشاؤها بواسطة ChatGPT ؛ تصبح كل فقرة "مثالا على الكتابة".

تم استخراج قائمة من 20 ميزة من كل فقرة فيما يتعلق بتعقيد الفقرة ، والاختلافات في طول الجملة ، واستخدام علامات الترقيم المختلفة ، و "الكلمات الطنانة" التي قد تظهر بشكل متكرر في كتابات علماء الإنسان أو ChatGPT.

تم تحسين النموذج باستخدام استراتيجية التحقق المتقاطع للإجازة الواحدة.

يوضح الجدول أعلاه نتائج التدريب على تصنيفات عينات الكتابة هذه ، بما في ذلك مستوى المستند الكامل ومستوى الفقرة.

أسهل فئة نصية لتصنيفها بشكل صحيح هي المقدمة التي تم إنشاؤها بواسطة ChatGPT تحت المطالبة 1 (العنوان).

النموذج دقيق بنسبة 99٪ على مستوى الفقرة الفردية ودقيق بنسبة 100٪ على مستوى المستند.

دقة تصنيف نص ChatGPT تحت تأثير الموجه 2 (ملخص) أقل قليلا.

يصعب توزيع النص الذي ينشئه الإنسان بشكل صحيح ، لكن الدقة لا تزال جيدة جدا. كمجموعة ، يتمتع البشر بأسلوب كتابة أكثر تنوعا من ChatGPT ، مما قد يجعل من الصعب تصنيف عينات الكتابة الخاصة بهم بشكل صحيح باستخدام هذه الطريقة.

المرحلة التالية من التجربة هي اختبار النموذج بوثائق جديدة لم يتم استخدامها في التدريب.

صمم المؤلفون اختبارات سهلة وصعبة.

يستخدم الاختبار البسيط بيانات اختبار من نفس طبيعة بيانات التدريب (اختيار مقالات مختلفة من نفس المجلة) ويستخدم عنوان المقالة المحدد حديثا والملخص لمطالبة ChatGPT.

وفي الاختبار الصعب ، يتم استخدام GPT-4 بدلا من GPT-3.5 لإنشاء نص الذكاء الاصطناعي ، نظرا لأنه من المعروف أن GPT-4 أفضل من GPT-3.5 ، فهل ستنخفض دقة التصنيف؟

يوضح الجدول أعلاه نتائج التصنيف. لا يوجد تقريبا أي تدهور في الأداء مقارنة بالنتائج السابقة.

على مستوى المستند الكامل ، تصل دقة تصنيف النص الذي ينشئه الإنسان إلى 94٪ ، ودقة النص الذي تم إنشاؤه الذكاء الاصطناعي في الموجه 2 هي 98٪ ، ودقة تصنيف النص الذكاء الاصطناعي في الموجه 1 تصل إلى 100٪.

كما أن مجموعات التدريب والاختبار متشابهة جدا من حيث دقة التصنيف على مستوى الفقرة.

تظهر البيانات الموجودة في الأسفل النتائج عندما يصنف نموذج مدرب باستخدام ميزات نص GPT-3.5 نص GPT-4. لم يكن هناك تدهور في دقة التصنيف عبر جميع الفئات ، وهي نتيجة جيدة للغاية وتوضح فعالية الطريقة على GPT-3.5 و GPT-4.

في حين أن الدقة الإجمالية لهذه الطريقة جديرة بالثناء ، فمن الأفضل الحكم على قيمتها من خلال مقارنتها بأجهزة الكشف عن النصوص الذكاء الاصطناعي الحالية. هنا ، تم اختبار اثنتين من أدوات الكشف الرائدة باستخدام نفس بيانات مجموعة الاختبار.

الأداة الأولى هي مصنف نص مقدم من OpenAI ، صانع ChatGPT. يعترف OpenAI بأن المصنف ليس مثاليا ، لكنه لا يزال أفضل منتج عام له.

أداة الكشف الثانية هي ZeroGPT. تدعي الشركة المصنعة لها أنها تكتشف النص الذكاء الاصطناعي بدقة 98٪ ، وقد تم تدريب الأداة على 10 ملايين مستند. إنه أحد أفضل المصنفات أداء في العديد من التقييمات الحالية. علاوة على ذلك ، يقول صانعو ZeroGPT أن طريقتهم تعمل مع كل من GPT-3.5 و GPT-4.

يوضح الرسم البياني أعلاه أداء الأدوات في هذه المقالة والمنتجين أعلاه على مستوى التوثيق الكامل.

جميع أجهزة الكشف الثلاثة لها دقة عالية مماثلة في التعرف على النص البشري. ومع ذلك ، هناك اختلافات كبيرة بين الأدوات الثلاث عندما يتعلق الأمر بتقييم النص الذي تم إنشاؤه الذكاء الاصطناعي.

باستخدام النصيحة 1 ، تتمتع الأداة في هذه الورقة بمعدل دقة 100٪ لكل من GPT-3.5 و GPT-4 ، لكن ZeroGPT لديها معدل فشل 32٪ لنص GPT-3.5 ومعدل فشل 42٪ لنص GPT-4. كان أداء منتجات OpenAI أسوأ ، حيث بلغ معدل الفشل ما يقرب من 70٪ على نص GPT-4.

عند استخدام النص الذكاء الاصطناعي الذي تم إنشاؤه بواسطة الموجه 2 الأكثر صعوبة ، يتم تقليل دقة تصنيف الطريقتين الأخيرتين بشكل أكبر.

في المقابل ، ارتكب الكاشف في هذه الورقة خطأ واحدا فقط من أصل 100 وثيقة تم اختبارها في هذه المجموعة.

لذا ، هل يمكن للطريقة اكتشاف كتابة ChatGPT بدقة في المجلات التي ليست جزءا من مجموعة التدريب ، وهل لا تزال الطريقة تعمل إذا تم استخدام مطالبات مختلفة؟

اختار المؤلفون 150 مقالة جديدة من ثلاث مجلات لعرضها: Cell Reports Physical Science و Cell Press. كيمياء الطبيعة ، من مجموعة نشر الطبيعة ؛ ومجلة الجمعية الكيميائية الأمريكية ، وهي مجلة ACS غير مدرجة في مجموعة التدريب.

بالإضافة إلى ذلك ، تم جمع مجموعة من 100 مقال صحفي كتبها طلاب جامعيون في خريف عام 2022 ونشرت في 10 صحف جامعية مختلفة. نظرا لأن الكاشف في هذه المقالة محسن خصيصا للكتابة العلمية ، فمن المتوقع ألا يتم تصنيف القصص الإخبارية بدقة عالية.

كما ترون من الرسم البياني ، وتطبيق نفس النموذج وتدريب هذه المجموعة الجديدة من الأمثلة بنص من مجلات ACS ، فإن معدل التصنيف الصحيح هو 92٪ -98٪. هذا مشابه للنتائج التي تم الحصول عليها في مجموعة التدريب.

كما هو متوقع أيضا ، لا يتم تصنيف المقالات الصحفية التي يكتبها طلاب الجامعات بشكل صحيح على أنها من صنع الإنسان.

في الواقع ، عند تقييمها باستخدام الميزات والنماذج الموضحة في هذه المقالة ، تشبه جميع المقالات تقريبا النص الذي تم إنشاؤه الذكاء الاصطناعي أكثر من مقالات العلوم البشرية.

ومع ذلك ، تهدف هذه الطريقة إلى التعامل مع مشاكل الكشف في المنشورات العلمية وليست مناسبة لامتدادها إلى مجالات أخرى.

موارد

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت