"سرقة" البيانات ، الجانب المظلم لنماذج الذكاء الاصطناعي الكبيرة

2023-06-19 05:20:03

المصدر الأصلي:

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

نددت شركة ناشئة تدعى "ضربة واحدة وسكتاتين" علنًا بزعيم التعليم والتدريب السابق "زويرسي" ، قائلة إنها "سرقت" البيانات التي عملت جاهدة على حفظها من خلال "إلغاء قاعدة البيانات".

أصل القصة هو أنه في منتصف أبريل من هذا العام ، وجدت "Pen Shen Composition" (منتج من شركة Strike Two Strike) أن هناك عددًا كبيرًا من عمليات الوصول غير العادية المنتظمة إلى واجهة الخادم ، مما أدى إلى زيادة سريعة في الحمل على الخادم.

عدد الزيارات يتجاوز بكثير المتوسط اليومي. كشفت Bishen Composition لـ Deep AI أن الزيارات اليومية المعتادة هي حوالي بضع مئات أو بضعة آلاف ، لكنها زادت في تلك الأيام القليلة إلى أكثر من 500000 يوميًا. في غضون أسبوع ، تم الزحف إلى بياناتهم 2.58 مليون مرة.

استدعاءات قاعدة البيانات التي نشرتها Penshen Composition

من خلال الرجوع إلى سجلات الخادم ، وجد Pen God Composition أن عنوان IP واحدًا قد زحف إلى قاعدة بياناته بكثافة عالية من خلال تقنية "الزاحف". ترتبط كلمات البحث لكل زيارة لعنوان IP هذا بالتكوين ، وسيعيد النظام 30 تركيبة لكل صفحة.تستخدم كل زيارة كلمات البحث للرجوع من الصفحة الأولى إلى الصفحة ، وتجميع نفس الموضوع في المكتبة بشكل أساسي تم التقاط جميع المؤلفات.

وفقًا لمطلعين على الصناعة ، في ظل الظروف العادية ، لن يقوم المستخدمون العاديون بذلك. ** يُعرف هذا النوع من الوصول بأسلوب البحث إلى قاعدة البيانات أيضًا باسم "كشط المكتبة". **

يعتقد Penshen Composition أن المتلاعب من وراء الكواليس لـ "Paku" هو شريكه Xueersi.

بعد فترة وجيزة من حادثة "مكتبة وقوف السيارات" ، وجدت Penshen Composition أن Xueersi كان يطور نموذجًا رياضيًا كبيرًا MathGPT ، وقال إنه سيطلق "مساعد AI" في المستقبل القريب ، وإحدى وظائفه هي التكوين.

لا يوجد استنتاج محدد حول ما إذا كان هناك أي صلة بين حادثتي Penshen Composition التي تم "التقاطها" و Hexueersi التي طورت "Composition AI Assistant".

لكن تكوين بيشن تعتقد أن حقوقها قد انتهكت. وأرسلت رسالة محامي إلى الطرف الآخر وأعلنت الأمر على الملأ ، في محاولة للحصول على تفسير. أعطى Xueersi إجابة عامة ، قائلًا إن استخدام المحتوى المادي لـ Penshen يتوافق مع متطلبات العقد ، وأن نموذج MathGPT المطور ذاتيًا و "مساعد الذكاء الاصطناعي للتكوين" لم يستخدم أي بيانات من تكوين Penshen.

في هذه الحادثة ، ليست المواد التركيبية فقط هي التي تستحق المناقشة. ماذا تعني البيانات بالنسبة للنماذج الكبيرة؟

** شريك تحول بربرياً عند البوابة؟ **

** كلا الجانبين يصران على آرائهما **

دعونا أولاً نقدم بإيجاز تكوين إله القلم.

تأسست هذه الشركة في عام 2017. منتج "Pen God" هو برنامج كتابة مدعوم بالذكاء الاصطناعي ، والذي يمكن اعتباره أحد منتجات الذكاء الاصطناعي + التعليم. في البداية ، كان "Pen God" موجهًا لمنصات إنشاء المحتوى ومصنعي الأدوات ذات الصلة ، وبعد ذلك توغل في المجال الرأسي ، مستخدمًا الذكاء الاصطناعي لتعليم الطلاب كتابة المقالات ، لذلك كان هناك "Pen God Composition".

يمكنك ببساطة أن تفهم: إنها في صناعة التعليم ، وهي تستهدف مجموعة الطلاب ، وتستخدم تقنية الذكاء الاصطناعي ، وتحل مشهد كتابة المقالات.

هناك الكثير من القواسم المشتركة بين الكتابة بالذكاء الاصطناعي و ChatGPT ، والتي تحظى بشعبية اليوم. كلها تتضمن تقنيات مثل معالجة اللغة الطبيعية والتحليل الدلالي والتنبؤ والتعلم الآلي. عمل Song Jiawei ، مؤسس Penshen Composition ، كمهندس نظام أول في Sony و CTO في Singulato.

منذ خمس سنوات ، قال Song Jiawei إنه كان يفكر في كيفية تطبيق تقنيات نموذج اللغة المدربة مسبقًا مثل bert أو GPT-2 على التطبيقات. في ذلك الوقت ، لم تكن GPT خارج الدائرة ، ولم تكن معروفة كما هي اليوم.

بعد البدء في تكوين الذكاء الاصطناعي ، دخلت Penshen Composition رسميًا في مسار التعليم ، وتدخلت في نفس النهر مثل Xueersi ، قائد التعليم والتدريب.

وفقًا لإدخال Penshen ، في ديسمبر 2020 ، توصل Penshen Composition و Xueersi إلى تعاون. ** يوفر Penshen Composition لـ Xueersi "واجهة خدمة المواد في نموذج تكوين Benshen" ، والتي تُستخدم في الخدمات ذات الصلة بـ Xueersi ، ويتم تسوية الرسوم وفقًا لعدد المكالمات. لهذا السبب ، فتحت Penshen Composition واجهة خدمة لـ Xueersi. **

بمعنى آخر ، يمكن لـ Xueersi استخدام مواد التكوين في قاعدة بيانات Penshen Composition ودفع ثمنها.

تعد مواد التكوين من الأصول الأساسية في هذه الصفقة وحجر الزاوية في نموذج الأعمال الخاص بـ Penshen Composition. في الواقع ، بدأ تكوين إله القلم من نقطة المادة في أقرب وقت ممكن. لقد تميزت بوظيفة "البحث عن المواد بنقرة واحدة" في ذلك الوقت. يمكن للمستخدمين البحث عن الكلمات الرئيسية ، ويمكن للنظام أن يطابق المواد تلقائيًا. وتتراوح الموارد من كلاسيكيات الشعر القديم ، والوثائق الرسمية ، إلى مقالات الويب الحديثة. أثناء عملية الكتابة ، يمكن للنظام أيضًا دفع المواد في الوقت الفعلي.

هذه المواد ليست من الإنترنت ، ولكن من قاعدة بيانات Penshen الخاصة. من خلال التحديد الذكي والترجمة والمطابقة لتكنولوجيا الذكاء الاصطناعي ، يمكن لـ Penshen تغذية المواد المناسبة لسلوك بحث المستخدمين.

عندما تكون كمية مواد التركيب هذه كبيرة بما يكفي ، تكون الجودة عالية بما فيه الكفاية ، والمطابقة دقيقة بما فيه الكفاية ، سيكون لها قيمة تجارية معينة ويمكن حتى بيعها خارجيًا. هذا هو سبب التعاون مع Xueersi.

المشكلة هي أن هذه المواد معرضة لخطر "السرقة" ، خاصة إذا تم فتح بعض الواجهات.

وفقًا لإدخال Deep AI في تكوين penshen ، فقد حدوا من نطاق التعاون مع Xueersi ، "نفتح الواجهة للسماح لهم بالاتصال ببياناتنا وعرضها في التطبيق الخاص بهم ، لكن العقد لا يتضمن بيانات التخزين. أو أذونات لخوارزميات الذكاء الاصطناعي. يجب أن تكون البيانات متاحة فقط لمستخدميها ، وليست مخزنة على أجهزتهم ".

إنه مكافئ لـ ، ** عندما يبدأ المستخدم بحثًا على جانب المنتج في Xueersi ، يأتي قالب التكوين الذي تم استدعاؤه من تكوين Penshen ، ولا يمكن لـ Xueersi تخزينه بمفرده. **

الاتصال غير الطبيعي في منتصف أبريل جعل تكوين Pen God يعتقد أنه كان خارج نطاق التعاون التجاري العادي. "أفعالهم أدت إلى آليات دفاعنا ، مما دفعنا إلى اكتشاف ذلك".

صرح Bishen Zuowen أنهم فحصوا سجلات الوصول في الخلفية ووجدوا أن الوصول غير القانوني بدأ بواسطة IP واحد من خلال تقنية "الزاحف". "لدينا بالفعل عنوان IP هذا."

عنوان IP المنشور بواسطة Penshen Composition (جزء)

حلل ليو ران ، الرئيس التنفيذي لشركة محلية ناشئة للذكاء الاصطناعي ، الذكاء الاصطناعي العميق. يجب أن تكون طريقة التعداد الشامل للكلمات الرئيسية هي الحصول على البيانات في المكتبة ، وهذا سلوك واضح للغاية.

كشفت Penshen Composition لـ Deep AI أنه بعد الحادث ، تحققوا من طاقم تشغيل Xueersi ، واعترف الطرف الآخر مباشرة أن فريق خوارزمية Xueersi كان يزحف إلى البيانات ويستخدمها لاستخدامهم الخاص. ومع ذلك ، بالنسبة لهذا البيان ، لم يتم تأكيد Deep AI من قبل Xueersi.

تحول الشريك السابق فجأة إلى بربري عند الباب ، مما جعل تكوين بيشن غاضبًا جدًا وأرسل خطابات محامٍ عدة مرات.

ذكرت Xueersi في ردها العام في 13 يونيو أن دعوتها إلى واجهة تكوين Penshen لم تتجاوز نطاق العقد بين الطرفين ، وأن استخدام المحتوى المادي لـ Penshen امتثل لمتطلبات العقد ولم يتم استخدامه لأي شيء بخلاف العقد. لأي غرض. أكد Xueersi بشكل خاص أن نموذج MathGPT الكبير الذي طورته ذاتيًا و "مساعد الذكاء الاصطناعي للتكوين" لم يستخدم أي بيانات من تكوين Penshen.

يصر الطرفان على آرائهما ، ولا يوجد نتيجة حتى الآن. وفقًا لمقال Pen God ، قد تصبح هذه الحالة "الحالة الأولى لسرقة بيانات نموذجية كبيرة الحجم للذكاء الاصطناعي".

السؤال الذي يستحق الاستكشاف هو ماذا تعني البيانات بالنسبة للنماذج الكبيرة؟

** مشكلة كبيرة من أين تأتي البيانات **

تعد قوة الحوسبة والخوارزميات والبيانات هي العناصر الأساسية الثلاثة للذكاء الاصطناعي للتعلم الآلي.

من أجل تحسين قوة الحوسبة ، تنفق العديد من شركات التكنولوجيا الكثير من الأموال لانتزاع GPU من Nvidia. على جانب الخوارزمية ، جعلت بعض الشركات الكبرى في الداخل والخارج الخوارزمية مفتوحة المصدر ، مما يقلل بشكل كبير من عتبة تطوير النموذج.

من ناحية البيانات ، كانت الحواجز موجودة دائمًا. مكان العثور على بيانات عالية الجودة هو قضية أساسية.

تحتاج نماذج الذكاء الاصطناعي التوليدية الكبيرة إلى استخدام كمية كبيرة من البيانات المتنوعة للتدريب لتحسين قدرات التعميم والتوليد للنموذج. قد تستخدم النماذج المختلفة مصادر بيانات مختلفة. تستخدم النماذج الكبيرة العامة مثل ChatGPT الكثير من البيانات العامة ، مثل مواقع الأخبار المختلفة والكتب والأوراق العلمية وصفحات الويب وما إلى ذلك. بالنسبة للنماذج الكبيرة في بعض المجالات الرأسية ، من الضروري العثور على مجموعات بيانات ومجموعات مستهدفة.

أخبر الشخص المسؤول عن النموذج واسع النطاق لشركة تكنولوجيا محلية رائدة Deep AI أن ChatGPT تستخدم بالفعل الكثير من البيانات غير العامة ، والعديد من البيانات العامة على الإنترنت ذات جودة رديئة للغاية ، وهناك عتبة البيانات عالية الجودة. يواجه الحصول على البيانات وتنظيفها تحديات كبيرة. **

صرح TAL CTO Tian Mi علنًا في 4 مايو ، "** العديد من الحقول بها حواجز بيانات ومعرفة صناعية ، ولا تزال النماذج الكبيرة بحاجة إلى تكامل عميق مع معرفة المجال ، بالإضافة إلى بيانات المجال الكافية لتدريب خبراء المجال. النموذج **. "

كما قال تيان مي ، يجب دمج نموذج المجال الكبير بعمق مع معرفة المجال. في مجال تكوين الذكاء الاصطناعي ، تعد مواد التكوين بيانات مهمة لآلات التدريب.

في وقت مبكر من عام 2019 ، بدأت شركة Penshen في جمع البيانات بشكل هادف وتدريب مجموعات التأليف الخاصة بها ، والتي تغطي الاقتباسات الشهيرة والقصائد والوثائق الرسمية ولغات الإنترنت وما إلى ذلك. يستخدمون طريقة آلات التدريب لمحاكاة الملصقات اليدوية لتسمية كل مجموعة.

في المجموعة الرأسية ، فقط عندما يتم تمييز البيانات ، يمكن تنفيذ الدفع الدقيق للمحتوى بناءً على مطابقة المتجهات والتحليل الدلالي والتنبؤ بإنشاء المحتوى الحالي للمستخدم.

أخبر ليو ران Deep AI أن بناء نموذج يتطلب الكثير من البيانات التي تم التحقق منها ، وإذا تم فرز البيانات ، فيمكن أن يوفر الكثير من العمل البشري. يمكن استخدام التراكيب التي تنظمها Penshen Composition كبيانات مميزة.

هذه العملية مستمرة وطويلة. قالت Bishen Composition أنه في السنوات الست التي انقضت منذ إنشائها ، جمعت أكثر من 5 ملايين مادة تكوين في المجموع ، ويتجاوز حجم التصحيح الشهري 30.000. تتم مراجعة مواد التكوين هذه يدويًا وفحصها وتقديمها وتصنيفها وتصنيفها وتصحيح البيانات ، ثم تجميعها في النهاية.

لا يمكن تقديم هذه البيانات في شكل مواد على صفحة APP فحسب ، بل يمكن استخدامها أيضًا لتدريب الخوارزميات في الخلفية. لذلك ، عند التعاون مع شركات أخرى لفتح واجهات ، أضاف Penshen Composition مادة خاصة في الاتفاقية - لا "التخزين المؤقت والتخزين والحساب والتدريب كمجموعة".

يعتقد Bishen Composition أن Xueersi قد "سرق" البيانات ، ويتوقع أن Xueersi يستخدم البيانات لتدريب وتطوير النموذج الرياضي الكبير MathGPT وآلة التعلم Xueersi "Composition AI Assistant". لكن يبدو من الصعب إثبات ذلك.

يعتقد Liu Ran أنه من الطبيعي أن يكون لبيانات التكوين بعض القيود الموضوعة مسبقًا ، مثل عدم قبول التزامن العالي ، وتشفير البيانات ، وينبغي أن يكون من الممكن تتبع مكان واستخدام البيانات. ومع ذلك ، فهو يعتقد أيضًا أن بيانات التكوين ليست مهمة مثل بيانات سلوك المستخدم الرئيسية.

"يمكنك السماح للذكاء الاصطناعي بمعرفة ما هو التكوين الجيد ، ثم السماح له بإنشاء وفقًا لهذه المعايير. لكنني لا أعتقد أن هناك حاجة فعلية إلى الكثير من البيانات. عشرات الآلاف من التراكيب عالية الجودة يجب أن تكون كافية." .

** "الحالة الأولى لسرقة بيانات نموذج كبير بالذكاء الاصطناعي" ، **

**هل يمكن ان تقف؟ **

اتخذ Penshen Composition موقفًا صارمًا ، وأصدر إعلانين متتاليين ، يطالبان Xueersi باعتذار ، وفي الوقت نفسه يطالب بتعويض قدره 1 يوان. حتى أنها تريد تصنيف هذه الحادثة على أنها "الحالة الأولى لسرقة بيانات نموذج كبير لمنظمة العفو الدولية".

قال المحامي ليو هونغ لين ، مدير شركة Shanghai Mankiw Law Firm ، لـ Deep AI أن المجموعة أو مكتبة المواد الخاصة بـ Bishen Composition نفسها لها حقوق ملكية فكرية. ومع ذلك ، يعتمد ما إذا كان العمل بموجب قانون حقوق الطبع والنشر على ما إذا كانت الأصالة تفي بالمعايير ذات الصلة.

"** إذا كان لدى Penshen Composition أدلة كافية لإثبات أن Xueersi قد استولى على بياناتهم بشكل ضار ، فيمكنه حينئذ الشروع في انتهاك حقوق الملكية الفكرية أو دعوى المنافسة غير العادلة **."

بالإضافة إلى ذلك ، لدى Bishen Composition اتفاقية تعاون مع Xueersi. إذا تم الاتفاق على احترام حقوق الملكية الفكرية وترخيصها ، فيمكنهم أيضًا حماية حقوقهم ومصالحهم من خلال خرق العقد.

من الجدير بالذكر أن العديد من المؤلفات في مكتبة Penshen Composition Material Library مقدمة من قبل المستخدمين. تدعي Pen God Composition أنها تتلقى 300000 مقال شهريًا. لذلك ، قبل تحديد ما إذا كان يمثل انتهاكًا ، من الضروري توضيح حقوق الملكية الفكرية لهذه المواد.

وفقًا لتحليل Liu Honglin ، يعتمد الأمر على كيفية اتفاق منشئ المقالة (المساهم) وتكوين penshen على حقوق الملكية الفكرية. إذا سمح المستخدم بحقوق الملكية الفكرية لتكوين Penshen في وقت الإرسال ، فسيتمتع Penshen Composition بالحقوق والمصالح المقابلة.

استفسر Deep AI عن اتفاقية خدمة المستخدم الخاصة بـ Pen God Composition ، ووجد أن هناك مثل هذا الشرط: المحتوى المنشور من قبل المستخدم في Pen God Composition (بما في ذلك على سبيل المثال لا الحصر التعليقات والتعليقات والملاحظات) ، يمنح Pen God تكوينًا ترخيص غير حصري مجاني وغير قابل للإلغاء.

بمعنى آخر ، تمتلك Penshen Composition حقوق الملكية الفكرية لمكتبة المواد.

ما لم يستطع ليو ران اكتشافه هو سبب تعاون Bishen Composition مع Xueersi. "لو كنت أنا ، بالتأكيد لن أتعاون مع Xueersi ، لأننا في علاقة تنافسية قوية." وهو يعتقد ، "** في عصر النماذج الكبيرة ، لا توجد فرصة لتقديم قاعدة بيانات للتكوين فقط **. "

وفقًا لتحليل أجراه المطلعون على الصناعة ، تتمتع Xueersi بحركة مرور ومشاهد وشعبية ، خاصة فيما يتعلق بالمنتجات الأمامية الموجهة للمستخدم ، تتمتع Xueersi بمزايا أكبر من Pen God Composition. ومع ذلك ، فإن عمل جمع البيانات وبناء مكتبة المواد في النهاية الخلفية يستغرق وقتًا طويلاً وشاقًا ، ومن الصعب رؤية النتائج على المدى القصير. بالنسبة إلى Xueersi ، من الأنسب الوصول مباشرة إلى مكتبة المواد الجاهزة. حقق Penshen Composition تسييلًا تجاريًا عن طريق بيع الوصول إلى مكتبة المواد.

ولكن بالنسبة لشركة ناشئة مثل Pen God Composition ، فإن هذا التعاون يشبه الوردة بالأشواك. لأن العمالقة الصينيين قد يدخلون منطقتك في أي وقت ، وحتى يشكلون منافسة مباشرة على مستوى الأعمال. **

يعد تصحيح التركيب بالذكاء الاصطناعي وظيفة مهمة جدًا لتكوين Penshen. منذ ثلاث سنوات ، أطلقت TAL (الشركة الأم لـ Xueersi) أيضًا "حل تصحيح التركيب الصيني والإنجليزي" ، والذي حقق تصحيحًا ذكيًا للتكوين الصيني والإنجليزي من خلال الذكاء الاصطناعي.

الآن ، يعد تعديل تكوين AI مجرد قمة جبل الجليد لمصفوفة منتج AI الضخمة لـ TAL. في مقدمة المنتج الأخيرة ، يعد تصحيح التركيب الصيني وحدة لتصحيح الإملاء الصينية والإنجليزية. لدى TAL طموحات أكبر ، وقد امتدت أذرعها بالفعل لتشمل جميع جوانب تعليم AI +.

بعد أن أصبحت ChatGPT شائعة مع الذكاء الاصطناعي التوليدي ، كان رواد الأعمال في صناعة الذكاء الاصطناعي متحمسين وقلقين. إنهم متحمسون لأن الصناعة أصبحت أخيرًا ساخنة مرة أخرى ؛ إنهم قلقون من أن ChatGPT قوي للغاية ، والعديد من المشاريع الريادية في المجالات الرأسية فقدت حواجزها بين عشية وضحاها.

** بالنسبة لشركة مثل Pen God Composition ، أين عوائق المنافسة وكيفية مواجهة العمالقة هي مشاكل حقيقية للغاية **. سيؤدي الانقلاب المتسارع لصناعة الذكاء الاصطناعي وتكثيف المنافسة المتجانسة إلى تصعيد المواجهة بين الشركات الناشئة والعمالقة.

قد يكون الحصول على البيانات مجرد قمة جبل الجليد في جولة جديدة من المنافسة.

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#BTC#
222k المنشورات
#PI#
186k المنشورات
#ETH#
141k المنشورات
4#GateioInto11#
79k المنشورات
5#ContentStar#
66k المنشورات
6#GT#
62k المنشورات
7#BOME#
60k المنشورات
8#DOGE#
57k المنشورات
9#MAGA#
52k المنشورات
10#SLERF#
51k المنشورات

تثبيت

خريطة الموقع