في الشهر الماضي ، كشفت المؤسسة التعليمية المعروفة Xueersi أنها تطور نموذجًا رياضيًا كبيرًا MathGPT ، والذي يستهدف عشاق الرياضيات العالميين ومؤسسات البحث العلمي الكبرى ، ويمشي على قدمين في حل المشكلات وإلقاء المحاضرات. في ذلك الوقت ، شعر الكثير من الناس أنه عندما غنيت نموذج اللغة العالمي الكبير الذي غنيت وصعدت إلى المسرح ، أخيرًا كان نموذج كبير للإصدار العلمي قادمًا. ومع ذلك ، فقد مر أكثر من شهر ، وذهب تطور الواقع في اتجاه آخر.
في يوم الثلاثاء 13 من هذا الأسبوع ، اتهمت أداة الكتابة بالذكاء الاصطناعي "Pen Shen Composition" Xueersi بالوصول بشكل غير قانوني إلى بيانات خادمها وتخزينها مؤقتًا أكثر من 2.5 مليون مرة من خلال تقنية "الزاحف" ، من أجل تطوير منتج MathGPT الجديد "Composition AI Assistant" "" ، وطالبت بـ يوان واحد.
سنة واحدة ، ست سنوات من الإنجازات وعطلة نهاية الأسبوع
تأسست Penshen Composition في ديسمبر 2017. وهي عبارة عن منصة تعليمية مركّبة لـ K12 ، أي من المدرسة الابتدائية المحلية إلى المدرسة الثانوية. وهي تابعة لشركة Beijing Yiyilianghua Technology Co.، Ltd. على الرغم من وجود أصوات ومفاهيم للجمع بين الذكاء الاصطناعي والذكاء الاصطناعي عند إنشائه ، إلا أن توقعات السوق والأداء الفعلي لم تكن ساخنة كما هي الآن ، وكان الاهتمام الذي اجتذبه محدودًا للغاية. ومع ذلك ، ومع ذلك ، لا يزال Penshen Composition يعتمد على ميزته المتمثلة في "استخدام تقنية الذكاء الاصطناعي لمساعدة الكتاب على تحسين قدرتهم على الكتابة". أكمل تمويل جولة ملاك من Buhuo Venture Capital بملايين الدولارات في يوليو.
وفقًا للبيانات الرسمية ، في السنوات الست التي انقضت منذ إطلاقها ، تلقت Penshen Composition أكثر من 300000 مقال وأكثر من 400000 إعجاب وتعليق كل شهر. لقد جمعت الملايين من مواد المقالات وتصحيحها كل شهر. وهناك أيضًا أكثر من 30000 مقالة. بعد إطلاق ChatGPT في نهاية العام الماضي ، قال شيجي تيانهونج ، أحد المستثمرين في Penshen Composition ، ذات مرة أن ** "Pensus" وتقنية ChatGPT لهما نفس الأصل ، وكلاهما يستخدم الخوارزمية الأكثر تقدمًا على أساس المحول باعتبارها التكنولوجيا الأساسية **. سونغ جياوي ، مؤسس Bishen Composition ، قدم أيضًا: "يوجد حاليًا أكثر من 60 ٪ من موظفي البحث والتطوير التقنيين في الفريق بضربة واحدة وضربتين. قبل إنشاء الشركة ، قاموا بتأسيس شركات البرمجة اللغوية العصبية. لقد تم إنشاء بعض الأعمدة الأساسية تشارك بعمق في مجال البرمجة اللغوية العصبية لسنوات عديدة وتستمر في التراكم ".
** لذلك ، على وجه العموم ، فإن نموذج خوارزمية PenShen Composition مطور ذاتيًا ومُدرَّب من قبل الشركة ، والبيانات الضخمة المستخدمة بواسطة النظام الأساسي مستمدة بشكل أساسي من تراكمها الخاص. ** بسبب التكنولوجيا المتراكمة والمثمرة في الكتابة ، أطلق Penshen Composition و Xueersi رسميًا تعاونًا منذ ثلاث سنوات ، ووقعوا عقدًا مع تطبيق أداة التعلم Xueersi "Tipai Pai" ، وهو المسؤول بشكل أساسي عن توفير خدمة الاستعلام عن مواد التكوين.
ومع ذلك ، كشريك ، صرحت Bishen Composition مؤخرًا: من 13 إلى 17 أبريل ، تم طعن إنجازات فريقنا في السنوات الست منذ تأسيسنا بلا رحمة من قبل "Xueersi" الذين تعاونوا لسنوات عديدة. وزحف أكثر من 2.5 مليون مرة في فقط مرة واحدة! أعلن Xueersi عن MathGPT في مايو ، والتوقيت صدفة للغاية.
2. قلم نداء الله ورد Xue Ersi
** انطلاقا من البيان الصادر عن Weibo الرسمي من Penshen Composition ، فإنه ليس لديه آلية أمان بيانات كاملة ، وليس لديه دفاع ضد "شريكه" Xueersi ، مما أدى إلى استفادة سانتي يونليان (Xueersi) Si الفرعية. من ثقة كل منهما. ** في هذا الصدد ، ذكرت Bishen Composition أن هذا السلوك يتجاهل بوضوح شروط العقد المبرم بين الطرفين ، كما أنه ينتهك المادة 32 من "قانون حماية البيانات". أساليب. لا تسرق أو تحصل على البيانات بطرق أخرى غير قانونية "انتهكت حقوق البيانات الخاصة بشركة Bishenzuowen APP. بعد ذلك مباشرة ، عثر Penshen Composition على Xueersi للتحقق ، والطرف الآخر لم يماطل ، واعترف مباشرة أن فريق الخوارزمية الخاص بهم كان يزحف إلى البيانات ويستخدمها لاستخدامهم الخاص. لذلك ، أرسلت Bishen Composition رسالة محامٍ ، لكن هذه المرة لم تتلق ردًا موضوعيًا من Xueersi.
"بصفتنا شركة أصغر بكثير من Xueersi ، ليس لدينا خيار سوى حماية حقوقنا من خلال القنوات القانونية." ومع ذلك ، أشارت Bishen Composition أيضًا في البيان إلى أن القوانين واللوائح الحالية لا تمثل سابقة للحكم على "سرقة بيانات النماذج الضخمة للذكاء الاصطناعي" ، لذلك يمكن فقط "اتخاذ هذه الخطوة الأولى بشجاعة". بالنسبة للنداء الفعلي لتكوين Penshen ، فإنه ليس بالأمر الصعب في الواقع: ** يريد Xueersi فقط دفع يوان واحد كتعويض ، والاعتذار علنًا وحذف البيانات التي تم الزحف إليها. **
تفسير Penshen Composition لهذا الأمر هو: "البيانات قيمة ، والجهود المضنية لا تقدر بثمن ، والمطالبة باليوان الواحد هو أن العدل والإنصاف لا يمكن قياسهما بالمال. ونأمل أن نخبر الطرف الآخر من خلال التقاضي ونخبر المجتمع أن هذا السلوك سوف تضطر إلى دفع الثمن. صناعة الذكاء الاصطناعي إن تطوير الصناعة يتطلب من الجميع العمل معًا والإبداع معًا ، بدلاً من الرغبة في انتحال إنجازات الآخرين ".
تمامًا كما قال تكوين إله القلم ، لم تطالب هذه الدعوى سوى بعملة واحدة ، لذا لم يثر البيان الكثير من الاستجابة والاهتمام ، وكانت المقالات القليلة الوحيدة تدين Xueersi أيضًا. ومع ذلك ، فهي أخبار سلبية بعد كل شيء ، فقد نشر Weibo الرسمي في Xueersi أيضًا ردًا مؤخرًا: "أولاً وقبل كل شيء ، يعد MathGPT نموذجًا كبيرًا تم تطويره ذاتيًا يركز على مجال الرياضيات ، دون أي بيانات متعلقة بالتكوين ؛ ثانيًا ،" التكوين " AI Assistant "قيد التطوير حاليًا. لم يتم إصدار الحالة بعد ، ولا تستخدم الخدمة أي بيانات من تكوين Penshen."
بالنسبة للنقطة الرئيسية في هذا الحادث ، أكثر من 2.5 مليون مرة من الزحف إلى البيانات ، أشار Xueersi إلى أن العقد نص بوضوح على أن "عدد المكالمات المدرجة في الرسوم الشهرية المضمونة هو في حدود الملايين" ، والواجهة تسمى "ينتمي إلى كلا الطرفين. النطاق الطبيعي للتعاون المنصوص عليه في العقد". في نهاية الرد ، شدد Xueersi على أنه "يحترم دائمًا حقوق الملكية الفكرية ويولي أهمية كبيرة لحماية الملكية الفكرية" ، ويتم تنفيذ جميع الإجراءات بما يتفق بدقة مع العقد ، ولكن "البيان العام لـ Penshen Composition قد تسبب بالفعل في الإضرار بسمعة Xueersi التجارية. سنحتفظ بالحق في متابعة مسؤولية انتهاك سمعتها ".
3. قضايا حقوق التأليف والنشر البيانات
فيما يتعلق بالبيانات الحالية للطرفين ، من السابق لأوانه استخلاص أي استنتاجات ، ولكن هذا يكشف أيضًا عن جانب مهم جدًا ولكن يمكن التغاضي عنه بسهولة في سوق النماذج واسعة النطاق الساخنة في الأشهر الستة الماضية: ملكية حقوق الطبع والنشر من ** بيانات تدريب الذكاء الاصطناعي **. ولهذا السبب أيضًا ، أحدث Reddit ، المعروف باسم "النسخة الأمريكية من Tieba" ، ضجة كبيرة على الإنترنت مؤخرًا.
نظرًا لمحتوى الدردشة الغني المتراكم على مر السنين على Reddit ، فقد أصبح المادة المستخدمة من قبل Google و Microsoft و OpenAI وشركات أخرى لتدريب نماذج اللغات الكبيرة. ChatGPT وغيرها من الفصائل البليغة والتي أصبحت فيما بعد شائعة في جميع أنحاء العالم ، ساهم Reddit أيضًا . ولكن الآن مع شعبية هذه المنتجات الشبيهة بـ GPT ، قال المؤسس والرئيس التنفيذي لشركة Reddit ذات مرة: ** "بيانات مجموعة Reddit قيمة للغاية ، لكننا لا نريد تقديم هذا المحتوى إلى بعض الشركات العملاقة مجانًا." * * بعد ذلك بعد التعبير عن موقفه ، أعلن موقع Stack Overflow ، وهو موقع إلكتروني آخر معروف للأسئلة والأجوبة في مجال تكنولوجيا المعلومات ، أنه يخطط لتحصيل رسوم الوصول إلى البيانات من كبار المطورين اعتبارًا من منتصف هذا العام. وقال مديرها التنفيذي أيضًا: ** "التطور الأخير لنموذج اللغة الكبيرة يستفيد أيضًا من تعزيز المجتمع ، ويجب أيضًا تعويض المجتمع عن مساهماته." **
مما لا شك فيه ، في عملية الذكاء الاصطناعي العام والنماذج الكبيرة أن تصبح أكثر وأكثر ذكاءً من الأقلية إلى الجمهور ، من خلف الكواليس إلى أمام المسرح ، لا غنى عن بيانات التدريب الضخمة. ومع ذلك ، بناءً على الأداء الحالي للعديد من الشركات ، حتى OpenAI ، الشقيق الأول الحالي ، ليس لديه حل جيد لقضية حقوق التأليف والنشر لبيانات التدريب. ليس من الصعب فهم السبب ، فالنسخة الأولى من GPT بالكاد جذبت انتباه العالم الخارجي. في ذلك الوقت ، كان الناس متشككين بشأن إمكانية تسويقها. وبطبيعة الحال ، لم يهتم أحد بمصادر البيانات وقضايا حقوق النشر. عندما يتم إطلاق ChatGPT ، ستأتي قيمة استخدام ضخمة وقيمة تجارية وازدهار اجتماعي ، وسيصبح النظام القانوني التقليدي والنموذج الاقتصادي وأفكار التنمية وما إلى ذلك على الفور مشاكل بالنسبة لك.
بغض النظر عما إذا كان هذا صحيحًا أم لا وما هي النتيجة النهائية ، هذه المرة ، نظمت Bishen Composition و Xueersi معًا أول دراما لحقوق الطبع والنشر لبيانات النموذج على نطاق واسع في الصين ، كما جلبت بعض الإلهام إلى صناعة النماذج المحلية واسعة النطاق و الشركات. على الرغم من أنه نزاع على يوان واحد فقط ، إلا أنه ذو أهمية كبيرة. ربما عندما يتم إصدار عشرات الآلاف من الأعمال الدرامية في المستقبل ، إذا نظرنا إلى الوراء في بيان اليوم من Penshen Composition و Xueersi ، فسنجد أن هذا الدولار حقاً بصيرة.
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
تم الزحف إلى نتائج ست سنوات أكثر من 2.5 مليون مرة في عطلة نهاية أسبوع واحدة ، وكيفية حماية حقوق الطبع والنشر للبيانات في العصر الجديد
في الشهر الماضي ، كشفت المؤسسة التعليمية المعروفة Xueersi أنها تطور نموذجًا رياضيًا كبيرًا MathGPT ، والذي يستهدف عشاق الرياضيات العالميين ومؤسسات البحث العلمي الكبرى ، ويمشي على قدمين في حل المشكلات وإلقاء المحاضرات. في ذلك الوقت ، شعر الكثير من الناس أنه عندما غنيت نموذج اللغة العالمي الكبير الذي غنيت وصعدت إلى المسرح ، أخيرًا كان نموذج كبير للإصدار العلمي قادمًا. ومع ذلك ، فقد مر أكثر من شهر ، وذهب تطور الواقع في اتجاه آخر.
في يوم الثلاثاء 13 من هذا الأسبوع ، اتهمت أداة الكتابة بالذكاء الاصطناعي "Pen Shen Composition" Xueersi بالوصول بشكل غير قانوني إلى بيانات خادمها وتخزينها مؤقتًا أكثر من 2.5 مليون مرة من خلال تقنية "الزاحف" ، من أجل تطوير منتج MathGPT الجديد "Composition AI Assistant" "" ، وطالبت بـ يوان واحد.
سنة واحدة ، ست سنوات من الإنجازات وعطلة نهاية الأسبوع
تأسست Penshen Composition في ديسمبر 2017. وهي عبارة عن منصة تعليمية مركّبة لـ K12 ، أي من المدرسة الابتدائية المحلية إلى المدرسة الثانوية. وهي تابعة لشركة Beijing Yiyilianghua Technology Co.، Ltd. على الرغم من وجود أصوات ومفاهيم للجمع بين الذكاء الاصطناعي والذكاء الاصطناعي عند إنشائه ، إلا أن توقعات السوق والأداء الفعلي لم تكن ساخنة كما هي الآن ، وكان الاهتمام الذي اجتذبه محدودًا للغاية. ومع ذلك ، ومع ذلك ، لا يزال Penshen Composition يعتمد على ميزته المتمثلة في "استخدام تقنية الذكاء الاصطناعي لمساعدة الكتاب على تحسين قدرتهم على الكتابة". أكمل تمويل جولة ملاك من Buhuo Venture Capital بملايين الدولارات في يوليو.
وفقًا للبيانات الرسمية ، في السنوات الست التي انقضت منذ إطلاقها ، تلقت Penshen Composition أكثر من 300000 مقال وأكثر من 400000 إعجاب وتعليق كل شهر. لقد جمعت الملايين من مواد المقالات وتصحيحها كل شهر. وهناك أيضًا أكثر من 30000 مقالة. بعد إطلاق ChatGPT في نهاية العام الماضي ، قال شيجي تيانهونج ، أحد المستثمرين في Penshen Composition ، ذات مرة أن ** "Pensus" وتقنية ChatGPT لهما نفس الأصل ، وكلاهما يستخدم الخوارزمية الأكثر تقدمًا على أساس المحول باعتبارها التكنولوجيا الأساسية **. سونغ جياوي ، مؤسس Bishen Composition ، قدم أيضًا: "يوجد حاليًا أكثر من 60 ٪ من موظفي البحث والتطوير التقنيين في الفريق بضربة واحدة وضربتين. قبل إنشاء الشركة ، قاموا بتأسيس شركات البرمجة اللغوية العصبية. لقد تم إنشاء بعض الأعمدة الأساسية تشارك بعمق في مجال البرمجة اللغوية العصبية لسنوات عديدة وتستمر في التراكم ".
** لذلك ، على وجه العموم ، فإن نموذج خوارزمية PenShen Composition مطور ذاتيًا ومُدرَّب من قبل الشركة ، والبيانات الضخمة المستخدمة بواسطة النظام الأساسي مستمدة بشكل أساسي من تراكمها الخاص. ** بسبب التكنولوجيا المتراكمة والمثمرة في الكتابة ، أطلق Penshen Composition و Xueersi رسميًا تعاونًا منذ ثلاث سنوات ، ووقعوا عقدًا مع تطبيق أداة التعلم Xueersi "Tipai Pai" ، وهو المسؤول بشكل أساسي عن توفير خدمة الاستعلام عن مواد التكوين.
ومع ذلك ، كشريك ، صرحت Bishen Composition مؤخرًا: من 13 إلى 17 أبريل ، تم طعن إنجازات فريقنا في السنوات الست منذ تأسيسنا بلا رحمة من قبل "Xueersi" الذين تعاونوا لسنوات عديدة. وزحف أكثر من 2.5 مليون مرة في فقط مرة واحدة! أعلن Xueersi عن MathGPT في مايو ، والتوقيت صدفة للغاية.
2. قلم نداء الله ورد Xue Ersi
** انطلاقا من البيان الصادر عن Weibo الرسمي من Penshen Composition ، فإنه ليس لديه آلية أمان بيانات كاملة ، وليس لديه دفاع ضد "شريكه" Xueersi ، مما أدى إلى استفادة سانتي يونليان (Xueersi) Si الفرعية. من ثقة كل منهما. ** في هذا الصدد ، ذكرت Bishen Composition أن هذا السلوك يتجاهل بوضوح شروط العقد المبرم بين الطرفين ، كما أنه ينتهك المادة 32 من "قانون حماية البيانات". أساليب. لا تسرق أو تحصل على البيانات بطرق أخرى غير قانونية "انتهكت حقوق البيانات الخاصة بشركة Bishenzuowen APP. بعد ذلك مباشرة ، عثر Penshen Composition على Xueersi للتحقق ، والطرف الآخر لم يماطل ، واعترف مباشرة أن فريق الخوارزمية الخاص بهم كان يزحف إلى البيانات ويستخدمها لاستخدامهم الخاص. لذلك ، أرسلت Bishen Composition رسالة محامٍ ، لكن هذه المرة لم تتلق ردًا موضوعيًا من Xueersi.
"بصفتنا شركة أصغر بكثير من Xueersi ، ليس لدينا خيار سوى حماية حقوقنا من خلال القنوات القانونية." ومع ذلك ، أشارت Bishen Composition أيضًا في البيان إلى أن القوانين واللوائح الحالية لا تمثل سابقة للحكم على "سرقة بيانات النماذج الضخمة للذكاء الاصطناعي" ، لذلك يمكن فقط "اتخاذ هذه الخطوة الأولى بشجاعة". بالنسبة للنداء الفعلي لتكوين Penshen ، فإنه ليس بالأمر الصعب في الواقع: ** يريد Xueersi فقط دفع يوان واحد كتعويض ، والاعتذار علنًا وحذف البيانات التي تم الزحف إليها. **
تفسير Penshen Composition لهذا الأمر هو: "البيانات قيمة ، والجهود المضنية لا تقدر بثمن ، والمطالبة باليوان الواحد هو أن العدل والإنصاف لا يمكن قياسهما بالمال. ونأمل أن نخبر الطرف الآخر من خلال التقاضي ونخبر المجتمع أن هذا السلوك سوف تضطر إلى دفع الثمن. صناعة الذكاء الاصطناعي إن تطوير الصناعة يتطلب من الجميع العمل معًا والإبداع معًا ، بدلاً من الرغبة في انتحال إنجازات الآخرين ".
بالنسبة للنقطة الرئيسية في هذا الحادث ، أكثر من 2.5 مليون مرة من الزحف إلى البيانات ، أشار Xueersi إلى أن العقد نص بوضوح على أن "عدد المكالمات المدرجة في الرسوم الشهرية المضمونة هو في حدود الملايين" ، والواجهة تسمى "ينتمي إلى كلا الطرفين. النطاق الطبيعي للتعاون المنصوص عليه في العقد". في نهاية الرد ، شدد Xueersi على أنه "يحترم دائمًا حقوق الملكية الفكرية ويولي أهمية كبيرة لحماية الملكية الفكرية" ، ويتم تنفيذ جميع الإجراءات بما يتفق بدقة مع العقد ، ولكن "البيان العام لـ Penshen Composition قد تسبب بالفعل في الإضرار بسمعة Xueersi التجارية. سنحتفظ بالحق في متابعة مسؤولية انتهاك سمعتها ".
3. قضايا حقوق التأليف والنشر البيانات
فيما يتعلق بالبيانات الحالية للطرفين ، من السابق لأوانه استخلاص أي استنتاجات ، ولكن هذا يكشف أيضًا عن جانب مهم جدًا ولكن يمكن التغاضي عنه بسهولة في سوق النماذج واسعة النطاق الساخنة في الأشهر الستة الماضية: ملكية حقوق الطبع والنشر من ** بيانات تدريب الذكاء الاصطناعي **. ولهذا السبب أيضًا ، أحدث Reddit ، المعروف باسم "النسخة الأمريكية من Tieba" ، ضجة كبيرة على الإنترنت مؤخرًا.
نظرًا لمحتوى الدردشة الغني المتراكم على مر السنين على Reddit ، فقد أصبح المادة المستخدمة من قبل Google و Microsoft و OpenAI وشركات أخرى لتدريب نماذج اللغات الكبيرة. ChatGPT وغيرها من الفصائل البليغة والتي أصبحت فيما بعد شائعة في جميع أنحاء العالم ، ساهم Reddit أيضًا . ولكن الآن مع شعبية هذه المنتجات الشبيهة بـ GPT ، قال المؤسس والرئيس التنفيذي لشركة Reddit ذات مرة: ** "بيانات مجموعة Reddit قيمة للغاية ، لكننا لا نريد تقديم هذا المحتوى إلى بعض الشركات العملاقة مجانًا." * * بعد ذلك بعد التعبير عن موقفه ، أعلن موقع Stack Overflow ، وهو موقع إلكتروني آخر معروف للأسئلة والأجوبة في مجال تكنولوجيا المعلومات ، أنه يخطط لتحصيل رسوم الوصول إلى البيانات من كبار المطورين اعتبارًا من منتصف هذا العام. وقال مديرها التنفيذي أيضًا: ** "التطور الأخير لنموذج اللغة الكبيرة يستفيد أيضًا من تعزيز المجتمع ، ويجب أيضًا تعويض المجتمع عن مساهماته." **
مما لا شك فيه ، في عملية الذكاء الاصطناعي العام والنماذج الكبيرة أن تصبح أكثر وأكثر ذكاءً من الأقلية إلى الجمهور ، من خلف الكواليس إلى أمام المسرح ، لا غنى عن بيانات التدريب الضخمة. ومع ذلك ، بناءً على الأداء الحالي للعديد من الشركات ، حتى OpenAI ، الشقيق الأول الحالي ، ليس لديه حل جيد لقضية حقوق التأليف والنشر لبيانات التدريب. ليس من الصعب فهم السبب ، فالنسخة الأولى من GPT بالكاد جذبت انتباه العالم الخارجي. في ذلك الوقت ، كان الناس متشككين بشأن إمكانية تسويقها. وبطبيعة الحال ، لم يهتم أحد بمصادر البيانات وقضايا حقوق النشر. عندما يتم إطلاق ChatGPT ، ستأتي قيمة استخدام ضخمة وقيمة تجارية وازدهار اجتماعي ، وسيصبح النظام القانوني التقليدي والنموذج الاقتصادي وأفكار التنمية وما إلى ذلك على الفور مشاكل بالنسبة لك.