มีการรวบรวมข้อมูลผลลัพธ์ 6 ปีมากกว่า 2.5 ล้านครั้งในหนึ่งสัปดาห์ วิธีการปกป้องลิขสิทธิ์ข้อมูลในยุคใหม่

2023-06-16 01:41:40

เมื่อเดือนที่แล้ว Xueersi สถาบันการศึกษาที่มีชื่อเสียงเปิดเผยว่ากำลังพัฒนาแบบจำลองทางคณิตศาสตร์ขนาดใหญ่ MathGPT ซึ่งมุ่งเป้าไปที่ผู้ที่ชื่นชอบคณิตศาสตร์ทั่วโลกและสถาบันการวิจัยทางวิทยาศาสตร์ที่สำคัญ และเดินสองขาในการแก้ปัญหาและการบรรยาย ในเวลานั้น หลายคนรู้สึกว่าเมื่อนางแบบภาษาใหญ่ระดับโลกที่คุณร้องเพลงและฉันขึ้นมาบนเวที ในที่สุด นางแบบใหญ่ในเวอร์ชันวิทยาศาสตร์ก็มา อย่างไรก็ตามเวลาผ่านไปกว่าหนึ่งเดือนและการพัฒนาของความเป็นจริงก็ไปในทิศทางอื่น

ในวันอังคารที่ 13 ของสัปดาห์นี้ เครื่องมือเขียน AI "Pen Shen Composition" กล่าวหาว่า Xueersi เข้าถึงและแคชข้อมูลเซิร์ฟเวอร์ของตนอย่างผิดกฎหมายมากกว่า 2.5 ล้านครั้งผ่านเทคโนโลยี "ซอฟต์แวร์รวบรวมข้อมูล" เพื่อพัฒนาผลิตภัณฑ์ใหม่ของ MathGPT "ผู้ช่วย AI องค์ประกอบ " " และอ้างสิทธิ์หนึ่งหยวน

หนึ่งหกปีแห่งความสำเร็จและวันหยุดสุดสัปดาห์

Penshen Composition ก่อตั้งขึ้นในเดือนธันวาคม 2017 เป็นแพลตฟอร์มการศึกษาการประพันธ์เพลงสำหรับ K12 นั่นคือโรงเรียนประถมในประเทศจนถึงมัธยมปลาย เป็นบริษัทในเครือของ Beijing Yiyilianghua Technology Co., Ltd. แม้ว่าจะมีเสียงและแนวคิดในการรวม AI เข้ากับ AI เมื่อก่อตั้งขึ้น แต่ความคาดหวังของตลาดและประสิทธิภาพที่แท้จริงนั้นไม่ร้อนแรงเหมือนตอนนี้ และความสนใจที่ดึงดูดได้นั้นมีจำกัดมาก อย่างไรก็ตาม ถึงกระนั้น Penshen Composition ก็ยังอาศัยฟีเจอร์ "การใช้เทคโนโลยี AI เพื่อช่วยให้นักเขียนพัฒนาความสามารถในการเขียน" เสร็จสิ้นการระดมทุนรอบเทวดาหลายล้านครั้งของ Buhuo Venture Capital ในเดือนกรกฎาคม

ตามข้อมูลอย่างเป็นทางการ ในช่วง 6 ปีนับตั้งแต่เปิดตัว Penshen Composition ได้รับการส่งเรียงความมากกว่า 300,000 รายการ กดไลค์และแสดงความคิดเห็นมากกว่า 400,000 รายการทุกเดือน มีเนื้อหาเรียงความหลายล้านรายการและแก้ไขเรียงความทุกเดือน นอกจากนี้ยังมีมากกว่า 30,000 บทความ หลังจากที่ ChatGPT เปิดตัวเมื่อปลายปีที่แล้ว Shiji Tianhong หนึ่งในนักลงทุนของ Penshen Composition เคยกล่าวไว้ว่า เทคโนโลยี "Pensus" และ ChatGPT มีต้นกำเนิดเดียวกัน และทั้งคู่ใช้อัลกอริทึมขั้นสูงสุดที่อิงจากหม้อแปลงไฟฟ้า เป็นเทคโนโลยีพื้นฐาน Song Jiawei ผู้ก่อตั้ง Bishen Composition ยังแนะนำด้วยว่า: "ปัจจุบันหนึ่งจังหวะและสองจังหวะมีบุคลากร R&D ด้านเทคนิคมากกว่า 60% ในทีม ก่อนที่จะก่อตั้งบริษัท พวกเขาได้ก่อตั้งบริษัท NLP กระดูกสันหลังบางส่วนได้รับการ คลุกคลีในวงการ NLP มานานหลายปีและสั่งสมมาอย่างต่อเนื่อง"

** ดังนั้น โดยรวมแล้ว โมเดลอัลกอริทึมของ PenShen Composition จึงได้รับการพัฒนาและฝึกอบรมด้วยตนเองโดยบริษัท และข้อมูลขนาดใหญ่ที่ใช้โดยแพลตฟอร์มนั้นส่วนใหญ่มาจากการสะสมของตัวเอง **เนื่องจากเทคโนโลยีที่สั่งสมมาและประสบความสำเร็จในการเขียน Penshen Composition และ Xueersi จึงเปิดตัวความร่วมมืออย่างเป็นทางการเมื่อ 3 ปีที่แล้ว และลงนามในสัญญากับแอปเครื่องมือการเรียนรู้ของ Xueersi "Tipai Pai" ซึ่งรับผิดชอบหลักในการให้บริการสอบถามเนื้อหาเกี่ยวกับองค์ประกอบ

อย่างไรก็ตาม ในฐานะหุ้นส่วน Bishen Composition กล่าวเมื่อเร็วๆ นี้: ตั้งแต่วันที่ 13 ถึง 17 เมษายน ความสำเร็จของทีมของเราในช่วงหกปีนับตั้งแต่ก่อตั้งของเราถูกแทงข้างหลังอย่างไร้ความปราณีโดย "Xueersi" ที่ให้ความร่วมมือมาหลายปี รวบรวมข้อมูลมากกว่า 2.5 ล้านครั้งใน แค่ครั้งเดียว! Xueersi ประกาศ MathGPT ในเดือนพฤษภาคม และเวลานั้นบังเอิญเกินไป

2. การอุทธรณ์ของพระเจ้าด้วยปากกาและการตอบสนองของ Xue Ersi

** ตัดสินจากแถลงการณ์ที่ออกโดย Weibo อย่างเป็นทางการของ Penshen Composition ไม่มีกลไกการรักษาความปลอดภัยข้อมูลที่สมบูรณ์ และไม่มีการป้องกัน Xueersi "พันธมิตร" ซึ่งทำให้ Santi Yunlian (Xueersi) Si ในเครือ) เอาเปรียบ ความไว้เนื้อเชื่อใจซึ่งกันและกัน **ในเรื่องนี้ Bishen Composition ระบุว่าพฤติกรรมนี้เป็นการเพิกเฉยต่อเงื่อนไขของสัญญาระหว่างทั้งสองฝ่ายอย่างเห็นได้ชัด และยังละเมิดมาตรา 32 ของ "กฎหมายคุ้มครองข้อมูล" "องค์กรหรือบุคคลที่เก็บรวบรวมข้อมูลใดๆ จะต้องนำมาใช้ให้ถูกต้องตามกฎหมายและเหมาะสม วิธีการ ห้ามขโมยหรือรับข้อมูลด้วยวิธีที่ผิดกฎหมายอื่น ๆ” ได้ละเมิดสิทธิ์ข้อมูลของ Bishenzuowen APP อย่างร้ายแรง ทันทีหลังจากนั้น Penshen Composition พบ Xueersi เพื่อทำการตรวจสอบ และอีกฝ่ายก็ไม่ผัดวันประกันพรุ่ง และยอมรับโดยตรงว่าทีมอัลกอริทึมของพวกเขากำลังรวบรวมข้อมูลและนำไปใช้ประโยชน์เอง ดังนั้น Bishen Composition จึงส่งจดหมายของทนายความ แต่คราวนี้ไม่ได้รับการตอบกลับที่เป็นสาระสำคัญจาก Xueersi

"ในฐานะบริษัทที่เล็กกว่า 'Xueersi' มาก เราไม่มีทางเลือกอื่นนอกจากปกป้องสิทธิ์ของเราผ่านช่องทางกฎหมาย" อย่างไรก็ตาม Bishen Composition ยังชี้ให้เห็นในแถลงการณ์ว่ากฎหมายและข้อบังคับในปัจจุบันไม่ "ขโมยข้อมูลแบบจำลองขนาดใหญ่ของ AI" "คำพิพากษาแบบอย่าง จึงทำได้เพียง "ก้าวแรกนี้อย่างกล้าหาญ" สำหรับการอุทธรณ์จริงของ Penshen Composition นั้นไม่ใช่เรื่องยาก: ** เพียงต้องการให้ Xueersi จ่ายเงินชดเชยหนึ่งหยวน ขอโทษต่อสาธารณะ และลบข้อมูลที่รวบรวมข้อมูล **

คำอธิบายของ Penshen Composition สำหรับเรื่องนี้คือ: "ข้อมูลมีค่า ความพยายามอย่างอุตสาหะนั้นประเมินค่าไม่ได้ และการเรียกร้องเงิน 1 หยวนเป็นเพราะความยุติธรรมและความยุติธรรมไม่สามารถวัดได้ด้วยเงิน เราหวังว่าจะบอกอีกฝ่ายผ่านการดำเนินคดีและบอกสังคมว่าพฤติกรรมนี้ จะต้องจ่ายราคา อุตสาหกรรม AI การพัฒนาอุตสาหกรรมต้องการให้ทุกคนทำงานร่วมกันและสร้างสรรค์ร่วมกันแทนที่จะโลภและลอกเลียนแบบความสำเร็จของผู้อื่น"

เช่นเดียวกับที่องค์ประกอบเทพแห่งปากกากล่าวไว้ คดีนี้เรียกค่าเสียหายเพียง 1 หยวน ดังนั้นคำแถลงดังกล่าวจึงไม่ได้กระตุ้นการตอบสนองและความสนใจมากนัก และบทความเพียงไม่กี่บทความก็ประณาม Xueersi ด้วย อย่างไรก็ตาม เป็นข่าวเชิงลบ Weibo ทางการของ Xueersi ได้โพสต์คำตอบเมื่อเร็วๆ นี้ว่า “ก่อนอื่น MathGPT เป็นโมเดลขนาดใหญ่ที่พัฒนาขึ้นเองโดยเน้นที่สาขาคณิตศาสตร์ โดยไม่มีข้อมูลที่เกี่ยวข้องกับการจัดองค์ประกอบ ประการที่สอง 'องค์ประกอบ AI Assistant' กำลังอยู่ในระหว่างการพัฒนา สถานะยังไม่ได้รับการเผยแพร่ และบริการไม่ได้ใช้ข้อมูลใด ๆ จากองค์ประกอบ Penshen"

สำหรับประเด็นสำคัญในเหตุการณ์นี้ มีการรวบรวมข้อมูลมากกว่า 2.5 ล้านครั้ง Xueersi ชี้ให้เห็นว่าสัญญาระบุไว้อย่างชัดเจนว่า "จำนวนการโทรที่รวมอยู่ในค่าบริการรับประกันรายเดือนอยู่ที่ลำดับที่ล้าน" และอินเทอร์เฟซที่เรียกว่า "เป็นของทั้งสองฝ่าย ขอบเขตความร่วมมือตามปกติที่ระบุไว้ในสัญญา" ในตอนท้ายของการตอบสนอง Xueersi เน้นย้ำว่า "เคารพสิทธิ์ในทรัพย์สินทางปัญญาเสมอและให้ความสำคัญอย่างยิ่งต่อการคุ้มครองทรัพย์สินทางปัญญา" และการดำเนินการทั้งหมดจะดำเนินการอย่างเคร่งครัดตามสัญญา แต่ "คำแถลงสาธารณะของ Penshen Composition ได้ก่อให้เกิด สร้างความเสียหายต่อชื่อเสียงของแบรนด์ Xueersi เราจะขอสงวนสิทธิ์ในการรับผิดชอบต่อการละเมิดชื่อเสียง"

3. ปัญหาลิขสิทธิ์ข้อมูล

เท่าที่คำแถลงปัจจุบันของทั้งสองฝ่ายเกี่ยวข้อง ยังเร็วเกินไปที่จะสรุปผลใดๆ แต่สิ่งนี้ยังเผยให้เห็นแง่มุมที่สำคัญมากแต่มองข้ามได้ง่ายของตลาดโมเดลขนาดใหญ่ที่ร้อนแรงในช่วง 6 เดือนที่ผ่านมา นั่นคือความเป็นเจ้าของลิขสิทธิ์ ของ **ข้อมูลการฝึกอบรม AI ** ด้วยเหตุนี้ Reddit หรือที่รู้จักในชื่อ "Tieba เวอร์ชั่นอเมริกา" จึงสร้างกระแสฮือฮาบนอินเทอร์เน็ตเมื่อไม่นานมานี้

เนื่องจากเนื้อหาแชทมากมายที่สะสมมานานหลายปีบน Reddit จึงกลายเป็นเนื้อหาที่ Google, Microsoft, OpenAI และบริษัทอื่นๆ ใช้ในการฝึกโมเดลภาษาขนาดใหญ่ ChatGPT และฝีปากอื่นๆ และต่อมาก็กลายเป็นที่นิยมทั่วโลก Reddit ยังมีส่วนร่วม . แต่ด้วยความนิยมของผลิตภัณฑ์ที่คล้าย GPT เหล่านี้ ผู้ก่อตั้งและ CEO ของ Reddit เคยกล่าวไว้ว่า ** "ข้อมูลคลังข้อมูลของ Reddit มีค่ามาก แต่เราไม่ต้องการให้เนื้อหาเหล่านี้แก่บริษัทยักษ์ใหญ่บางแห่งฟรี"* ต่อไปนี้ หลังจากแสดงจุดยืนแล้ว Stack Overflow ซึ่งเป็นเว็บไซต์ถาม-ตอบด้านไอทีชื่อดังอีกแห่งก็ประกาศว่ามีแผนจะเรียกเก็บค่าธรรมเนียมการเข้าถึงข้อมูลจากนักพัฒนารายใหญ่ตั้งแต่กลางปีนี้ นอกจากนี้ CEO ยังกล่าวว่า: ** "การพัฒนาล่าสุดของโมเดลภาษาขนาดใหญ่ยังได้รับประโยชน์จากการส่งเสริมของชุมชน ชุมชนจะต้องได้รับการชดเชยสำหรับการมีส่วนร่วมด้วย"*

ไม่ต้องสงสัยเลยว่า ในกระบวนการของ AGI และโมเดลขนาดใหญ่ที่ฉลาดขึ้นเรื่อย ๆ จากชนกลุ่มน้อยสู่สาธารณะ จากเบื้องหลังไปจนถึงเบื้องหน้า ข้อมูลการฝึกอบรมจำนวนมหาศาลเป็นสิ่งที่ขาดไม่ได้ อย่างไรก็ตาม เมื่อพิจารณาจากผลการดำเนินงานของบริษัทต่างๆ ในปัจจุบัน แม้แต่ OpenAI ซึ่งเป็นพี่ชายคนแรกในปัจจุบัน ก็ไม่มีวิธีแก้ปัญหาที่ดีในปัญหาลิขสิทธิ์ของข้อมูลการฝึกอบรม เหตุผลนั้นเข้าใจได้ไม่ยาก GPT เวอร์ชันแรกๆ แทบไม่ได้รับความสนใจจากโลกภายนอก ในเวลานั้น ผู้คนต่างสงสัยว่าจะทำการค้าได้หรือไม่ โดยธรรมชาติ ไม่มีใครสนใจเกี่ยวกับแหล่งข้อมูลและปัญหาลิขสิทธิ์ เมื่อ ChatGPT เปิดตัว มูลค่าการใช้งานมูลค่ามหาศาล มูลค่าการค้า และการยกระดับทางสังคมจะเกิดขึ้น และระบบกฎหมายแบบดั้งเดิม รูปแบบเศรษฐกิจ แนวคิดการพัฒนา ฯลฯ จะกลายเป็นปัญหาสำหรับคุณทันที

ไม่ว่ามันจะเป็นเรื่องจริงหรือไม่และผลสุดท้ายจะเป็นอย่างไร ครั้งนี้ Bishen Composition และ Xueersi ร่วมกันจัดแสดงละครลิขสิทธิ์ข้อมูลแบบจำลองขนาดใหญ่ครั้งแรกในประเทศจีน และยังนำแรงบันดาลใจมาสู่อุตสาหกรรมแบบจำลองขนาดใหญ่ในประเทศและ วิสาหกิจ แม้ว่าจะเป็นเพียงข้อพิพาทหนึ่งหยวน แต่ก็มีความสำคัญอย่างยิ่ง บางทีเมื่อละครหลายหมื่นเรื่องออกฉายในอนาคต หากเรามองย้อนกลับไปที่แถลงการณ์ของ Penshen Composition และ Xueersi ในวันนี้ เราจะพบว่าเงินดอลลาร์นี้มีความเที่ยงธรรมจริงๆ

ดูต้นฉบับ

เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม

รางวัล
ถูกใจ
แสดงความคิดเห็น
แชร์

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น

หัวข้อถ่ายทอดสด
#BTC#
222k โพสต์
#PI#
186k โพสต์
#ETH#
141k โพสต์
4#GateioInto11#
79k โพสต์
5#ContentStar#
66k โพสต์
6#GT#
62k โพสต์
7#BOME#
60k โพสต์
8#DOGE#
57k โพสต์
9#MAGA#
52k โพสต์
10#SLERF#
51k โพสต์

ปักหมุด

แผนผังเว็บไซต์