Tháng trước, tổ chức giáo dục nổi tiếng Xueersi tiết lộ rằng họ đang phát triển một mô hình toán học lớn MathGPT, nhằm vào những người đam mê toán học toàn cầu và các tổ chức nghiên cứu khoa học lớn, đồng thời đi bằng hai chân trong việc giải quyết vấn đề và giảng bài. Vào thời điểm đó, nhiều người cảm thấy rằng khi mô hình ngôn ngữ lớn toàn cầu mà bạn hát và tôi lên sân khấu, cuối cùng thì một mô hình lớn phiên bản khoa học cũng sẽ xuất hiện. Tuy nhiên, hơn một tháng đã trôi qua, và sự phát triển của thực tế đã đi theo một hướng khác.
Vào thứ Ba ngày 13 tuần này, công cụ viết AI "Pen Shen Composition" đã cáo buộc Xueersi truy cập và lưu trữ trái phép dữ liệu máy chủ của mình hơn 2,5 triệu lần thông qua công nghệ "trình thu thập dữ liệu", nhằm phát triển sản phẩm mới của MathGPT "Trợ lý AI của Composition". " ", và yêu cầu một nhân dân tệ.
Một, sáu năm thành tựu và một ngày cuối tuần
Penshen Composition được thành lập vào tháng 12 năm 2017. Đây là một nền tảng giáo dục sáng tác cho K12, tức là trường tiểu học trong nước đến trung học phổ thông. Nó được liên kết với Beijing Yiyilianghua Technology Co., Ltd. Mặc dù đã có tiếng nói và khái niệm về việc kết hợp AI với AI khi nó được thành lập, nhưng kỳ vọng của thị trường và hiệu suất thực tế không nóng như bây giờ và sự chú ý mà nó thu hút được rất hạn chế. Tuy nhiên, ngay cả như vậy, Penshen Composition vẫn dựa vào tính năng "sử dụng công nghệ AI để giúp người viết cải thiện khả năng viết" của mình.
Theo dữ liệu chính thức, trong sáu năm kể từ khi ra mắt, Penshen Composition đã nhận được hơn 300.000 bài luận được gửi và hơn 400.000 lượt thích và bình luận mỗi tháng. Nó đã tích lũy hàng triệu tài liệu viết luận và các bài luận đã sửa hàng tháng. Ngoài ra còn có hơn 30.000 bài báo. Sau khi ChatGPT được ra mắt vào cuối năm ngoái, Shiji Tianhong, một trong những nhà đầu tư của Penshen Composition, đã từng nói rằng ** Công nghệ "Pensus" và ChatGPT có cùng nguồn gốc và cả hai đều sử dụng thuật toán tiên tiến nhất dựa trên máy biến áp. làm công nghệ nền tảng** . Song Jiawei, người sáng lập Bishen Composition, cũng giới thiệu: "One Stroke và Two Strokes hiện có hơn 60% nhân viên R&D kỹ thuật trong nhóm. Trước khi thành lập công ty, họ đã thành lập các công ty NLP. Một số xương sống đã được tham gia sâu vào lĩnh vực NLP trong nhiều năm và tiếp tục tích lũy."
** Do đó, về tổng thể, mô hình thuật toán của PenShen Composition do công ty tự phát triển và đào tạo, và dữ liệu lớn mà nền tảng sử dụng chủ yếu được lấy từ sự tích lũy của chính nó. **Do công nghệ viết được tích lũy và hiệu quả, Penshen Composition và Xueersi đã chính thức bắt đầu hợp tác ba năm trước và ký hợp đồng với ứng dụng công cụ học tập "Tipai Pai" của Xueersi, chịu trách nhiệm chính trong việc cung cấp dịch vụ truy vấn tài liệu Sáng tác.
Tuy nhiên, với tư cách là một đối tác, Bishen Composition gần đây đã tuyên bố: Từ ngày 13 đến ngày 17 tháng 4, thành tích của nhóm chúng tôi trong sáu năm kể từ khi thành lập đã bị "Xueersi" đã hợp tác trong nhiều năm chống lưng một cách tàn nhẫn. chỉ một lần! Xueersi đã công bố MathGPT vào tháng 5 và thời điểm quá trùng hợp.
2. Lời kêu gọi của Thần Bút và câu trả lời của Tiết Nhị Tư
** Đánh giá từ tuyên bố do Weibo chính thức của Penshen Composition đưa ra, nó không có cơ chế bảo mật dữ liệu hoàn chỉnh và không có biện pháp bảo vệ chống lại "đối tác" Xueersi, dẫn đến việc Santi Yunlian (công ty con của Xueersi) Si) bị lợi dụng tin tưởng lẫn nhau. **Về vấn đề này, Bishen Composition tuyên bố rằng hành vi này rõ ràng là phớt lờ các điều khoản trong hợp đồng giữa hai bên, đồng thời vi phạm Điều 32 của "Luật bảo vệ dữ liệu" Không ăn cắp hoặc lấy dữ liệu theo những cách bất hợp pháp khác” đã vi phạm nghiêm trọng quyền dữ liệu của Bishenzuowen APP. Ngay sau đó, Penshen Composition đã tìm gặp Xueersi để xác minh, bên kia không chần chừ mà trực tiếp thừa nhận rằng nhóm thuật toán của họ đang thu thập dữ liệu và sử dụng dữ liệu đó cho mục đích riêng của họ. Do đó, Bishen Composition đã gửi thư luật sư nhưng lần này không nhận được hồi âm thực chất từ Xueersi.
"Là một công ty nhỏ hơn nhiều so với Xueersi, chúng tôi không có lựa chọn nào khác ngoài việc bảo vệ quyền lợi của chính mình thông qua các kênh hợp pháp." Tuy nhiên, Bishen Composition cũng chỉ ra trong tuyên bố rằng các luật và quy định hiện hành không có tiền lệ phán quyết "trộm cắp dữ liệu mô hình AI lớn". , nên chỉ có thể "dũng cảm đi bước đầu tiên này". Đối với việc kháng cáo thực sự của Penshen Composition, thực ra không khó: ** chỉ muốn Xueersi bồi thường một nhân dân tệ, xin lỗi công khai và xóa dữ liệu đã thu thập. **
Giải thích của Penshen Composition cho điều này là: "Dữ liệu rất có giá trị, những nỗ lực miệt mài là vô giá và việc đòi một nhân dân tệ là vì sự công bằng và công lý không thể đo lường bằng tiền. Chúng tôi hy vọng sẽ thông qua vụ kiện tụng để nói với bên kia và nói với xã hội rằng hành vi này sẽ phải trả giá. Ngành công nghiệp AI Sự phát triển của ngành công nghiệp này đòi hỏi tất cả mọi người phải làm việc cùng nhau và cùng nhau sáng tạo, thay vì thèm muốn và ăn cắp thành quả của người khác."
Đúng như bố cục bút thần đã nói, vụ kiện này chỉ đòi một nhân dân tệ nên tuyên bố này không gây được nhiều phản ứng và sự chú ý, chỉ có một số bài báo cũng là lên án Xueersi. Tuy nhiên, dù sao đó cũng là tin tức tiêu cực, Weibo chính thức của Xueersi gần đây cũng đã đăng phản hồi: “Đầu tiên, MathGPT là một mô hình lớn tự phát triển tập trung vào lĩnh vực toán học, không có bất kỳ dữ liệu nào liên quan đến thành phần; thứ hai, 'Thành phần' AI Assistant' hiện đang được phát triển. Trạng thái vẫn chưa được công bố và dịch vụ không sử dụng bất kỳ dữ liệu nào từ Penshen Composition."
Về điểm mấu chốt trong sự cố này, hơn 2,5 triệu lần thu thập dữ liệu, Xueersi chỉ ra rằng hợp đồng đã nêu rõ rằng "số lượng cuộc gọi bao gồm trong phí đảm bảo hàng tháng là hàng triệu", và giao diện được gọi là "thuộc về hai bên. Phạm vi hợp tác thông thường được quy định trong hợp đồng". Cuối phần trả lời, Xueersi nhấn mạnh rằng họ "luôn tôn trọng quyền sở hữu trí tuệ và rất coi trọng việc bảo vệ quyền sở hữu trí tuệ", và mọi hành động đều được thực hiện theo đúng hợp đồng, nhưng "tuyên bố công khai của Penshen Composition đã gây ra thiệt hại cho danh tiếng thương hiệu của Xueersi. Chúng tôi sẽ bảo lưu quyền truy cứu trách nhiệm vi phạm danh tiếng của mình."
3. Vấn đề bản quyền dữ liệu
Theo như tuyên bố hiện tại của hai bên, còn quá sớm để đưa ra bất kỳ kết luận nào, nhưng điều này cũng cho thấy một khía cạnh rất quan trọng nhưng dễ bị bỏ qua của thị trường người mẫu cỡ lớn nóng bỏng trong sáu tháng qua: quyền sở hữu bản quyền. của Dữ liệu đào tạo AI. Cũng chính vì lý do này mà Reddit, được mệnh danh là "Tieba phiên bản Mỹ" đã gây ồn ào trên Internet thời gian gần đây.
Do nội dung trò chuyện phong phú được tích lũy trong nhiều năm trên Reddit, nó đã trở thành tài liệu được Google, Microsoft, OpenAI và các công ty khác sử dụng để đào tạo các mô hình ngôn ngữ lớn. ChatGPT và các tài liệu hùng biện khác và sau đó trở nên phổ biến trên toàn thế giới, Reddit cũng góp phần . Nhưng hiện nay với sự phổ biến của các sản phẩm tương tự GPT này, nhà sáng lập kiêm CEO của Reddit đã từng nói: ** "Dữ liệu kho dữ liệu của Reddit rất có giá trị, nhưng chúng tôi không muốn cung cấp miễn phí những nội dung này cho một số công ty khổng lồ."* Sau đây Sau khi bày tỏ quan điểm của mình, Stack Overflow, một trang web hỏi đáp CNTT nổi tiếng khác, cũng thông báo rằng họ có kế hoạch thu phí truy cập dữ liệu từ các nhà phát triển lớn từ giữa năm nay, CEO của nó cũng cho biết: ** “Mô hình ngôn ngữ lớn phát triển gần đây cũng được hưởng lợi từ việc thúc đẩy cộng đồng, cộng đồng cũng phải được đền bù cho những đóng góp của mình.”*
Không còn nghi ngờ gì nữa, trong quá trình AGI và các người mẫu lớn ngày càng trở nên thông minh hơn từ thiểu số đến công chúng, từ hậu trường đến trước sân khấu, dữ liệu đào tạo khổng lồ là không thể thiếu. Tuy nhiên, đánh giá từ hiệu suất hiện tại của các công ty khác nhau, ngay cả OpenAI, người anh cả hiện tại, cũng không có giải pháp tốt cho vấn đề bản quyền dữ liệu đào tạo. Lý do không khó hiểu, phiên bản đầu tiên của GPT hầu như không thu hút được sự chú ý của thế giới bên ngoài, khi đó người ta còn hoài nghi về việc liệu nó có thể được thương mại hóa hay không, mặc nhiên không ai quan tâm đến vấn đề nguồn dữ liệu và bản quyền. Khi ChatGPT ra mắt, giá trị sử dụng, giá trị thương mại và sự bùng nổ xã hội sẽ đến rất lớn, đồng thời hệ thống pháp luật truyền thống, mô hình kinh tế, ý tưởng phát triển, v.v. sẽ ngay lập tức trở thành rắc rối cho bạn.
Bất kể điều đó có đúng hay không và kết quả cuối cùng là gì, lần này, Bishen Composition và Xueersi đã cùng nhau dàn dựng vở kịch bản quyền dữ liệu mô hình quy mô lớn đầu tiên ở Trung Quốc, đồng thời cũng mang lại một số nguồn cảm hứng cho ngành công nghiệp mô hình quy mô lớn trong nước và doanh nghiệp. Mặc dù chỉ là tranh chấp một nhân dân tệ nhưng nó có ý nghĩa rất lớn. Có lẽ khi hàng chục nghìn bộ phim truyền hình được phát hành trong tương lai, nếu chúng ta nhìn lại tuyên bố ngày nay của Penshen Composition và Xueersi, chúng ta sẽ thấy rằng đồng đô la này thực sự đã được báo trước.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Kết quả 6 năm được thu thập hơn 2,5 triệu lần trong một ngày cuối tuần, cách bảo vệ bản quyền dữ liệu trong thời đại mới
Tháng trước, tổ chức giáo dục nổi tiếng Xueersi tiết lộ rằng họ đang phát triển một mô hình toán học lớn MathGPT, nhằm vào những người đam mê toán học toàn cầu và các tổ chức nghiên cứu khoa học lớn, đồng thời đi bằng hai chân trong việc giải quyết vấn đề và giảng bài. Vào thời điểm đó, nhiều người cảm thấy rằng khi mô hình ngôn ngữ lớn toàn cầu mà bạn hát và tôi lên sân khấu, cuối cùng thì một mô hình lớn phiên bản khoa học cũng sẽ xuất hiện. Tuy nhiên, hơn một tháng đã trôi qua, và sự phát triển của thực tế đã đi theo một hướng khác.
Vào thứ Ba ngày 13 tuần này, công cụ viết AI "Pen Shen Composition" đã cáo buộc Xueersi truy cập và lưu trữ trái phép dữ liệu máy chủ của mình hơn 2,5 triệu lần thông qua công nghệ "trình thu thập dữ liệu", nhằm phát triển sản phẩm mới của MathGPT "Trợ lý AI của Composition". " ", và yêu cầu một nhân dân tệ.
Một, sáu năm thành tựu và một ngày cuối tuần
Penshen Composition được thành lập vào tháng 12 năm 2017. Đây là một nền tảng giáo dục sáng tác cho K12, tức là trường tiểu học trong nước đến trung học phổ thông. Nó được liên kết với Beijing Yiyilianghua Technology Co., Ltd. Mặc dù đã có tiếng nói và khái niệm về việc kết hợp AI với AI khi nó được thành lập, nhưng kỳ vọng của thị trường và hiệu suất thực tế không nóng như bây giờ và sự chú ý mà nó thu hút được rất hạn chế. Tuy nhiên, ngay cả như vậy, Penshen Composition vẫn dựa vào tính năng "sử dụng công nghệ AI để giúp người viết cải thiện khả năng viết" của mình.
Theo dữ liệu chính thức, trong sáu năm kể từ khi ra mắt, Penshen Composition đã nhận được hơn 300.000 bài luận được gửi và hơn 400.000 lượt thích và bình luận mỗi tháng. Nó đã tích lũy hàng triệu tài liệu viết luận và các bài luận đã sửa hàng tháng. Ngoài ra còn có hơn 30.000 bài báo. Sau khi ChatGPT được ra mắt vào cuối năm ngoái, Shiji Tianhong, một trong những nhà đầu tư của Penshen Composition, đã từng nói rằng ** Công nghệ "Pensus" và ChatGPT có cùng nguồn gốc và cả hai đều sử dụng thuật toán tiên tiến nhất dựa trên máy biến áp. làm công nghệ nền tảng** . Song Jiawei, người sáng lập Bishen Composition, cũng giới thiệu: "One Stroke và Two Strokes hiện có hơn 60% nhân viên R&D kỹ thuật trong nhóm. Trước khi thành lập công ty, họ đã thành lập các công ty NLP. Một số xương sống đã được tham gia sâu vào lĩnh vực NLP trong nhiều năm và tiếp tục tích lũy."
** Do đó, về tổng thể, mô hình thuật toán của PenShen Composition do công ty tự phát triển và đào tạo, và dữ liệu lớn mà nền tảng sử dụng chủ yếu được lấy từ sự tích lũy của chính nó. **Do công nghệ viết được tích lũy và hiệu quả, Penshen Composition và Xueersi đã chính thức bắt đầu hợp tác ba năm trước và ký hợp đồng với ứng dụng công cụ học tập "Tipai Pai" của Xueersi, chịu trách nhiệm chính trong việc cung cấp dịch vụ truy vấn tài liệu Sáng tác.
Tuy nhiên, với tư cách là một đối tác, Bishen Composition gần đây đã tuyên bố: Từ ngày 13 đến ngày 17 tháng 4, thành tích của nhóm chúng tôi trong sáu năm kể từ khi thành lập đã bị "Xueersi" đã hợp tác trong nhiều năm chống lưng một cách tàn nhẫn. chỉ một lần! Xueersi đã công bố MathGPT vào tháng 5 và thời điểm quá trùng hợp.
2. Lời kêu gọi của Thần Bút và câu trả lời của Tiết Nhị Tư
** Đánh giá từ tuyên bố do Weibo chính thức của Penshen Composition đưa ra, nó không có cơ chế bảo mật dữ liệu hoàn chỉnh và không có biện pháp bảo vệ chống lại "đối tác" Xueersi, dẫn đến việc Santi Yunlian (công ty con của Xueersi) Si) bị lợi dụng tin tưởng lẫn nhau. **Về vấn đề này, Bishen Composition tuyên bố rằng hành vi này rõ ràng là phớt lờ các điều khoản trong hợp đồng giữa hai bên, đồng thời vi phạm Điều 32 của "Luật bảo vệ dữ liệu" Không ăn cắp hoặc lấy dữ liệu theo những cách bất hợp pháp khác” đã vi phạm nghiêm trọng quyền dữ liệu của Bishenzuowen APP. Ngay sau đó, Penshen Composition đã tìm gặp Xueersi để xác minh, bên kia không chần chừ mà trực tiếp thừa nhận rằng nhóm thuật toán của họ đang thu thập dữ liệu và sử dụng dữ liệu đó cho mục đích riêng của họ. Do đó, Bishen Composition đã gửi thư luật sư nhưng lần này không nhận được hồi âm thực chất từ Xueersi.
"Là một công ty nhỏ hơn nhiều so với Xueersi, chúng tôi không có lựa chọn nào khác ngoài việc bảo vệ quyền lợi của chính mình thông qua các kênh hợp pháp." Tuy nhiên, Bishen Composition cũng chỉ ra trong tuyên bố rằng các luật và quy định hiện hành không có tiền lệ phán quyết "trộm cắp dữ liệu mô hình AI lớn". , nên chỉ có thể "dũng cảm đi bước đầu tiên này". Đối với việc kháng cáo thực sự của Penshen Composition, thực ra không khó: ** chỉ muốn Xueersi bồi thường một nhân dân tệ, xin lỗi công khai và xóa dữ liệu đã thu thập. **
Giải thích của Penshen Composition cho điều này là: "Dữ liệu rất có giá trị, những nỗ lực miệt mài là vô giá và việc đòi một nhân dân tệ là vì sự công bằng và công lý không thể đo lường bằng tiền. Chúng tôi hy vọng sẽ thông qua vụ kiện tụng để nói với bên kia và nói với xã hội rằng hành vi này sẽ phải trả giá. Ngành công nghiệp AI Sự phát triển của ngành công nghiệp này đòi hỏi tất cả mọi người phải làm việc cùng nhau và cùng nhau sáng tạo, thay vì thèm muốn và ăn cắp thành quả của người khác."
Về điểm mấu chốt trong sự cố này, hơn 2,5 triệu lần thu thập dữ liệu, Xueersi chỉ ra rằng hợp đồng đã nêu rõ rằng "số lượng cuộc gọi bao gồm trong phí đảm bảo hàng tháng là hàng triệu", và giao diện được gọi là "thuộc về hai bên. Phạm vi hợp tác thông thường được quy định trong hợp đồng". Cuối phần trả lời, Xueersi nhấn mạnh rằng họ "luôn tôn trọng quyền sở hữu trí tuệ và rất coi trọng việc bảo vệ quyền sở hữu trí tuệ", và mọi hành động đều được thực hiện theo đúng hợp đồng, nhưng "tuyên bố công khai của Penshen Composition đã gây ra thiệt hại cho danh tiếng thương hiệu của Xueersi. Chúng tôi sẽ bảo lưu quyền truy cứu trách nhiệm vi phạm danh tiếng của mình."
3. Vấn đề bản quyền dữ liệu
Theo như tuyên bố hiện tại của hai bên, còn quá sớm để đưa ra bất kỳ kết luận nào, nhưng điều này cũng cho thấy một khía cạnh rất quan trọng nhưng dễ bị bỏ qua của thị trường người mẫu cỡ lớn nóng bỏng trong sáu tháng qua: quyền sở hữu bản quyền. của Dữ liệu đào tạo AI. Cũng chính vì lý do này mà Reddit, được mệnh danh là "Tieba phiên bản Mỹ" đã gây ồn ào trên Internet thời gian gần đây.
Do nội dung trò chuyện phong phú được tích lũy trong nhiều năm trên Reddit, nó đã trở thành tài liệu được Google, Microsoft, OpenAI và các công ty khác sử dụng để đào tạo các mô hình ngôn ngữ lớn. ChatGPT và các tài liệu hùng biện khác và sau đó trở nên phổ biến trên toàn thế giới, Reddit cũng góp phần . Nhưng hiện nay với sự phổ biến của các sản phẩm tương tự GPT này, nhà sáng lập kiêm CEO của Reddit đã từng nói: ** "Dữ liệu kho dữ liệu của Reddit rất có giá trị, nhưng chúng tôi không muốn cung cấp miễn phí những nội dung này cho một số công ty khổng lồ."* Sau đây Sau khi bày tỏ quan điểm của mình, Stack Overflow, một trang web hỏi đáp CNTT nổi tiếng khác, cũng thông báo rằng họ có kế hoạch thu phí truy cập dữ liệu từ các nhà phát triển lớn từ giữa năm nay, CEO của nó cũng cho biết: ** “Mô hình ngôn ngữ lớn phát triển gần đây cũng được hưởng lợi từ việc thúc đẩy cộng đồng, cộng đồng cũng phải được đền bù cho những đóng góp của mình.”*
Không còn nghi ngờ gì nữa, trong quá trình AGI và các người mẫu lớn ngày càng trở nên thông minh hơn từ thiểu số đến công chúng, từ hậu trường đến trước sân khấu, dữ liệu đào tạo khổng lồ là không thể thiếu. Tuy nhiên, đánh giá từ hiệu suất hiện tại của các công ty khác nhau, ngay cả OpenAI, người anh cả hiện tại, cũng không có giải pháp tốt cho vấn đề bản quyền dữ liệu đào tạo. Lý do không khó hiểu, phiên bản đầu tiên của GPT hầu như không thu hút được sự chú ý của thế giới bên ngoài, khi đó người ta còn hoài nghi về việc liệu nó có thể được thương mại hóa hay không, mặc nhiên không ai quan tâm đến vấn đề nguồn dữ liệu và bản quyền. Khi ChatGPT ra mắt, giá trị sử dụng, giá trị thương mại và sự bùng nổ xã hội sẽ đến rất lớn, đồng thời hệ thống pháp luật truyền thống, mô hình kinh tế, ý tưởng phát triển, v.v. sẽ ngay lập tức trở thành rắc rối cho bạn.