“Đánh cắp” dữ liệu, mặt tối của các mô hình AI lớn

2023-06-19 05:20:03

Nguồn chính thức:

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Một công ty mới thành lập được gọi là "một nét hai nét" đã công khai tố cáo cựu lãnh đạo giáo dục và đào tạo "Xueersi", nói rằng họ đã "đánh cắp" dữ liệu mà họ đã dày công cứu bằng cách "xóa cơ sở dữ liệu".

Nguồn gốc của câu chuyện là vào giữa tháng 4 năm nay, "Bút thần sáng tác" (một sản phẩm của Công ty Strike Two Strike) phát hiện ra rằng có một số lượng lớn truy cập bất thường thường xuyên vào giao diện máy chủ, dẫn đến sự gia tăng nhanh chóng. trong tải trên máy chủ.

Số lượt truy cập vượt xa mức trung bình hàng ngày. Bishen Composition tiết lộ với Deep AI rằng lượt truy cập thông thường hàng ngày là khoảng vài trăm hoặc vài nghìn, nhưng trong vài ngày đó, con số này đã tăng lên hơn 500.000 lượt mỗi ngày. Trong vòng một tuần, dữ liệu của họ đã được thu thập 2,58 triệu lần.

Các cuộc gọi cơ sở dữ liệu được xuất bản bởi Penshen Composition

Bằng cách tham khảo nhật ký máy chủ, Pen God Composition nhận thấy rằng một IP duy nhất đã thu thập dữ liệu cơ sở dữ liệu của họ với mật độ cao thông qua công nghệ "trình thu thập thông tin". Các từ tìm kiếm cho mỗi lần truy cập IP này có liên quan đến sáng tác và hệ thống sẽ trả về 30 sáng tác trên mỗi trang, mỗi lượt truy cập sử dụng các từ tìm kiếm để quay lại từ trang đầu tiên từng trang, về cơ bản thu thập cùng một chủ đề trong thư viện .Tất cả các tác phẩm đã được chụp.

Theo những người trong ngành, trong những trường hợp bình thường, người dùng bình thường sẽ không làm điều này. ** Kiểu truy cập cơ sở dữ liệu theo kiểu tìm kiếm này còn được gọi là "xóa thư viện". **

Penshen Composition tin rằng kẻ thao túng hậu trường của "Paku" chính là đối tác Xueersi của nó.

Không lâu sau sự cố "Thư viện đỗ xe", Penshen Composition phát hiện ra rằng Xueersi đang phát triển một mô hình toán học lớn MathGPT và nói rằng họ sẽ ra mắt một "trợ lý AI" trong tương lai gần, một trong số đó là sáng tác.

Không có kết luận chắc chắn về việc liệu có bất kỳ mối liên hệ nào giữa hai sự việc Penshen Composition được "nhặt" và Hexueersi phát triển "Trợ lý AI của Composition".

Nhưng Bishen Composition tin rằng các quyền của họ đã bị vi phạm. Nó đã gửi một lá thư của luật sư cho bên kia và công khai vấn đề, cố gắng nhận được một lời giải thích. Xueersi đã đưa ra phản hồi công khai, nói rằng việc sử dụng nội dung tài liệu của Penshen tuân thủ các yêu cầu của hợp đồng và mô hình MathGPT do họ tự phát triển cũng như "trợ lý sáng tác AI" không sử dụng bất kỳ dữ liệu nào từ sáng tác của Penshen.

Trong sự việc này, không chỉ chất liệu sáng tác mới là điều đáng bàn. Dữ liệu có ý nghĩa gì đối với các mô hình lớn?

**Đối tác biến man rợ ở cổng? **

Cả hai bên đều khẳng định ý kiến của mình

Trước hết hãy giới thiệu đôi nét về sáng tác của cây bút thần.

Công ty này được thành lập vào năm 2017. Sản phẩm "Bút thần" là một phần mềm hỗ trợ viết bằng trí tuệ nhân tạo, có thể coi là sản phẩm của AI+giáo dục. Lúc đầu, "Bút thần" hướng đến các nền tảng sáng tạo nội dung và các nhà sản xuất công cụ liên quan, sau này đi sâu vào lĩnh vực dọc, sử dụng AI để dạy học sinh viết luận nên đã có "Bút thần sáng tác".

Bạn có thể hiểu đơn giản: nó thuộc ngành giáo dục, nó hướng đến đối tượng là học sinh, nó sử dụng công nghệ trí tuệ nhân tạo, và nó giải quyết được cảnh viết luận.

AI viết có rất nhiều điểm chung với ChatGPT phổ biến hiện nay. Tất cả chúng đều liên quan đến các công nghệ như xử lý ngôn ngữ tự nhiên, phân tích và dự đoán ngữ nghĩa cũng như học máy. Song Jiawei, người sáng lập Penshen Composition, đã từng là kiến trúc sư hệ thống cấp cao của Sony và CTO của Singulato.

Ngay từ 5 năm trước, Song Jiawei đã nói rằng anh ấy đang xem xét cách áp dụng các công nghệ mô hình ngôn ngữ được đào tạo trước như bert hoặc GPT-2 cho các ứng dụng. Vào thời điểm đó, GPT vẫn chưa nằm ngoài vòng tròn và chưa nổi tiếng như ngày nay.

Sau khi bắt đầu sáng tác AI, Penshen Composition chính thức bước vào con đường giáo dục, bước vào cùng một dòng sông với Xueersi, nhà lãnh đạo giáo dục và đào tạo.

Theo lời giới thiệu của Penshen, vào tháng 12 năm 2020, Penshen Composition và Xueersi đã đạt được sự hợp tác. ** Penshen Composition cung cấp cho Xueersi "Giao diện dịch vụ tài liệu viết luận theo mô hình sáng tác Benshen", được sử dụng trong các dịch vụ liên quan đến Xueersi và phí được thanh toán theo số lượng cuộc gọi. Vì lý do này, Penshen Composition đã mở ra một giao diện dịch vụ cho Xueersi. **

Nói cách khác, Xueersi có thể sử dụng các tài liệu sáng tác trong cơ sở dữ liệu Sáng tác Penshen và trả tiền cho chúng.

Nguyên liệu sáng tác là tài sản cốt lõi trong giao dịch này và là nền tảng của mô hình kinh doanh của Penshen Composition. Trên thực tế, sáng tác của Bút thần bắt đầu sớm nhất từ điểm chất liệu. Hồi đó nó có chức năng "tìm kiếm tài liệu bằng một cú nhấp chuột". Người dùng có thể tìm kiếm từ khóa và hệ thống có thể tự động khớp tài liệu. Nguồn tài nguyên bao gồm từ kinh điển thơ cổ, tài liệu chính thức, cho đến các bài viết trên web hiện đại. Trong quá trình viết, hệ thống cũng có thể đẩy tài liệu theo thời gian thực.

Những tài liệu này không phải từ Internet, mà từ cơ sở dữ liệu riêng của Penshen. Thông qua nhận dạng, dịch thuật và đối sánh thông minh của công nghệ AI, Penshen có thể phản hồi các tài liệu phù hợp với hành vi tìm kiếm của người dùng.

Khi số lượng các vật liệu tổng hợp này đủ lớn, chất lượng đủ cao và độ khớp đủ chính xác, nó sẽ có giá trị thương mại nhất định và thậm chí có thể được bán ra bên ngoài. Đây là lý do hợp tác với Xueersi.

Vấn đề là những tài liệu này có nguy cơ bị "đánh cắp", đặc biệt nếu một số giao diện được mở.

Theo phần giới thiệu Deep AI trong thành phần penshen, họ đã giới hạn phạm vi hợp tác với Xueersi, "Chúng tôi mở giao diện để cho phép họ gọi dữ liệu của chúng tôi và hiển thị dữ liệu đó trong APP của riêng họ, nhưng hợp đồng không bao gồm dữ liệu lưu trữ. Hoặc quyền cho các thuật toán AI. Dữ liệu chỉ nên có sẵn cho người dùng của họ, không được lưu trữ trên máy của họ."

Nó tương đương với, **Khi người dùng bắt đầu tìm kiếm ở phía sản phẩm của Xueersi, mẫu sáng tác được gọi đến từ Penshen Composition và Xueersi không thể tự lưu trữ nó. **

Cuộc gọi bất thường vào giữa tháng 4 khiến Pen God Composition cho rằng nó đã vượt quá phạm vi hợp tác kinh doanh thông thường. "Hành động của họ đã kích hoạt cơ chế phòng thủ của chúng tôi, khiến chúng tôi phát hiện ra điều này."

Bishen Zuowen tuyên bố rằng họ đã kiểm tra nhật ký truy cập ở chế độ nền và nhận thấy rằng hoạt động truy cập bất hợp pháp được bắt đầu bởi một IP duy nhất thông qua công nghệ "trình thu thập thông tin". "Chúng tôi đã có địa chỉ IP này."

Địa chỉ IP được xuất bản bởi Penshen Composition (Part)

Liu Ran, Giám đốc điều hành của một công ty khởi nghiệp trí tuệ nhân tạo trong nước, đã phân tích Deep AI, phương pháp liệt kê cặn kẽ các từ khóa này phải là để lấy dữ liệu trong thư viện, đây là một hành vi rất rõ ràng.

Penshen Composition tiết lộ với Deep AI rằng sau sự cố, họ đã xác minh với nhân viên vận hành của Xueersi và bên kia đã trực tiếp thừa nhận rằng nhóm thuật toán của Xueersi đang thu thập dữ liệu và sử dụng dữ liệu đó cho mục đích riêng của họ. Tuy nhiên, về tuyên bố này, Deep AI vẫn chưa được Xueersi xác nhận.

Đối tác cũ đột nhiên biến thành kẻ man rợ trước cửa, khiến Bishen Composition rất tức giận và nhiều lần gửi thư cho luật sư.

Xueersi cho biết trong phản hồi công khai vào ngày 13 tháng 6 rằng việc gọi giao diện sáng tác của Penshen không vượt quá phạm vi hợp đồng giữa hai bên và việc sử dụng nội dung tài liệu của Penshen tuân thủ các yêu cầu của hợp đồng và không được sử dụng cho bất kỳ mục đích gì khác với hợp đồng, cho bất kỳ mục đích nào. Xueersi đặc biệt nhấn mạnh rằng mô hình lớn MathGPT và "trợ lý AI sáng tác" do họ tự phát triển không sử dụng bất kỳ dữ liệu nào từ Penshen Composition.

Hai bên khăng khăng giữ quan điểm của mình, và vẫn chưa có kết luận. Theo bài báo của Thần Bút, trường hợp này có thể trở thành "trường hợp đầu tiên AI bị đánh cắp dữ liệu mô hình quy mô lớn".

Một câu hỏi đáng để khám phá là dữ liệu có ý nghĩa gì đối với các mô hình lớn?

Dữ liệu đến từ đâu là một vấn đề lớn

Sức mạnh điện toán, thuật toán và dữ liệu là ba yếu tố cốt lõi của trí tuệ nhân tạo cho máy học.

Nhằm cải thiện sức mạnh tính toán, nhiều hãng công nghệ đang chi rất nhiều tiền để giật lấy GPU của Nvidia. Về mặt thuật toán, một số công ty lớn trong và ngoài nước đã tạo ra thuật toán mã nguồn mở, giúp giảm đáng kể ngưỡng phát triển mô hình.

Về mặt dữ liệu, các rào cản luôn tồn tại. Nơi để tìm dữ liệu chất lượng cao là một vấn đề quan trọng.

Các mô hình AI tổng quát lớn cần sử dụng một lượng lớn dữ liệu đa dạng để đào tạo nhằm cải thiện khả năng tổng quát hóa và tạo của mô hình. Các mô hình khác nhau có thể sử dụng các nguồn dữ liệu khác nhau. Các mô hình lớn nói chung như ChatGPT sử dụng nhiều dữ liệu công khai, chẳng hạn như các trang web tin tức khác nhau, sách, bài báo khoa học, trang web, v.v. Đối với các mô hình lớn trong một số trường dọc, cần phải tìm tập dữ liệu và tập dữ liệu được nhắm mục tiêu.

Người phụ trách mô hình quy mô lớn của một công ty công nghệ hàng đầu trong nước nói với Deep AI rằng ChatGPT thực sự sử dụng rất nhiều dữ liệu không công khai và nhiều dữ liệu công khai trên Internet có chất lượng rất kém, và có một ngưỡng cho dữ liệu chất lượng cao. Việc thu thập và làm sạch dữ liệu đang đối mặt với những thách thức lớn. **

CTO Tian Mi của TAL đã tuyên bố công khai vào ngày 4 tháng 5, "Nhiều lĩnh vực có rào cản dữ liệu và bí quyết công nghiệp, đồng thời các mô hình lớn vẫn cần được tích hợp sâu với kiến thức miền, cộng với đủ dữ liệu miền để đào tạo chuyên gia miền. Model. "

Như Tian Mi đã nói, mô hình miền lớn nên được tích hợp sâu với kiến thức miền. Trong lĩnh vực sáng tác AI, tài liệu sáng tác là dữ liệu quan trọng cho máy đào tạo.

Ngay từ năm 2019, Penshen đã bắt đầu thu thập dữ liệu có mục đích để đào tạo kho ngữ liệu sáng tác của riêng mình, bao gồm các câu trích dẫn nổi tiếng, bài thơ, tài liệu chính thức và ngôn ngữ trực tuyến. Họ sử dụng phương pháp huấn luyện máy mô phỏng nhãn thủ công để dán nhãn cho từng ngữ liệu.

Trong kho văn bản dọc, chỉ khi dữ liệu được gắn thẻ, việc đẩy nội dung chính xác mới có thể được thực hiện dựa trên khớp vectơ, phân tích ngữ nghĩa và dự đoán quá trình tạo nội dung hiện tại của người dùng.

Liu Ran nói với Deep AI rằng việc xây dựng một mô hình cần rất nhiều dữ liệu đã được xác minh và nếu dữ liệu đã được sắp xếp, nó có thể tiết kiệm rất nhiều công sức của con người. Các tác phẩm do Penshen Composition tổ chức có thể được sử dụng làm dữ liệu được đánh dấu.

Quá trình này diễn ra liên tục và lâu dài. Bishen Composition cho biết trong sáu năm kể từ khi thành lập, họ đã tích lũy được tổng cộng hơn 5 triệu tài liệu sáng tác và khối lượng chỉnh sửa hàng tháng vượt quá 30.000. Các tài liệu tổng hợp này được xem xét, sàng lọc và gửi theo cách thủ công, được dán nhãn, phân loại và sửa dữ liệu và cuối cùng là tích lũy.

Những dữ liệu này không chỉ có thể được trình bày dưới dạng tài liệu trên trang APP mà còn được sử dụng để đào tạo các thuật toán trong nền. Do đó, khi hợp tác với các công ty khác để mở giao diện, Penshen Composition đã thêm một điều khoản đặc biệt vào thỏa thuận-không có "bộ nhớ đệm, lưu trữ, tính toán và đào tạo dưới dạng văn bản".

Bishen Composition tin rằng Xueersi đã "đánh cắp" dữ liệu và suy đoán rằng Xueersi sử dụng dữ liệu để đào tạo và phát triển mô hình toán học lớn MathGPT và máy học Xueersi "Trợ lý AI của Composition". Nhưng điều đó có vẻ khó chứng minh.

Liu Ran tin rằng thông thường, dữ liệu thành phần nên có một số hạn chế được đặt trước, chẳng hạn như không chấp nhận tính đồng thời cao, mã hóa dữ liệu và có thể theo dõi vị trí cũng như cách sử dụng dữ liệu. Tuy nhiên, ông cũng tin rằng dữ liệu thành phần không quan trọng bằng dữ liệu hành vi chính của người dùng.

"Bạn có thể để AI học thế nào là một bố cục tốt, sau đó để nó tạo ra theo các tiêu chuẩn này. Nhưng tôi không nghĩ rằng thực sự cần nhiều dữ liệu như vậy. Hàng chục nghìn bố cục chất lượng cao là đủ." .

"Trường hợp đầu tiên về hành vi trộm cắp dữ liệu mô hình lớn AI",

**Bạn đứng dậy được không? **

Penshen Composition tỏ thái độ cứng rắn, liên tiếp đưa ra hai thông báo, yêu cầu Xueersi xin lỗi, đồng thời đòi bồi thường 1 nhân dân tệ. Nó thậm chí còn muốn gọi vụ việc này là "trường hợp đầu tiên AI đánh cắp dữ liệu mô hình lớn".

Luật sư Liu Honglin, Giám đốc Công ty Luật Mankiw Thượng Hải, nói với Deep AI rằng kho ngữ liệu hoặc thư viện tài liệu tự xây dựng của Bishen Composition có quyền sở hữu trí tuệ. Tuy nhiên, việc đó có phải là một tác phẩm theo Luật Bản quyền hay không phụ thuộc vào việc tính nguyên gốc có đáp ứng các tiêu chí liên quan hay không.

"Nếu Penshen Composition có đủ bằng chứng để chứng minh rằng Xueersi đã lấy dữ liệu của họ một cách ác ý, thì nó có thể khởi xướng một vụ kiện vi phạm quyền sở hữu trí tuệ hoặc cạnh tranh không lành mạnh." Ông nói.

Ngoài ra, Bishen Composition có thỏa thuận hợp tác với Xueersi, nếu đồng ý tôn trọng và ủy quyền quyền sở hữu trí tuệ, họ cũng có thể bảo vệ quyền và lợi ích của mình thông qua việc vi phạm hợp đồng.

Điều đáng chú ý là nhiều sáng tác trong Thư viện tài liệu sáng tác Penshen được gửi bởi người dùng. Pen God Composition tuyên bố rằng họ nhận được 300.000 bài luận mỗi tháng. Vì vậy, trước khi xác định đó có phải là hành vi xâm phạm hay không, cần phải làm rõ quyền sở hữu trí tuệ đối với các tài liệu này.

Theo phân tích của Liu Honglin, điều đó phụ thuộc vào việc người sáng tạo (người đóng góp) bài luận và tác giả penshen đồng ý như thế nào về quyền sở hữu trí tuệ. Nếu người dùng ủy quyền quyền sở hữu trí tuệ của Penshen Composition tại thời điểm gửi, thì Penshen Composition sẽ được hưởng các quyền và lợi ích tương ứng.

Deep AI đã hỏi về thỏa thuận dịch vụ người dùng của Bố cục Thần bút và phát hiện ra rằng có một điều khoản như vậy: nội dung do người dùng xuất bản trong Bố cục Thần bút (bao gồm nhưng không giới hạn ở nhận xét, bình luận, ghi chú), cấp cho Bố cục Thần bút giấy phép không độc quyền miễn phí và không thể thu hồi.

Nói cách khác, Penshen Composition sở hữu quyền sở hữu trí tuệ đối với thư viện tài liệu.

Điều mà Liu Ran không thể hiểu được là tại sao Bishen Composition lại hợp tác với Xueersi. "Nếu là tôi, tôi chắc chắn sẽ không hợp tác với Xueersi, bởi vì chúng tôi đang có mối quan hệ cạnh tranh gay gắt." Anh ấy tin rằng, "Trong thời đại của những người mẫu lớn, không có cơ hội chỉ cung cấp cơ sở dữ liệu sáng tác. "

Theo phân tích của những người trong ngành, Xueersi có lưu lượng truy cập, bối cảnh và mức độ phổ biến, đặc biệt là về các sản phẩm đầu cuối hướng đến người dùng, Xueersi có lợi thế lớn hơn Bố cục thần bút. Tuy nhiên, công việc thu thập dữ liệu và xây dựng thư viện vật liệu ở phía sau tốn nhiều thời gian và công sức, khó thấy được kết quả trong thời gian ngắn. Đối với Xueersi, truy cập trực tiếp vào thư viện tài liệu làm sẵn là thuận tiện nhất. Penshen Composition đạt được khả năng kiếm tiền thương mại bằng cách bán quyền truy cập vào thư viện tài liệu.

Nhưng đối với một công ty mới thành lập như Pen God Composition, sự hợp tác như vậy giống như một bông hồng có gai. Bởi vì những gã khổng lồ Trung Quốc có thể xâm nhập lãnh thổ của bạn bất cứ lúc nào và thậm chí hình thành sự cạnh tranh trực tiếp ở cấp độ kinh doanh. **

AI hiệu chỉnh bố cục là một chức năng rất quan trọng của Bố cục Penshen. Ngay từ ba năm trước, TAL (công ty mẹ của Xueersi) cũng đã tung ra "Giải pháp sửa lỗi sáng tác tiếng Trung và tiếng Anh", giải pháp này đã thực hiện việc sửa lỗi sáng tác tiếng Trung và tiếng Anh thông minh thông qua AI.

Giờ đây, việc sửa đổi thành phần AI chỉ là phần nổi của tảng băng chìm trong ma trận sản phẩm AI khổng lồ của TAL. Trong phần giới thiệu sản phẩm mới nhất của mình, tính năng sửa lỗi sáng tác tiếng Trung là một mô-đun sửa lỗi chính tả tiếng Trung và tiếng Anh. TAL có tham vọng lớn hơn và các xúc tu của nó đã mở rộng sang tất cả các khía cạnh của giáo dục AI+.

Sau khi ChatGPT trở nên phổ biến với AI sáng tạo, các doanh nhân trong ngành trí tuệ nhân tạo vừa vui mừng vừa lo lắng. Họ vui mừng vì ngành này cuối cùng cũng nóng trở lại; họ lo lắng rằng ChatGPT quá mạnh và nhiều dự án khởi nghiệp trong các lĩnh vực dọc đã đánh mất rào cản chỉ sau một đêm.

Đối với một công ty như Pen God Composition, đâu là rào cản cạnh tranh và làm thế nào để đối đầu với những người khổng lồ là những vấn đề rất thực tế. Sự phát triển nhanh chóng của ngành công nghiệp trí tuệ nhân tạo và sự cạnh tranh đồng nhất ngày càng gay gắt sẽ làm leo thang cuộc đối đầu giữa các công ty khởi nghiệp và những người khổng lồ.

Lấy dữ liệu có thể chỉ là phần nổi của tảng băng chìm trong một vòng cạnh tranh mới.

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#BTC#
222k Trạng thái
#PI#
186k Trạng thái
#ETH#
141k Trạng thái
4#GateioInto11#
79k Trạng thái
5#ContentStar#
66k Trạng thái
6#GT#
62k Trạng thái
7#BOME#
60k Trạng thái
8#DOGE#
57k Trạng thái
9#MAGA#
52k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web