"Mencuri" data, sisi gelap model besar AI

2023-06-19 05:20:03

Sumber asli:

Sumber gambar: Dihasilkan oleh AI Tak Terbatas

Sebuah perusahaan rintisan bernama "satu pukulan dua pukulan" secara terbuka mengecam mantan pemimpin pendidikan dan pelatihan "Xueersi", dengan mengatakan bahwa mereka "mencuri" data yang telah bekerja sangat keras untuk diselamatkan dengan "mengikis database".

Asal usul ceritanya adalah bahwa pada pertengahan April tahun ini, "Pen Shen Composition" (produk dari Strike Two Strike Company) menemukan bahwa ada sejumlah besar akses abnormal reguler ke antarmuka server, yang mengakibatkan peningkatan pesat dalam beban di server.

Jumlah kunjungan jauh melebihi rata-rata harian. Komposisi Bishen mengungkapkan kepada Deep AI bahwa kunjungan harian biasa sekitar beberapa ratus atau beberapa ribu, tetapi dalam beberapa hari itu meningkat menjadi lebih dari 500.000 per hari. Dalam seminggu, data mereka dirayapi 2,58 juta kali.

Panggilan basis data diterbitkan oleh Komposisi Penshen

Dengan berkonsultasi dengan log server, Pen God Composition menemukan bahwa satu IP merayapi basis data mereka dengan kepadatan tinggi melalui teknologi "perayap". Kata pencarian untuk setiap kunjungan IP ini terkait dengan komposisi, dan sistem akan mengembalikan 30 komposisi per halaman Setiap kunjungan menggunakan kata pencarian untuk kembali dari halaman pertama halaman demi halaman, pada dasarnya mengumpulkan topik yang sama di perpustakaan .Semua komposisi telah ditangkap.

Menurut orang dalam industri, dalam keadaan normal, pengguna biasa tidak akan melakukan ini. **Akses gaya pencarian ke database semacam ini juga dikenal sebagai "scraping the library". **

Komposisi Penshen percaya bahwa manipulator di belakang layar "Paku" adalah rekannya Xueersi.

Tidak lama setelah insiden "Perpustakaan Parkir", Komposisi Penshen menemukan bahwa Xueersi sedang mengembangkan model matematika besar MathGPT, dan mengatakan akan meluncurkan "asisten AI" dalam waktu dekat, salah satunya adalah komposisi.

Tidak ada kesimpulan pasti tentang apakah ada hubungan antara dua insiden Komposisi Penshen yang "diambil" dan Hexueersi mengembangkan "Asisten AI Komposisi".

Tetapi Komposisi Bishen percaya bahwa haknya telah dilanggar. Itu mengirim surat pengacara ke pihak lain dan mengumumkan masalah itu, mencoba mendapatkan penjelasan. Xueersi memberikan tanggapan publik, mengatakan bahwa penggunaan konten materi Penshen memenuhi persyaratan kontrak, dan bahwa model MathGPT yang dikembangkan sendiri dan "asisten AI komposisi" tidak menggunakan data apa pun dari komposisi Penshen.

Dalam kejadian ini, bukan hanya materi komposisi yang patut dibahas. Apa arti data untuk model besar?

** Mitra menjadi barbar di gerbang? **

Kedua belah pihak bersikeras pada pendapat mereka sendiri

Mari kita perkenalkan secara singkat komposisi dewa pena.

Perusahaan ini didirikan pada tahun 2017. Produk "Pen God" adalah perangkat lunak penulisan dengan bantuan kecerdasan buatan, yang dapat dianggap sebagai produk pendidikan AI+. Pada awalnya, "Dewa Pena" berorientasi pada platform pembuatan konten dan produsen alat terkait, dan kemudian masuk jauh ke bidang vertikal, menggunakan AI untuk mengajari siswa menulis esai, jadi ada "Komposisi Dewa Pena".

Anda dapat dengan mudah memahami: ini ada di industri pendidikan, ditujukan untuk kelompok siswa, menggunakan teknologi kecerdasan buatan, dan menyelesaikan adegan penulisan esai.

Tulisan AI memiliki banyak kesamaan dengan ChatGPT yang populer saat ini. Semuanya melibatkan teknologi seperti pemrosesan bahasa alami, analisis dan prediksi semantik, dan pembelajaran mesin. Song Jiawei, pendiri Komposisi Penshen, menjabat sebagai arsitek sistem senior untuk Sony dan CTO Singulato.

Sejak lima tahun lalu, Song Jiawei mengatakan bahwa dia sedang mempertimbangkan bagaimana menerapkan teknologi model bahasa pra-terlatih seperti bert atau GPT-2 ke aplikasi. Saat itu, GPT belum keluar dari lingkarannya, dan belum setenar sekarang ini.

Setelah mulai membuat komposisi AI, Komposisi Penshen secara resmi memasuki jalur pendidikan, melangkah ke sungai yang sama dengan Xueersi, pemimpin pendidikan dan pelatihan.

Menurut pengenalan Penshen, pada Desember 2020, Komposisi Penshen dan Xueersi mencapai kerja sama. ** Komposisi Penshen memberi Xueersi "Antarmuka Layanan Bahan Esai Model Komposisi Benshen", yang digunakan dalam layanan terkait Xueersi, dan biayanya diselesaikan sesuai dengan jumlah panggilan. Untuk alasan ini, Komposisi Penshen telah membuka antarmuka layanan untuk Xueersi. **

Dengan kata lain, Xueersi dapat menggunakan bahan komposisi di database Komposisi Penshen dan membayarnya.

Bahan komposisi adalah aset inti dalam transaksi ini dan landasan model bisnis Komposisi Penshen. Padahal, Komposisi Dewa Pena dimulai dari titik materi paling awal. Ini menampilkan fungsi "pencarian materi sekali klik" saat itu. Pengguna dapat mencari kata kunci, dan sistem dapat mencocokkan materi secara otomatis. Sumber daya berkisar dari puisi klasik kuno, dokumen resmi, hingga artikel web modern. Selama proses penulisan, sistem juga dapat mendorong materi secara real time.

Bahan-bahan ini bukan dari Internet, tetapi dari database Penshen sendiri. Melalui identifikasi cerdas, terjemahan, dan pencocokan teknologi AI, Penshen dapat memberi umpan balik materi yang sesuai dengan perilaku pencarian pengguna.

Ketika jumlah bahan komposisi ini cukup besar, kualitasnya cukup tinggi, dan pencocokannya cukup akurat, maka akan memiliki nilai komersial tertentu bahkan dapat dijual ke luar. Inilah alasan kerja sama dengan Xueersi.

Masalahnya adalah bahan-bahan ini berisiko "dicuri", terutama jika beberapa antarmuka dibuka.

Menurut pengenalan Deep AI dalam komposisi penshen, mereka membatasi ruang lingkup kerja sama dengan Xueersi, "Kami membuka antarmuka untuk memungkinkan mereka memanggil data kami dan menampilkannya di APP mereka sendiri, tetapi kontrak tidak termasuk penyimpanan data. Atau izin untuk algoritme AI. Data seharusnya hanya tersedia untuk penggunanya, tidak disimpan di mesinnya."

Ini setara dengan, **Ketika pengguna memulai pencarian di sisi produk Xueersi, templat komposisi yang dipanggil berasal dari Komposisi Penshen, dan Xueersi tidak dapat menyimpannya dengan sendirinya. **

Panggilan abnormal pada pertengahan April membuat Pen God Composition berpikir bahwa itu di luar jangkauan kerja sama bisnis normal. "Tindakan mereka memicu mekanisme pertahanan kami, yang membuat kami menemukan ini."

Bishen Zuowen menyatakan bahwa mereka memeriksa log akses di latar belakang dan menemukan bahwa akses ilegal dimulai oleh satu IP melalui teknologi "perayap". "Kami sudah memiliki alamat IP ini."

Alamat IP yang diterbitkan oleh Komposisi Penshen (Bagian)

Liu Ran, CEO perusahaan rintisan kecerdasan buatan dalam negeri, menganalisis Deep AI.Metode pencacahan kata kunci yang lengkap ini harus untuk mendapatkan data di perpustakaan.Ini adalah perilaku yang sangat jelas.

Komposisi Penshen mengungkapkan kepada Deep AI bahwa setelah insiden tersebut, mereka memverifikasi dengan staf operasi Xueersi, dan pihak lain secara langsung mengakui bahwa tim algoritme Xueersi sedang merayapi data dan menggunakannya untuk penggunaan mereka sendiri. Namun untuk pernyataan ini, Deep AI belum dikonfirmasi oleh Xueersi.

Mantan rekannya tiba-tiba berubah menjadi barbar di depan pintu, yang membuat Bishen Composition sangat marah dan mengirimkan surat pengacara berkali-kali.

Xueersi mengatakan dalam tanggapan publiknya pada 13 Juni bahwa panggilannya ke antarmuka komposisi Penshen tidak melebihi ruang lingkup kontrak antara kedua pihak, dan penggunaan konten materi Penshen mematuhi persyaratan kontrak, dan tidak digunakan untuk apa pun. selain kontrak, untuk tujuan apapun. Xueersi secara khusus menekankan bahwa model besar MathGPT yang dikembangkan sendiri dan "asisten AI komposisi" tidak menggunakan data apa pun dari Komposisi Penshen.

Kedua belah pihak bersikeras pada pendapat mereka sendiri, dan belum ada kesimpulan. Menurut artikel Pen God, kasus ini mungkin menjadi "kasus pertama pencurian data model skala besar AI".

Pertanyaan yang perlu ditelusuri adalah apa arti data untuk model besar?

Dari mana data berasal adalah masalah besar

Daya komputasi, algoritme, dan data adalah tiga elemen inti kecerdasan buatan untuk pembelajaran mesin.

Demi meningkatkan daya komputasi, banyak perusahaan teknologi yang mengeluarkan banyak uang untuk merebut GPU Nvidia. Di sisi algoritme, beberapa perusahaan besar di dalam dan luar negeri telah menjadikan algoritme open source, yang sangat mengurangi ambang batas pengembangan model.

Di sisi data, hambatan selalu ada. Di mana menemukan data berkualitas tinggi adalah masalah utama.

Model AI generatif besar perlu menggunakan data beragam dalam jumlah besar untuk pelatihan guna meningkatkan kemampuan generalisasi dan pembuatan model. Model yang berbeda mungkin menggunakan sumber data yang berbeda. Model besar umum seperti ChatGPT menggunakan banyak data publik, seperti berbagai situs web berita, buku, makalah ilmiah, halaman web, dll. Untuk model besar di beberapa bidang vertikal, perlu untuk menemukan korpora dan kumpulan data yang ditargetkan.

Penanggung jawab model skala besar dari perusahaan teknologi terkemuka domestik mengatakan kepada Deep AI bahwa ChatGPT sebenarnya menggunakan banyak data non-publik, dan banyak data publik di Internet berkualitas sangat buruk, dan ada ambang batas untuk data berkualitas tinggi. Akuisisi dan pembersihan data menghadapi tantangan besar. **

CTO TAL Tian Mi secara terbuka menyatakan pada tanggal 4 Mei, "Banyak bidang memiliki hambatan data dan pengetahuan industri, dan model besar masih perlu diintegrasikan secara mendalam dengan pengetahuan domain, ditambah data domain yang cukup untuk melatih pakar domain. Model. "

Seperti yang dikatakan Tian Mi, model domain besar harus sangat terintegrasi dengan pengetahuan domain. Di bidang komposisi AI, bahan komposisi merupakan data penting untuk mesin pelatihan.

Pada awal 2019, Penshen Company mulai mengumpulkan data dengan sengaja dan melatih korpus komposisinya sendiri, yang meliputi kutipan terkenal, puisi, dokumen resmi, bahasa Internet, dll. Mereka menggunakan metode mesin pelatihan untuk mensimulasikan label manual untuk memberi label pada setiap korpus.

Dalam korpus vertikal, hanya ketika data diberi tag, dorongan konten yang akurat dapat dilakukan berdasarkan pencocokan vektor, analisis semantik, dan prediksi pembuatan konten pengguna saat ini.

Liu Ran memberi tahu Deep AI bahwa membangun model membutuhkan banyak data terverifikasi, dan jika data tersebut telah disortir, ini dapat menghemat banyak pekerjaan manusia. Komposisi yang diatur oleh Komposisi Penshen dapat digunakan sebagai data yang ditandai.

Proses ini terus menerus dan panjang. Komposisi Bishen mengatakan bahwa dalam enam tahun sejak didirikan, mereka telah mengumpulkan lebih dari 5 juta bahan komposisi secara total, dan volume koreksi bulanan melebihi 30.000. Bahan komposisi ini ditinjau secara manual, disaring dan diserahkan, diberi label, dinilai, dan data dikoreksi, dan akhirnya diakumulasikan.

Data ini tidak hanya dapat disajikan dalam bentuk materi di halaman APP, tetapi juga dapat digunakan untuk melatih algoritme di latar belakang. Oleh karena itu, ketika bekerja sama dengan perusahaan lain untuk membuka antarmuka, Komposisi Penshen telah menambahkan artikel khusus dalam perjanjian-tidak ada "caching, penyimpanan, perhitungan, dan pelatihan sebagai korpus".

Komposisi Bishen percaya bahwa Xueersi telah "mencuri" data, dan berspekulasi bahwa Xueersi menggunakan data untuk pelatihan dan pengembangan model matematika besar MathGPT dan mesin pembelajaran Xueersi "Asisten AI Komposisi". Tapi sepertinya sulit dibuktikan.

Liu Ran percaya bahwa biasanya, data komposisi harus memiliki beberapa batasan yang ditetapkan sebelumnya, seperti tidak menerima konkurensi tinggi, mengenkripsi data, dan harus memungkinkan untuk melacak keberadaan dan penggunaan data. Namun, dia juga yakin bahwa data komposisi tidak sepenting data perilaku kunci pengguna.

"Anda dapat membiarkan AI mempelajari komposisi yang baik, dan kemudian membiarkannya menghasilkan sesuai dengan standar ini. Tapi menurut saya tidak banyak data yang benar-benar diperlukan. Puluhan ribu komposisi berkualitas tinggi sudah cukup," katanya. .

"Kasus Pertama Pencurian Data Model Besar AI",

**Bisakah kamu berdiri? **

Komposisi Penshen mengambil sikap keras, dan mengeluarkan dua pengumuman berturut-turut, menuntut permintaan maaf dari Xueersi, dan pada saat yang sama menuntut kompensasi sebesar 1 yuan. Ia bahkan ingin melabeli insiden ini sebagai "kasus pertama pencurian data model besar AI".

Pengacara Liu Honglin, direktur Firma Hukum Shanghai Mankiw, mengatakan kepada Deep AI bahwa korpus atau perpustakaan materi yang dibuat sendiri oleh Bishen Composition sendiri memiliki hak kekayaan intelektual. Namun, apakah sebuah karya di bawah Undang-Undang Hak Cipta bergantung pada apakah keasliannya memenuhi kriteria yang relevan.

"Jika Penshen Composition memiliki cukup bukti untuk membuktikan bahwa Xueersi telah dengan jahat mengambil data mereka, maka hal itu dapat memicu pelanggaran kekayaan intelektual atau gugatan persaingan tidak sehat." Dia berkata.

Selain itu, Komposisi Bishen memiliki perjanjian kerja sama dengan Xueersi, jika penghormatan dan otorisasi hak kekayaan intelektual disepakati, mereka juga dapat melindungi hak dan kepentingannya melalui pelanggaran kontrak.

Perlu dicatat bahwa banyak komposisi di Perpustakaan Bahan Komposisi Penshen dikirimkan oleh pengguna. Pen God Composition mengklaim menerima 300.000 kiriman esai setiap bulan. Oleh karena itu, sebelum menentukan apakah itu merupakan pelanggaran, perlu untuk mengklarifikasi hak kekayaan intelektual dari materi tersebut.

Menurut analisis Liu Honglin, tergantung bagaimana pencipta (kontributor) esai dan komposisi penshen menyepakati hak kekayaan intelektual. Jika pengguna mengesahkan hak kekayaan intelektual Komposisi Penshen pada saat penyerahan, maka Komposisi Penshen akan menikmati hak dan kepentingan yang sesuai.

Deep AI menanyakan tentang perjanjian layanan pengguna Komposisi Pen God, dan menemukan bahwa ada klausul seperti itu: konten yang diterbitkan oleh pengguna dalam Komposisi Pen God (termasuk tetapi tidak terbatas pada komentar, komentar, catatan), memberikan Komposisi Pen God a lisensi non-eksklusif yang gratis dan tidak dapat dibatalkan.

Dengan kata lain, Komposisi Penshen memiliki hak kekayaan intelektual atas perpustakaan materi.

Apa yang tidak diketahui oleh Liu Ran adalah mengapa Komposisi Bishen bekerja sama dengan Xueersi. "Jika itu saya, saya pasti tidak akan bekerja sama dengan Xueersi, karena kami berada dalam hubungan kompetitif yang kuat." Dia percaya, "Di era model besar, tidak ada kesempatan untuk hanya menyediakan database komposisi. "

Menurut analisis orang dalam industri, Xueersi memiliki lalu lintas, adegan, dan popularitas, terutama dalam hal produk front-end yang berorientasi pada pengguna, Xueersi memiliki keunggulan lebih besar daripada Komposisi Pen God. Namun, pekerjaan mengumpulkan data dan membangun perpustakaan bahan di bagian belakang memakan waktu dan tenaga, dan sulit untuk melihat hasilnya dalam jangka pendek. Untuk Xueersi, paling nyaman untuk langsung mengakses perpustakaan materi yang sudah jadi. Komposisi Penshen mencapai monetisasi komersial dengan menjual akses ke perpustakaan materi.

Namun bagi perusahaan rintisan seperti Pen God Composition, kerja sama tersebut seperti bunga mawar yang berduri. Karena raksasa China dapat memasuki wilayah Anda kapan saja, bahkan membentuk persaingan langsung di tingkat bisnis. **

Komposisi koreksi AI adalah fungsi yang sangat penting dari Komposisi Penshen. Sejak tiga tahun lalu, TAL (perusahaan induk Xueersi) juga meluncurkan "Solusi Koreksi Komposisi China dan Inggris", yang mewujudkan koreksi komposisi cerdas China dan Inggris melalui AI.

Sekarang, modifikasi komposisi AI hanyalah puncak gunung es dari matriks produk AI besar TAL. Dalam pengenalan produk terbarunya, koreksi komposisi bahasa Mandarin adalah modul koreksi dikte bahasa Mandarin dan Inggris. TAL memiliki ambisi yang lebih besar, dan tentakelnya telah meluas ke semua aspek pendidikan AI+.

Setelah ChatGPT menjadi populer dengan AI generatif, pengusaha di industri kecerdasan buatan menjadi bersemangat sekaligus cemas. Mereka senang bahwa industri ini akhirnya menjadi panas lagi; mereka cemas karena ChatGPT terlalu kuat, dan banyak proyek wirausaha di bidang vertikal telah kehilangan hambatannya dalam semalam.

Untuk perusahaan seperti Pen God Composition, di mana hambatan persaingan dan bagaimana menghadapi raksasa adalah masalah yang sangat nyata. Percepatan involusi industri kecerdasan buatan dan intensifikasi persaingan homogen akan meningkatkan konfrontasi antara perusahaan rintisan dan raksasa.

Meraih data mungkin hanya menjadi puncak gunung es di babak baru kompetisi.

Lihat Asli

Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#BTC#
222k postingan
#PI#
186k postingan
#ETH#
141k postingan
4#GateioInto11#
79k postingan
5#ContentStar#
66k postingan
6#GT#
62k postingan
7#BOME#
60k postingan
8#DOGE#
57k postingan
9#MAGA#
52k postingan
10#SLERF#
51k postingan

Sematkan

peta situs