Altı yıllık sonuçlar bir hafta sonunda 2,5 milyondan fazla kez tarandı, yeni çağda veri telif hakkı nasıl korunur?

Question

Geçen ay, tanınmış eğitim kurumu Xueersi, küresel matematik meraklılarını ve büyük bilimsel araştırma kurumlarını hedefleyen ve problem çözme ve ders vermede iki ayak üzerinde yürüyen büyük bir matematiksel model MathGPT geliştirdiğini açıkladı. O zamanlar birçok insan, sen ve ben küresel büyük dil modelinin şarkısını söylediğimizde, sonunda büyük modelin bilim versiyonunun geleceğini hissetti. Ancak bir aydan fazla zaman geçti ve gerçekliğin gelişimi başka bir yöne gitti.

Bu haftanın 13 Salı günü, AI yazma aracı "Pen Shen Composition", Xueersi'yi MathGPT'nin yeni ürünü "Composition AI Assistant"ı geliştirmek için "crawler" teknolojisi aracılığıyla sunucu verilerine yasa dışı bir şekilde erişmek ve sunucu verilerine 2,5 milyondan fazla kez önbelleğe almakla suçladı. " " ve bir yuan talep etti.

Bir, altı yıllık başarılar ve bir hafta sonu

Penshen Kompozisyon Aralık 2017'de kurulmuştur.K12 için yerli ilkokuldan liseye kompozisyon eğitim platformudur.Pekin Yiyilianghua Technology Co., Ltd.'ye bağlıdır. Kurulduğu dönemde AI ile AI'yı birleştirme sesleri ve konseptleri olsa da, pazar beklentileri ve fiili performans şimdi olduğu kadar sıcak değildi ve çektiği ilgi çok sınırlıydı. Ancak yine de Penshen Composition, "yazarların yazma becerilerini geliştirmelerine yardımcı olmak için yapay zeka teknolojisini kullanma" özelliğine güveniyordu.Temmuz ayında Buhuo Venture Capital'in multi-milyonluk melek yuvarlak finansmanını tamamladı.

Resmi verilere göre, lansmanından bu yana geçen altı yıl içinde Penshen Composition, her ay 300.000'den fazla makale gönderimi ve 400.000'den fazla beğeni ve yorum aldı. Her ay milyonlarca deneme materyali ve düzeltilmiş makale biriktirdi. 30.000 makale. ChatGPT'nin geçen yılın sonunda piyasaya sürülmesinden sonra, Penshen Composition'ın yatırımcılarından biri olan Shiji Tianhong, bir keresinde "Pensus" ve ChatGPT teknolojisinin aynı kökene sahip olduğunu ve her ikisinin de trafoya dayalı en gelişmiş algoritmayı kullandığını söylemişti. temel teknoloji olarak . Bishen Composition'ın kurucusu Song Jiawei de şunları söyledi: "Tek vuruş ve iki vuruş şu anda ekipteki teknik Ar-Ge personelinin %60'ından fazlasına sahip. Şirketin kuruluşundan önce NLP şirketleri kurdular. NLP alanıyla uzun yıllardır derinden ilgileniyor ve birikmeye devam ediyor."

** Bu nedenle, genel olarak, PenShen Composition'ın algoritma modeli şirket tarafından kendi kendine geliştirilmiş ve eğitilmiştir ve platformun kullandığı büyük veriler büyük ölçüde kendi birikiminden elde edilir. **Yazıda birikmiş ve verimli teknoloji nedeniyle Penshen Composition ve Xueersi, üç yıl önce resmi olarak bir işbirliği başlattı ve Xueersi'nin ağırlıklı olarak Kompozisyon materyali sorgulama hizmeti sağlamaktan sorumlu olan öğrenme aracı uygulaması "Tipai Pai" ile bir sözleşme imzaladı.

Bununla birlikte, bir ortak olarak, Bishen Composition yakın zamanda şunları söyledi: 13-17 Nisan tarihleri arasında, ekibimizin kuruluşumuzdan bu yana geçen altı yıldaki başarıları, uzun yıllardır işbirliği yapan "Xueersi" tarafından acımasızca arkadan bıçaklandı. sadece bir kere! Xueersi, MathGPT'yi Mayıs ayında duyurdu ve zamanlama çok tesadüfi.

2. Tanrı'nın Çağrısını ve Xue Ersi'nin Yanıtını Yazın

** Penshen Composition'ın resmi Weibo'su tarafından yayınlanan açıklamaya bakılırsa, tam bir veri güvenliği mekanizmasına sahip değil ve Santi Yunlian (Xueersi) Si yan kuruluşuna yol açan "ortağı" Xueersi'ye karşı hiçbir savunması yok) avantaj sağladı birbirimizin güveninden. **Bu bağlamda Bishen Composition, bu davranışın iki taraf arasındaki sözleşme şartlarını açıkça yok saydığını ve ayrıca "Verilerin Korunması Kanunu"nun 32. Diğer yasa dışı yollarla veri çalma veya elde etme” ifadesi, Bishenzuowen APP'nin veri haklarını ciddi şekilde ihlal etmiştir. Hemen ardından Penshen Composition doğrulama için Xueersi'yi buldu ve diğer taraf oyalanmadı ve doğrudan algoritma ekibinin verileri taradığını ve kendi kullanımları için kullandığını kabul etti. Bu nedenle, Bishen Composition bir avukat mektubu gönderdi, ancak bu kez Xueersi'den esaslı bir yanıt almadı.

"Xueersi'den çok daha küçük bir şirket olarak, kendi haklarımızı yasal kanallar aracılığıyla korumaktan başka seçeneğimiz yok." Ancak Bishen Composition, açıklamasında mevcut yasa ve düzenlemelerin "AI büyük model veri hırsızlığı" hükmüne emsal teşkil etmediğine de işaret etti. , bu yüzden ancak "bu ilk adımı cesurca atabilir". Penshen Composition'ın asıl temyiz başvurusuna gelince, aslında zor değil: ** Xueersi'nin tazminat olarak yalnızca bir yuan ödemesini, herkesin önünde özür dilemesini ve taranan verileri silmesini istiyor. **

Penshen Kompozisyon'un buna ilişkin açıklaması şöyle: "Veriler değerlidir, özenli çabalar paha biçilemez ve bir yuan için talep, çünkü adalet ve adalet parayla ölçülemez. Karşı tarafa dava yoluyla anlatmayı ve topluma bu davranışın yanlış olduğunu söylemeyi umuyoruz. bir bedel ödemek zorunda kalacak. AI endüstrisi Endüstrinin gelişimi, başkalarının başarılarına göz dikmek ve onlardan çalmak yerine herkesin birlikte çalışmasını ve birlikte yaratmasını gerektiriyor."

Kalem tanrısı kompozisyonunun dediği gibi, bu dava sadece bir yuan talep etti, bu nedenle açıklama fazla tepki ve ilgi uyandırmadı ve sadece birkaç makale de Xueersi'yi kınadı. Bununla birlikte, sonuçta olumsuz bir haber, Xueersi'nin resmi Weibo'su da yakın zamanda bir yanıt yayınladı: "Her şeyden önce, MathGPT, matematik alanına odaklanan, kompozisyonla ilgili herhangi bir veri içermeyen, kendi geliştirdiği büyük bir modeldir; ikincisi, 'Composition AI Assistant' şu anda geliştirme aşamasında. Durum henüz yayınlanmadı ve hizmet Penshen Composition'dan herhangi bir veri kullanmıyor."

Xueersi, bu olaydaki kilit nokta olan 2,5 milyondan fazla kez veri taramasına gelince, sözleşmede "aylık garantili ücrete dahil olan arama sayısının milyonlar mertebesinde olduğunu" açıkça belirttiğine ve arayüz olarak adlandırılan arayüze dikkat çekti. "her iki tarafa aittir. Sözleşmede öngörülen işbirliğinin normal kapsamı". Yanıtın sonunda Xueersi, "fikri mülkiyet haklarına her zaman saygı duyduğunu ve fikri mülkiyet korumasına büyük önem verdiğini" ve tüm eylemlerin sözleşmeye sıkı sıkıya bağlı olarak gerçekleştirildiğini, ancak "Penshen Bileşiminin kamuoyu açıklamasının zaten neden olduğunu vurguladı. Xueersi'nin marka itibarına zarar. İtibar ihlali sorumluluğunu takip etme hakkımızı saklı tutacağız."

3. Veri telif hakkı sorunları

İki tarafın mevcut açıklamaları söz konusu olduğunda, herhangi bir sonuca varmak için henüz çok erken, ancak bu aynı zamanda son altı aydaki sıcak büyük ölçekli model pazarının çok önemli ancak kolayca gözden kaçan bir yönünü de ortaya koyuyor: telif hakkı mülkiyeti AI eğitim verileri. "Tieba'nın ABD versiyonu" olarak bilinen Reddit'in son zamanlarda internette çok ses getirmesi de bu nedenledir.

Reddit'te yıllar içinde biriken zengin sohbet içeriği nedeniyle Google, Microsoft, OpenAI ve diğer şirketler tarafından büyük dil modellerini eğitmek için kullanılan materyal haline geldi.ChatGPT ve diğer güzel sözler ve daha sonra tüm dünyada popüler hale geldi, Reddit de katkıda bulundu . Ancak şimdi bu GPT benzeri ürünlerin popülaritesi ile Reddit'in kurucusu ve CEO'su bir keresinde şöyle demişti: ** "Reddit'in külliyat verileri çok değerli, ancak bu içeriği bazı dev şirketlere ücretsiz olarak sağlamak istemiyoruz."* Bunun ardından, bir başka tanınmış BT soru-cevap sitesi Stack Overflow da bu yılın ortasından itibaren büyük geliştiricilerden veri erişim ücreti almayı planladığını duyurdu ve CEO'su da şunları söyledi: ** "Büyük dil modelinin son gelişimi, topluluğun teşvikinden de yararlanıyor, topluluğun katkıları için de tazmin edilmesi gerekiyor."*

AGI ve büyük modellerin azınlıktan halka, perde arkasından sahne önüne kadar giderek daha akıllı hale gelmesi sürecinde, kuşkusuz, büyük eğitim verileri vazgeçilmezdir. Bununla birlikte, çeşitli şirketlerin mevcut performansına bakılırsa, şu anki ilk kardeş olan OpenAI bile eğitim verilerinin telif hakkı sorununa iyi bir çözüm getirememiştir. Sebebini anlamak zor değil.GPT'nin ilk versiyonu dış dünyanın pek ilgisini çekmemişti.O zamanlar insanlar bunun ticarileştirilip satılamayacağından şüphe duyuyorlardı.Doğal olarak kimse veri kaynakları ve telif hakkı konularını umursamadı. ChatGPT piyasaya sürüldüğünde, büyük kullanım değeri, ticari değer ve sosyal yükseliş gelecek ve geleneksel hukuk sistemi, ekonomik model, kalkınma fikirleri vb.

Doğru olup olmadığına ve nihai sonucun ne olduğuna bakılmaksızın, bu sefer Bishen Composition ve Xueersi, Çin'deki ilk büyük ölçekli model veri telif hakkı dramasını ortaklaşa sahnelediler ve ayrıca yerel büyük ölçekli model endüstrisine biraz ilham getirdiler. işletmeler. Sadece bir yuanlık bir anlaşmazlık olmasına rağmen, büyük önem taşıyor. Belki de gelecekte on binlerce dizi vizyona girdiğinde, Penshen Composition ve Xueersi'nin bugünkü açıklamasına dönüp bakarsak, bu doların gerçekten ileri görüşlü olduğunu göreceğiz.

View Original