Görsel kaynağı: Unbounded AI tarafından oluşturuldu
"Bir vuruş iki vuruş" adlı bir yeni şirket, eski eğitim ve öğretim lideri "Xueersi"yi alenen kınadı ve kurtarmak için çok uğraştığı verileri "veritabanını kazıyarak" "çaldığını" söyledi.
Hikayenin kaynağı, bu yıl Nisan ortasında, "Pen Shen Composition" (Strike Two Strike Company'nin bir ürünü), sunucu arayüzüne çok sayıda düzenli anormal erişim olduğunu ve bunun da hızlı bir artışa neden olduğunu tespit etmesidir. sunucudaki yükte.
Ziyaret sayısı günlük ortalamanın çok üzerinde. Bishen Composition, Deep AI'ya olağan günlük ziyaretlerin yaklaşık birkaç yüz veya birkaç bin olduğunu, ancak o birkaç gün içinde günde 500.000'in üzerine çıktığını açıkladı. Bir hafta içinde verileri 2,58 milyon kez tarandı.
Penshen Composition tarafından yayınlanan veritabanı aramaları
Pen God Composition, sunucu günlüklerine başvurarak, tek bir IP'nin veritabanlarını "gezgin" teknolojisi aracılığıyla yüksek yoğunlukta taradığını buldu. Bu IP'nin her ziyareti için arama kelimeleri kompozisyonla ilişkilidir ve sistem sayfa başına 30 kompozisyon döndürür.Her ziyaret, arama kelimelerini ilk sayfadan sayfa sayfa geri dönmek için kullanır, temel olarak aynı konuyu kütüphanede toplar. .Tüm kompozisyonlar yakalanmıştır.
Sektördeki kaynaklara göre normal şartlar altında sıradan kullanıcılar bunu yapmayacak. **Veritabanına bu tür arama tarzı erişim, "kütüphaneyi kazıma" olarak da bilinir. **
Penshen Composition, "Paku"nun perde arkası manipülatörünün ortağı Xueersi olduğuna inanıyor.
"Park Kütüphanesi" olayından kısa bir süre sonra Penshen Composition, Xueersi'nin büyük bir matematiksel model MathGPT geliştirdiğini fark etti ve yakın gelecekte bir "AI asistanı" başlatacağını söyledi, bunlardan biri kompozisyon.
Penshen Composition'ın "alınması" ve Hexueersi'nin "Composition AI Asistanı" geliştirmesiyle ilgili iki olay arasında herhangi bir bağlantı olup olmadığına dair kesin bir sonuç yok.
Ancak Bishen Composition, haklarının ihlal edildiğine inanıyor. Karşı tarafa bir avukat mektubu göndererek konuyu kamuoyuna açıkladı ve bir açıklama almaya çalıştı. Xueersi, Penshen'in materyal içeriğinin kullanımının sözleşme gerekliliklerine uygun olduğunu ve kendi geliştirdiği MathGPT modelinin ve "kompozisyon AI asistanının" Penshen'in kompozisyonundan herhangi bir veri kullanmadığını söyleyerek halka açık bir yanıt verdi.
Bu olayda, tartışılmaya değer olan sadece kompozisyon malzemesi değildir. Büyük modeller için veriler ne anlama geliyor?
**Ortak kapıda barbar mı oldu? **
Her iki taraf da kendi görüşlerinde ısrarlıdır
Önce kalem tanrısının bileşimini kısaca tanıtalım.
Bu firma 2017 yılında kurulmuştur. "Pen God" ürünü AI+eğitim ürünü sayılabilecek yapay zeka destekli bir yazı yazılımıdır. Başlangıçta, "Pen God" içerik oluşturma platformlarına ve ilgili araç üreticilerine yönelikti ve daha sonra, öğrencilere makale yazmayı öğretmek için yapay zekayı kullanarak dikey alanın derinliklerine indi, böylece "Pen God Composition" ortaya çıktı.
Basitçe anlayabilirsiniz: eğitim sektöründedir, öğrenci grubuna yöneliktir, yapay zeka teknolojisini kullanır ve kompozisyon yazma sahnesini çözer.
AI yazımı, günümüzde popüler olan ChatGPT ile pek çok ortak noktaya sahiptir. Hepsi doğal dil işleme, anlamsal analiz ve tahmin ve makine öğrenimi gibi teknolojileri içerir. Penshen Composition'ın kurucusu Song Jiawei, Sony için kıdemli sistem mimarı ve Singulato'nun CTO'su olarak görev yaptı.
Beş yıl kadar erken bir tarihte Song Jiawei, bert veya GPT-2 gibi önceden eğitilmiş dil modeli teknolojilerini uygulamalara nasıl uygulayacağını düşündüğünü söyledi. O zamanlar GPT çemberin dışında değildi ve bugün olduğu kadar iyi bilinmiyordu.
AI kompozisyonu yapmaya başladıktan sonra Penshen Composition, eğitim ve öğretimin lideri Xueersi ile aynı nehre adım atarak resmi olarak eğitim parkuruna girdi.
Penshen'in tanıtımına göre Aralık 2020'de Penshen Composition ve Xueersi bir işbirliğine ulaştı. ** Penshen Composition, Xueersi'ye, Xueersi ile ilgili hizmetlerde kullanılan bir "Benshen Composition Model Deneme Malzemesi Hizmet Arayüzü" sağlar ve çağrı sayısına göre ücret belirlenir. Bu nedenle Penshen Composition, Xueersi için bir hizmet arayüzü açtı. **
Başka bir deyişle, Xueersi, Penshen Kompozisyon veri tabanındaki kompozisyon malzemelerini kullanabilir ve bunlar için ödeme yapabilir.
Kompozisyon malzemeleri, bu işlemde temel bir varlık ve Penshen Composition'ın iş modelinin mihenk taşıdır. Aslında Kalem Tanrı'nın Kompozisyonu en erken malzeme noktasından başlamıştır. O zamanlar "tek tıklamayla malzeme arama" işlevine sahipti. Kullanıcılar anahtar kelimeleri arayabilir ve sistem malzemeleri otomatik olarak eşleştirebilir. Kaynaklar, eski şiir klasiklerinden, resmi belgelerden modern web makalelerine kadar uzanır. Yazma işlemi sırasında, sistem aynı zamanda materyali gerçek zamanlı olarak iletebilir.
Bu materyaller internetten değil, Penshen'in kendi veritabanından alınmıştır. Yapay Zeka teknolojisinin akıllı tanımlaması, çevirisi ve eşleştirmesi sayesinde Penshen, uygun materyalleri kullanıcıların arama davranışına göre geri bildirebilir.
Bu bileşim malzemelerinin miktarı yeterince büyük olduğunda, kalitesi yeterince yüksek olduğunda ve eşleştirme yeterince doğru olduğunda, belirli bir ticari değere sahip olacak ve hatta dışarıdan satılabilecektir. Xueersi ile işbirliğinin nedeni budur.
Sorun şu ki, bu materyaller, özellikle bazı arayüzler açılırsa "çalınma" riski taşıyor.
Penshen kompozisyonunda Deep AI'nın tanıtılmasına göre, Xueersi ile işbirliğinin kapsamını sınırladılar, "Verilerimizi aramalarına ve kendi APP'lerinde görüntülemelerine izin vermek için arayüzü açıyoruz, ancak sözleşme depolama verilerini içermiyor. Veya yapay zeka algoritmaları için izinler. Veriler yalnızca kullanıcıların kullanımına açık olmalı, makinelerinde saklanmamalı."
**Bir kullanıcı Xueersi'nin ürün tarafında bir arama başlattığında, çağrılan kompozisyon şablonu Penshen Kompozisyonundan gelir ve Xueersi bunu kendi başına saklayamaz. **
Nisan ortasındaki anormal çağrı, Pen God Composition'ın bunun normal iş işbirliği kapsamı dışında olduğunu düşünmesine neden oldu. "Onların eylemleri savunma mekanizmalarımızı tetikledi ve bu da bunu keşfetmemize neden oldu."
Bishen Zuowen, arka planda erişim loglarını kontrol ettiklerini ve yasa dışı erişimin "crawler" teknolojisi aracılığıyla tek bir IP tarafından başlatıldığını tespit ettiklerini belirtti. "Bu IP adresine zaten sahibiz."
Penshen Kompozisyon (Part) tarafından yayınlanan IP adresi
Yerel bir yapay zeka start-up şirketinin CEO'su Liu Ran, Deep AI'yı analiz etti.Anahtar kelimeleri kapsamlı bir şekilde numaralandırmanın bu yöntemi, kütüphanedeki verileri elde etmek için olmalıdır.Bu çok açık bir davranıştır.
Penshen Composition, Deep AI'ya olaydan sonra Xueersi'nin operasyon ekibiyle doğrulama yaptıklarını ve diğer tarafın Xueersi'nin algoritma ekibinin verileri taradığını ve kendi kullanımları için kullandığını doğrudan kabul ettiğini açıkladı. Ancak bu açıklama için Deep AI henüz Xueersi tarafından onaylanmadı.
Eski ortağın kapıda bir anda barbara dönüşmesi Bishen Kompozisyonu çok kızdırdı ve defalarca avukat mektupları gönderdi.
Xueersi, 13 Haziran'da kamuoyuna verdiği yanıtta, Penshen kompozisyon arayüzüne yaptığı çağrının iki taraf arasındaki sözleşmenin kapsamını aşmadığını ve Penshen'in materyal içeriğinin kullanımının sözleşmenin gerekliliklerine uygun olduğunu ve hiçbir şey için kullanılmadığını belirtti. sözleşme dışında herhangi bir amaç için. Xueersi, kendi geliştirdiği MathGPT büyük modelinin ve "kompozisyon AI asistanının" Penshen Composition'dan herhangi bir veri kullanmadığını özellikle vurguladı.
İki taraf da kendi görüşlerinde ısrar ediyor ve henüz bir sonuç yok. Pen God'ın makalesine göre, bu vaka "AI büyük ölçekli model verilerinin çalındığı ilk vaka" olabilir.
Keşfedilmeye değer bir soru, verilerin büyük modeller için ne anlama geldiğidir.
Verilerin nereden geldiği büyük bir sorundur
Hesaplama gücü, algoritmalar ve veriler, makine öğrenimi için yapay zekanın üç temel unsurudur.
Bilgi işlem gücünü artırmak için, birçok teknoloji şirketi Nvidia'nın GPU'sunu kapmak için çok para harcıyor. Algoritma tarafında, yurtiçi ve yurtdışındaki bazı büyük şirketler, model geliştirme eşiğini büyük ölçüde azaltan algoritmayı açık kaynak haline getirdi.
Veri tarafında, engeller her zaman var olmuştur. Yüksek kaliteli verilerin nerede bulunacağı önemli bir konudur.
Büyük üretken AI modellerinin, modelin genelleştirme ve oluşturma yeteneklerini geliştirmek için eğitim için büyük miktarda farklı veri kullanması gerekir. Farklı modeller farklı veri kaynakları kullanabilir. ChatGPT gibi genel büyük modeller, çeşitli haber siteleri, kitaplar, bilimsel makaleler, web sayfaları vb. gibi çok sayıda genel veri kullanır. Bazı dikey alanlardaki büyük modeller için, hedeflenen derlem ve veri kümelerini bulmak gerekir.
Çin'in önde gelen teknoloji şirketlerinden birinin büyük ölçekli modelinden sorumlu kişi, Deep AI'ya ChatGPT'nin aslında çok sayıda kamuya açık olmayan veri kullandığını söyledi. yüksek kaliteli veri eşiği. Veri toplama ve temizleme büyük zorluklarla karşı karşıya. **
TAL CTO'su Tian Mi, 4 Mayıs'ta kamuoyuna şunları söyledi: "Birçok alanda veri engelleri ve sektör bilgisi vardır ve büyük modellerin hâlâ alan bilgisi ve ayrıca alan uzmanlarını eğitmek için yeterli alan verisi ile derinlemesine entegre edilmesi gerekir. Model. "
Tian Mi'nin dediği gibi, geniş alan modeli, alan bilgisi ile derinlemesine entegre edilmelidir. Yapay zeka kompozisyonu alanında, kompozisyon materyalleri, eğitim makineleri için önemli verilerdir.
2019 gibi erken bir tarihte Penshen Company, amaçlı olarak veri toplamaya ve ünlü alıntıları, şiirleri, resmi belgeleri, İnternet dillerini vb. kapsayan kendi kompozisyon külliyatını geliştirmeye başladı. Her bir korpusu etiketlemek için manuel etiketleri simüle etmek üzere eğitim makineleri yöntemini kullanırlar.
Dikey korpusta, yalnızca veriler etiketlendiğinde, vektör eşleme, semantik analiz ve kullanıcının mevcut içerik oluşturma tahminine dayalı olarak doğru içerik gönderimi gerçekleştirilebilir.
Liu Ran, Deep AI'ya bir model oluşturmanın çok sayıda doğrulanmış veri gerektirdiğini ve veriler sıralanırsa çok sayıda insan işi kurtarabileceğini söyledi. Penshen Kompozisyon tarafından organize edilen kompozisyonlar, işaretlenmiş veri olarak kullanılabilir.
Bu süreç sürekli ve uzundur. Bishen Kompozisyon, kuruluşundan bu yana geçen altı yılda toplamda 5 milyondan fazla kompozisyon materyali biriktirdiklerini ve aylık düzeltme hacminin 30.000'i aştığını söyledi. Bu kompozisyon materyalleri manuel olarak gözden geçirilir, taranır ve gönderilir, etiketlenir, derecelendirilir ve veriler düzeltilir ve sonunda toplanır.
Bu veriler sadece APP sayfasında materyal şeklinde sunulamaz, aynı zamanda arka planda algoritmaları eğitmek için de kullanılabilir. Bu nedenle, arayüzleri açmak için diğer şirketlerle işbirliği yaparken, Penshen Composition anlaşmaya özel olarak bir madde ekledi - "korpus olarak önbelleğe alma, depolama, hesaplama ve eğitim yok".
Bishen Composition, Xueersi'nin verileri "çaldığına" inanıyor ve Xueersi'nin verileri büyük matematiksel model MathGPT'nin ve Xueersi öğrenme makinesi "Composition AI Assistant"ın eğitimi ve geliştirilmesi için kullandığını düşünüyor. Ama bunu kanıtlamak zor görünüyor.
Liu Ran, normalde, kompozisyon verilerinin yüksek eşzamanlılığı kabul etmemek, verileri şifrelemek gibi önceden ayarlanmış bazı kısıtlamalara sahip olması gerektiğine ve verilerin nerede olduğu ve kullanımlarının izlenmesinin mümkün olması gerektiğine inanıyor. Ancak, kompozisyon verilerinin kullanıcı anahtar davranış verileri kadar kritik olmadığına da inanıyor.
"Yapay zekanın iyi bir kompozisyonun ne olduğunu öğrenmesine izin verebilir ve ardından bu standartlara göre üretmesine izin verebilirsiniz. Ama aslında çok fazla veriye ihtiyaç olduğunu düşünmüyorum. Onbinlerce yüksek kaliteli kompozisyon yeterli olmalı." .
"Yapay Zeka Büyük Model Veri Hırsızlığının İlk Vakası",
**Ayağa kalkabilir misin? **
Penshen Composition sert bir tavır aldı ve Xueersi'den özür talep eden ve aynı zamanda 1 yuan tazminat talep eden arka arkaya iki duyuru yayınladı. Hatta bu olayı "AI büyük model veri hırsızlığının ilk vakası" olarak etiketlemek istiyor.
Shanghai Mankiw Hukuk Bürosu yöneticisi avukat Liu Honglin, Deep AI'ya Bishen Composition'ın kendi oluşturduğu külliyat veya malzeme kitaplığının kendisinin fikri mülkiyet haklarına sahip olduğunu söyledi. Ancak Telif Hakları Kanunu kapsamında bir eser olup olmadığı, özgünlüğün ilgili kriterleri karşılayıp karşılamadığına bağlıdır.
"Penshen Composition, Xueersi'nin onların verilerini kötü niyetle aldığını kanıtlamak için yeterli kanıta sahipse, fikri mülkiyet ihlali veya haksız rekabet davası açabilir." dedi.
Ek olarak, Bishen Composition'ın Xueersi ile bir işbirliği anlaşması vardır.Fikri mülkiyet haklarına saygı gösterilmesi ve yetkilendirilmesi kararlaştırılırsa, sözleşme ihlalleri yoluyla da haklarını ve çıkarlarını koruyabilirler.
Penshen Kompozisyon Materyal Kütüphanesindeki kompozisyonların birçoğunun kullanıcılar tarafından sunulduğunu belirtmekte fayda var. Pen God Composition, her ay 300.000 makale başvurusu aldığını iddia ediyor. Bu nedenle ihlal olup olmadığını belirlemeden önce bu materyallerin fikri mülkiyet haklarını netleştirmek gerekir.
Liu Honglin'in analizine göre, makalenin yaratıcısının (katkıda bulunanın) ve kalemshen kompozisyonunun fikri mülkiyet hakları konusunda nasıl anlaştıklarına bağlıdır. Kullanıcı, sunum sırasında Penshen Composition'ın fikri mülkiyet haklarına izin verirse, Penshen Composition ilgili hak ve menfaatlerden yararlanacaktır.
Deep AI, Pen God Composition'ın kullanıcı hizmet sözleşmesini sordu ve böyle bir madde olduğunu tespit etti: Kullanıcı tarafından Pen God Composition'da yayınlanan içerik (yorumlar, yorumlar, notlar dahil ancak bunlarla sınırlı olmamak üzere), Pen God Composition'a bir ücretsiz ve geri alınamaz münhasır olmayan lisans .
Başka bir deyişle, Penshen Composition malzeme kitaplığının fikri mülkiyet haklarına sahiptir.
Liu Ran'ın çözemediği şey, Bishen Composition'ın neden Xueersi ile işbirliği yaptığıydı. "Ben olsam Xueersi ile kesinlikle işbirliği yapmazdım çünkü güçlü bir rekabet ilişkisi içindeyiz." "Büyük modeller çağında, sadece bir kompozisyon veritabanı sağlama şansı yok. "
Sektördeki uzmanların analizlerine göre, Xueersi'nin trafiği, sahneleri ve popülaritesi var, özellikle kullanıcı odaklı ön uç ürünler açısından Xueersi, Pen God Composition'dan daha büyük avantajlara sahip. Ancak, arka uçta veri toplama ve malzeme kitaplığı oluşturma işi zaman alan ve zahmetli bir iştir ve kısa vadede sonuçları görmek zordur. Xueersi için hazır malzeme kitaplığına doğrudan erişmek en uygunudur. Penshen Composition, malzeme kitaplığına erişim satarak ticari gelir elde etti.
Ancak Pen God Composition gibi yeni kurulan bir şirket için böyle bir işbirliği dikenli bir gül gibidir. Çünkü Çinli devler her an bölgenize girebilir ve hatta işletme düzeyinde doğrudan rekabet oluşturabilir. **
AI düzeltme kompozisyonu, Penshen Kompozisyonunun çok önemli bir işlevidir. Üç yıl kadar erken bir tarihte, TAL (Xueersi'nin ana şirketi), AI yoluyla akıllı Çince ve İngilizce kompozisyon düzeltmesini gerçekleştiren "Çince ve İngilizce Kompozisyon Düzeltme Çözümü"nü de piyasaya sürdü.
Şimdi, AI kompozisyon modifikasyonu, TAL'ın devasa AI ürün matrisinin buzdağının sadece görünen kısmı. En son ürün tanıtımında, Çince kompozisyon düzeltmesi, Çince ve İngilizce dikte düzeltmesinin bir modülüdür. TAL'in daha büyük hedefleri var ve dokunaçları şimdiden yapay zeka+eğitimin tüm yönlerini kapsıyor.
ChatGPT, üretken AI ile popüler hale geldikten sonra, yapay zeka endüstrisindeki girişimciler hem heyecanlı hem de endişeliydi. Sektörün nihayet yeniden ısınmaya başlamasından heyecan duyuyorlar; ChatGPT'nin çok güçlü olmasından endişe duyuyorlar ve dikey alanlardaki birçok girişimcilik projesi bir gecede engellerini kaybetti.
Pen God Composition gibi bir şirket için rekabetin önündeki engellerin nerede olduğu ve devlerle nasıl yüzleşileceği çok gerçek sorunlardır. Yapay zeka endüstrisinin hızlanan evrimi ve homojen rekabetin yoğunlaşması, startuplar ile devler arasındaki çatışmayı tırmandıracak.
Veri toplama, yeni bir rekabet turunda buzdağının sadece görünen kısmı olabilir.
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Yapay zeka büyük modellerinin karanlık yüzü olan verileri "çalmak"
Orjinal kaynak:
"Bir vuruş iki vuruş" adlı bir yeni şirket, eski eğitim ve öğretim lideri "Xueersi"yi alenen kınadı ve kurtarmak için çok uğraştığı verileri "veritabanını kazıyarak" "çaldığını" söyledi.
Hikayenin kaynağı, bu yıl Nisan ortasında, "Pen Shen Composition" (Strike Two Strike Company'nin bir ürünü), sunucu arayüzüne çok sayıda düzenli anormal erişim olduğunu ve bunun da hızlı bir artışa neden olduğunu tespit etmesidir. sunucudaki yükte.
Ziyaret sayısı günlük ortalamanın çok üzerinde. Bishen Composition, Deep AI'ya olağan günlük ziyaretlerin yaklaşık birkaç yüz veya birkaç bin olduğunu, ancak o birkaç gün içinde günde 500.000'in üzerine çıktığını açıkladı. Bir hafta içinde verileri 2,58 milyon kez tarandı.
Pen God Composition, sunucu günlüklerine başvurarak, tek bir IP'nin veritabanlarını "gezgin" teknolojisi aracılığıyla yüksek yoğunlukta taradığını buldu. Bu IP'nin her ziyareti için arama kelimeleri kompozisyonla ilişkilidir ve sistem sayfa başına 30 kompozisyon döndürür.Her ziyaret, arama kelimelerini ilk sayfadan sayfa sayfa geri dönmek için kullanır, temel olarak aynı konuyu kütüphanede toplar. .Tüm kompozisyonlar yakalanmıştır.
Sektördeki kaynaklara göre normal şartlar altında sıradan kullanıcılar bunu yapmayacak. **Veritabanına bu tür arama tarzı erişim, "kütüphaneyi kazıma" olarak da bilinir. **
Penshen Composition, "Paku"nun perde arkası manipülatörünün ortağı Xueersi olduğuna inanıyor.
"Park Kütüphanesi" olayından kısa bir süre sonra Penshen Composition, Xueersi'nin büyük bir matematiksel model MathGPT geliştirdiğini fark etti ve yakın gelecekte bir "AI asistanı" başlatacağını söyledi, bunlardan biri kompozisyon.
Penshen Composition'ın "alınması" ve Hexueersi'nin "Composition AI Asistanı" geliştirmesiyle ilgili iki olay arasında herhangi bir bağlantı olup olmadığına dair kesin bir sonuç yok.
Ancak Bishen Composition, haklarının ihlal edildiğine inanıyor. Karşı tarafa bir avukat mektubu göndererek konuyu kamuoyuna açıkladı ve bir açıklama almaya çalıştı. Xueersi, Penshen'in materyal içeriğinin kullanımının sözleşme gerekliliklerine uygun olduğunu ve kendi geliştirdiği MathGPT modelinin ve "kompozisyon AI asistanının" Penshen'in kompozisyonundan herhangi bir veri kullanmadığını söyleyerek halka açık bir yanıt verdi.
Bu olayda, tartışılmaya değer olan sadece kompozisyon malzemesi değildir. Büyük modeller için veriler ne anlama geliyor?
Her iki taraf da kendi görüşlerinde ısrarlıdır
Önce kalem tanrısının bileşimini kısaca tanıtalım.
Bu firma 2017 yılında kurulmuştur. "Pen God" ürünü AI+eğitim ürünü sayılabilecek yapay zeka destekli bir yazı yazılımıdır. Başlangıçta, "Pen God" içerik oluşturma platformlarına ve ilgili araç üreticilerine yönelikti ve daha sonra, öğrencilere makale yazmayı öğretmek için yapay zekayı kullanarak dikey alanın derinliklerine indi, böylece "Pen God Composition" ortaya çıktı.
Basitçe anlayabilirsiniz: eğitim sektöründedir, öğrenci grubuna yöneliktir, yapay zeka teknolojisini kullanır ve kompozisyon yazma sahnesini çözer.
AI yazımı, günümüzde popüler olan ChatGPT ile pek çok ortak noktaya sahiptir. Hepsi doğal dil işleme, anlamsal analiz ve tahmin ve makine öğrenimi gibi teknolojileri içerir. Penshen Composition'ın kurucusu Song Jiawei, Sony için kıdemli sistem mimarı ve Singulato'nun CTO'su olarak görev yaptı.
Beş yıl kadar erken bir tarihte Song Jiawei, bert veya GPT-2 gibi önceden eğitilmiş dil modeli teknolojilerini uygulamalara nasıl uygulayacağını düşündüğünü söyledi. O zamanlar GPT çemberin dışında değildi ve bugün olduğu kadar iyi bilinmiyordu.
AI kompozisyonu yapmaya başladıktan sonra Penshen Composition, eğitim ve öğretimin lideri Xueersi ile aynı nehre adım atarak resmi olarak eğitim parkuruna girdi.
Penshen'in tanıtımına göre Aralık 2020'de Penshen Composition ve Xueersi bir işbirliğine ulaştı. ** Penshen Composition, Xueersi'ye, Xueersi ile ilgili hizmetlerde kullanılan bir "Benshen Composition Model Deneme Malzemesi Hizmet Arayüzü" sağlar ve çağrı sayısına göre ücret belirlenir. Bu nedenle Penshen Composition, Xueersi için bir hizmet arayüzü açtı. **
Başka bir deyişle, Xueersi, Penshen Kompozisyon veri tabanındaki kompozisyon malzemelerini kullanabilir ve bunlar için ödeme yapabilir.
Kompozisyon malzemeleri, bu işlemde temel bir varlık ve Penshen Composition'ın iş modelinin mihenk taşıdır. Aslında Kalem Tanrı'nın Kompozisyonu en erken malzeme noktasından başlamıştır. O zamanlar "tek tıklamayla malzeme arama" işlevine sahipti. Kullanıcılar anahtar kelimeleri arayabilir ve sistem malzemeleri otomatik olarak eşleştirebilir. Kaynaklar, eski şiir klasiklerinden, resmi belgelerden modern web makalelerine kadar uzanır. Yazma işlemi sırasında, sistem aynı zamanda materyali gerçek zamanlı olarak iletebilir.
Bu materyaller internetten değil, Penshen'in kendi veritabanından alınmıştır. Yapay Zeka teknolojisinin akıllı tanımlaması, çevirisi ve eşleştirmesi sayesinde Penshen, uygun materyalleri kullanıcıların arama davranışına göre geri bildirebilir.
Bu bileşim malzemelerinin miktarı yeterince büyük olduğunda, kalitesi yeterince yüksek olduğunda ve eşleştirme yeterince doğru olduğunda, belirli bir ticari değere sahip olacak ve hatta dışarıdan satılabilecektir. Xueersi ile işbirliğinin nedeni budur.
Sorun şu ki, bu materyaller, özellikle bazı arayüzler açılırsa "çalınma" riski taşıyor.
Penshen kompozisyonunda Deep AI'nın tanıtılmasına göre, Xueersi ile işbirliğinin kapsamını sınırladılar, "Verilerimizi aramalarına ve kendi APP'lerinde görüntülemelerine izin vermek için arayüzü açıyoruz, ancak sözleşme depolama verilerini içermiyor. Veya yapay zeka algoritmaları için izinler. Veriler yalnızca kullanıcıların kullanımına açık olmalı, makinelerinde saklanmamalı."
**Bir kullanıcı Xueersi'nin ürün tarafında bir arama başlattığında, çağrılan kompozisyon şablonu Penshen Kompozisyonundan gelir ve Xueersi bunu kendi başına saklayamaz. **
Nisan ortasındaki anormal çağrı, Pen God Composition'ın bunun normal iş işbirliği kapsamı dışında olduğunu düşünmesine neden oldu. "Onların eylemleri savunma mekanizmalarımızı tetikledi ve bu da bunu keşfetmemize neden oldu."
Bishen Zuowen, arka planda erişim loglarını kontrol ettiklerini ve yasa dışı erişimin "crawler" teknolojisi aracılığıyla tek bir IP tarafından başlatıldığını tespit ettiklerini belirtti. "Bu IP adresine zaten sahibiz."
Yerel bir yapay zeka start-up şirketinin CEO'su Liu Ran, Deep AI'yı analiz etti.Anahtar kelimeleri kapsamlı bir şekilde numaralandırmanın bu yöntemi, kütüphanedeki verileri elde etmek için olmalıdır.Bu çok açık bir davranıştır.
Penshen Composition, Deep AI'ya olaydan sonra Xueersi'nin operasyon ekibiyle doğrulama yaptıklarını ve diğer tarafın Xueersi'nin algoritma ekibinin verileri taradığını ve kendi kullanımları için kullandığını doğrudan kabul ettiğini açıkladı. Ancak bu açıklama için Deep AI henüz Xueersi tarafından onaylanmadı.
Eski ortağın kapıda bir anda barbara dönüşmesi Bishen Kompozisyonu çok kızdırdı ve defalarca avukat mektupları gönderdi.
Xueersi, 13 Haziran'da kamuoyuna verdiği yanıtta, Penshen kompozisyon arayüzüne yaptığı çağrının iki taraf arasındaki sözleşmenin kapsamını aşmadığını ve Penshen'in materyal içeriğinin kullanımının sözleşmenin gerekliliklerine uygun olduğunu ve hiçbir şey için kullanılmadığını belirtti. sözleşme dışında herhangi bir amaç için. Xueersi, kendi geliştirdiği MathGPT büyük modelinin ve "kompozisyon AI asistanının" Penshen Composition'dan herhangi bir veri kullanmadığını özellikle vurguladı.
İki taraf da kendi görüşlerinde ısrar ediyor ve henüz bir sonuç yok. Pen God'ın makalesine göre, bu vaka "AI büyük ölçekli model verilerinin çalındığı ilk vaka" olabilir.
Keşfedilmeye değer bir soru, verilerin büyük modeller için ne anlama geldiğidir.
Hesaplama gücü, algoritmalar ve veriler, makine öğrenimi için yapay zekanın üç temel unsurudur.
Bilgi işlem gücünü artırmak için, birçok teknoloji şirketi Nvidia'nın GPU'sunu kapmak için çok para harcıyor. Algoritma tarafında, yurtiçi ve yurtdışındaki bazı büyük şirketler, model geliştirme eşiğini büyük ölçüde azaltan algoritmayı açık kaynak haline getirdi.
Veri tarafında, engeller her zaman var olmuştur. Yüksek kaliteli verilerin nerede bulunacağı önemli bir konudur.
Büyük üretken AI modellerinin, modelin genelleştirme ve oluşturma yeteneklerini geliştirmek için eğitim için büyük miktarda farklı veri kullanması gerekir. Farklı modeller farklı veri kaynakları kullanabilir. ChatGPT gibi genel büyük modeller, çeşitli haber siteleri, kitaplar, bilimsel makaleler, web sayfaları vb. gibi çok sayıda genel veri kullanır. Bazı dikey alanlardaki büyük modeller için, hedeflenen derlem ve veri kümelerini bulmak gerekir.
Çin'in önde gelen teknoloji şirketlerinden birinin büyük ölçekli modelinden sorumlu kişi, Deep AI'ya ChatGPT'nin aslında çok sayıda kamuya açık olmayan veri kullandığını söyledi. yüksek kaliteli veri eşiği. Veri toplama ve temizleme büyük zorluklarla karşı karşıya. **
TAL CTO'su Tian Mi, 4 Mayıs'ta kamuoyuna şunları söyledi: "Birçok alanda veri engelleri ve sektör bilgisi vardır ve büyük modellerin hâlâ alan bilgisi ve ayrıca alan uzmanlarını eğitmek için yeterli alan verisi ile derinlemesine entegre edilmesi gerekir. Model. "
Tian Mi'nin dediği gibi, geniş alan modeli, alan bilgisi ile derinlemesine entegre edilmelidir. Yapay zeka kompozisyonu alanında, kompozisyon materyalleri, eğitim makineleri için önemli verilerdir.
2019 gibi erken bir tarihte Penshen Company, amaçlı olarak veri toplamaya ve ünlü alıntıları, şiirleri, resmi belgeleri, İnternet dillerini vb. kapsayan kendi kompozisyon külliyatını geliştirmeye başladı. Her bir korpusu etiketlemek için manuel etiketleri simüle etmek üzere eğitim makineleri yöntemini kullanırlar.
Dikey korpusta, yalnızca veriler etiketlendiğinde, vektör eşleme, semantik analiz ve kullanıcının mevcut içerik oluşturma tahminine dayalı olarak doğru içerik gönderimi gerçekleştirilebilir.
Liu Ran, Deep AI'ya bir model oluşturmanın çok sayıda doğrulanmış veri gerektirdiğini ve veriler sıralanırsa çok sayıda insan işi kurtarabileceğini söyledi. Penshen Kompozisyon tarafından organize edilen kompozisyonlar, işaretlenmiş veri olarak kullanılabilir.
Bu süreç sürekli ve uzundur. Bishen Kompozisyon, kuruluşundan bu yana geçen altı yılda toplamda 5 milyondan fazla kompozisyon materyali biriktirdiklerini ve aylık düzeltme hacminin 30.000'i aştığını söyledi. Bu kompozisyon materyalleri manuel olarak gözden geçirilir, taranır ve gönderilir, etiketlenir, derecelendirilir ve veriler düzeltilir ve sonunda toplanır.
Bu veriler sadece APP sayfasında materyal şeklinde sunulamaz, aynı zamanda arka planda algoritmaları eğitmek için de kullanılabilir. Bu nedenle, arayüzleri açmak için diğer şirketlerle işbirliği yaparken, Penshen Composition anlaşmaya özel olarak bir madde ekledi - "korpus olarak önbelleğe alma, depolama, hesaplama ve eğitim yok".
Bishen Composition, Xueersi'nin verileri "çaldığına" inanıyor ve Xueersi'nin verileri büyük matematiksel model MathGPT'nin ve Xueersi öğrenme makinesi "Composition AI Assistant"ın eğitimi ve geliştirilmesi için kullandığını düşünüyor. Ama bunu kanıtlamak zor görünüyor.
Liu Ran, normalde, kompozisyon verilerinin yüksek eşzamanlılığı kabul etmemek, verileri şifrelemek gibi önceden ayarlanmış bazı kısıtlamalara sahip olması gerektiğine ve verilerin nerede olduğu ve kullanımlarının izlenmesinin mümkün olması gerektiğine inanıyor. Ancak, kompozisyon verilerinin kullanıcı anahtar davranış verileri kadar kritik olmadığına da inanıyor.
"Yapay zekanın iyi bir kompozisyonun ne olduğunu öğrenmesine izin verebilir ve ardından bu standartlara göre üretmesine izin verebilirsiniz. Ama aslında çok fazla veriye ihtiyaç olduğunu düşünmüyorum. Onbinlerce yüksek kaliteli kompozisyon yeterli olmalı." .
**Ayağa kalkabilir misin? **
Penshen Composition sert bir tavır aldı ve Xueersi'den özür talep eden ve aynı zamanda 1 yuan tazminat talep eden arka arkaya iki duyuru yayınladı. Hatta bu olayı "AI büyük model veri hırsızlığının ilk vakası" olarak etiketlemek istiyor.
Shanghai Mankiw Hukuk Bürosu yöneticisi avukat Liu Honglin, Deep AI'ya Bishen Composition'ın kendi oluşturduğu külliyat veya malzeme kitaplığının kendisinin fikri mülkiyet haklarına sahip olduğunu söyledi. Ancak Telif Hakları Kanunu kapsamında bir eser olup olmadığı, özgünlüğün ilgili kriterleri karşılayıp karşılamadığına bağlıdır.
"Penshen Composition, Xueersi'nin onların verilerini kötü niyetle aldığını kanıtlamak için yeterli kanıta sahipse, fikri mülkiyet ihlali veya haksız rekabet davası açabilir." dedi.
Ek olarak, Bishen Composition'ın Xueersi ile bir işbirliği anlaşması vardır.Fikri mülkiyet haklarına saygı gösterilmesi ve yetkilendirilmesi kararlaştırılırsa, sözleşme ihlalleri yoluyla da haklarını ve çıkarlarını koruyabilirler.
Penshen Kompozisyon Materyal Kütüphanesindeki kompozisyonların birçoğunun kullanıcılar tarafından sunulduğunu belirtmekte fayda var. Pen God Composition, her ay 300.000 makale başvurusu aldığını iddia ediyor. Bu nedenle ihlal olup olmadığını belirlemeden önce bu materyallerin fikri mülkiyet haklarını netleştirmek gerekir.
Liu Honglin'in analizine göre, makalenin yaratıcısının (katkıda bulunanın) ve kalemshen kompozisyonunun fikri mülkiyet hakları konusunda nasıl anlaştıklarına bağlıdır. Kullanıcı, sunum sırasında Penshen Composition'ın fikri mülkiyet haklarına izin verirse, Penshen Composition ilgili hak ve menfaatlerden yararlanacaktır.
Deep AI, Pen God Composition'ın kullanıcı hizmet sözleşmesini sordu ve böyle bir madde olduğunu tespit etti: Kullanıcı tarafından Pen God Composition'da yayınlanan içerik (yorumlar, yorumlar, notlar dahil ancak bunlarla sınırlı olmamak üzere), Pen God Composition'a bir ücretsiz ve geri alınamaz münhasır olmayan lisans .
Liu Ran'ın çözemediği şey, Bishen Composition'ın neden Xueersi ile işbirliği yaptığıydı. "Ben olsam Xueersi ile kesinlikle işbirliği yapmazdım çünkü güçlü bir rekabet ilişkisi içindeyiz." "Büyük modeller çağında, sadece bir kompozisyon veritabanı sağlama şansı yok. "
Sektördeki uzmanların analizlerine göre, Xueersi'nin trafiği, sahneleri ve popülaritesi var, özellikle kullanıcı odaklı ön uç ürünler açısından Xueersi, Pen God Composition'dan daha büyük avantajlara sahip. Ancak, arka uçta veri toplama ve malzeme kitaplığı oluşturma işi zaman alan ve zahmetli bir iştir ve kısa vadede sonuçları görmek zordur. Xueersi için hazır malzeme kitaplığına doğrudan erişmek en uygunudur. Penshen Composition, malzeme kitaplığına erişim satarak ticari gelir elde etti.
Ancak Pen God Composition gibi yeni kurulan bir şirket için böyle bir işbirliği dikenli bir gül gibidir. Çünkü Çinli devler her an bölgenize girebilir ve hatta işletme düzeyinde doğrudan rekabet oluşturabilir. **
AI düzeltme kompozisyonu, Penshen Kompozisyonunun çok önemli bir işlevidir. Üç yıl kadar erken bir tarihte, TAL (Xueersi'nin ana şirketi), AI yoluyla akıllı Çince ve İngilizce kompozisyon düzeltmesini gerçekleştiren "Çince ve İngilizce Kompozisyon Düzeltme Çözümü"nü de piyasaya sürdü.
Şimdi, AI kompozisyon modifikasyonu, TAL'ın devasa AI ürün matrisinin buzdağının sadece görünen kısmı. En son ürün tanıtımında, Çince kompozisyon düzeltmesi, Çince ve İngilizce dikte düzeltmesinin bir modülüdür. TAL'in daha büyük hedefleri var ve dokunaçları şimdiden yapay zeka+eğitimin tüm yönlerini kapsıyor.
Pen God Composition gibi bir şirket için rekabetin önündeki engellerin nerede olduğu ve devlerle nasıl yüzleşileceği çok gerçek sorunlardır. Yapay zeka endüstrisinin hızlanan evrimi ve homojen rekabetin yoğunlaşması, startuplar ile devler arasındaki çatışmayı tırmandıracak.
Veri toplama, yeni bir rekabet turunda buzdağının sadece görünen kısmı olabilir.