🎉 Gate.io動態 #创作者激励计划# 火熱進行中!報名參與並發帖解鎖 $2,000 創作大獎!
🌟 參與攻略:
1️⃣ 點擊連結進入報名頁面 👉️ https://www.gate.io/questionnaire/6550
2️⃣ 點擊“是”按鈕提交報名
3️⃣ 在動態完成發帖,提升發帖量和互動量,解鎖獲獎資格!
📌 只要是與加密相關內容均可參與發帖!
🎁 茶具套裝、Gate x 國際米蘭保溫杯、Gate.io 紀念章、點卡等好禮等你來拿!獲獎者還將獲得專屬社區流量扶持,助力您提升影響力,增長粉絲!
活動截止至:5月6日00:00 (UTC+8)
活動詳情:https://www.gate.io/announcements/article/44513
六年成果一個週末被爬取250+萬次,新時代該如何保護數據版權
上個月,著名教育機構學而思曾透露消息,稱正在自研數學大模型MathGPT,面向全球數學愛好者和各大科研機構,解題講題兩條腿走路。當時就有許多人感慨,在全球大語言模型你方唱罷我登場時,終於有一家理科版大模型要來了。然而一個多月過去了,現實的發展卻走到了另一個方向。
本週二13日,AI寫作工具“筆神作文”,指控學而思通過“爬蟲”技術,非法訪問、緩存其服務器數據多達250多萬次,以此開發MathGPT的新產品“作文AI助手”,並索賠一元錢。
一、六年成果與一個週末
筆神作文成立於2017年12月,是面向K12,即國內的小學到高中的作文教育平台,隸屬於北京一筆兩劃科技有限公司。成立時雖然也有將AI與結合的呼聲與概念,但市場預期及實際表現都沒有現在的火熱,引起的關注也非常有限。然而即便如此,筆神作文卻依然憑藉其“利用AI技術幫助寫作者提升寫作能力”的特色,在2018年1月獲得了真格基金的數百萬種子輪融資,後來又在第二年7月完成了不惑創投的數百萬天使輪融資。
根據官方資料顯示,筆神作文上線六年以來,每個月都能收到超過30萬篇作文投稿,以及超過40萬次的點贊評論,積累了數百萬篇作文素材,月批改作文量也超過三萬篇。而去年底ChatGPT上線後,筆神作文的投資方之一,世紀天鴻曾表示,“筆神”與ChatGPT技術同源,二者都是採用基於transformer的最先進算法作為底層技術。筆神作文創始人宋嘉偉也曾介紹道:“一筆兩劃目前團隊中技術研發人員超過六成,在成立公司之前就曾創辦過NLP類公司,部分骨幹在NLP領域深耕多年,持續積累。”
**因此整體上來說,筆神作文的算法模型為一筆兩劃公司自研訓練,平台採用的大數據主要源於自身累積。 **而且也正因為在寫作方面的技術積累且卓有成效,三年前筆神作文與學而思正式開展合作,與學而思旗下的學習工具App“題拍拍”簽約,主要負責為其提供作文素材查詢服務。
但是作為合作夥伴,筆神作文卻在近日表示:在4月13日至17日,我們團隊從創業以來六年的成果,被合作多年的“學而思”無情背刺,短短一個週末的時間就爬取了超過250萬次! 5月學而思就公佈了MathGPT,時間上也未免過於巧合。
二、筆神的訴求與學而思的回應
**從筆神作文官方微博發表的聲明來看,它本身並沒有完備的數據安全機制,而對於“合作夥伴”學而思更是沒有心懷防備,從而導致三體雲聯公司(學而思的子公司)有機可乘,利用了彼此的信任。 **對此,筆神作文表示該行為明顯是視雙方的合同條款若無物,更違反了《數據保護法》第三十二條“任何組織、個人收集數據,應當採取合法、正當的方式,不得竊取或者以其他非法方式獲取數據”的規定,嚴重侵犯了筆神作文APP的數據權益。事後第一時間內,筆神作文就找到學而思進行求證,對方倒也不拖拉,直接承認是他們的算法組在爬取數據並作為己用。因此筆神作文發送了律師函,這次卻沒有得到學而思的實質性回复。
“我們作為一家體量遠小於'學而思'的公司已經別無他法,只能通過法律渠道來維護自身權益。”但筆神作文同時在聲明中也指出,目前的法律法規並沒有“AI大模型數據盜取”的判決先例,因此只能“勇敢地走出這第一步”。至於筆神作文的實際訴求,實際上倒也不難:**只想要學而思支付一元賠償金,公開道歉並刪除已爬取的數據。 **
筆神作文對此的解釋是:“數據有價,心血無價,索賠一元是因為公平公正都不能用金錢衡量,我們希望通過訴訟告訴對方,告訴社會這種行為是要付出代價的。AI產業的發展需要各家共同努力,共同創造,而非覬覦和剽竊他人的成果。”
而此次事件中的關鍵,250多萬次的數據爬取,學而思指出合同中明確表示過“每月保底費用包含的調用次數為百萬次量級”,其調用的接口“屬於雙方合同約定的正常合作範圍”。在回應的最後,學而思強調其“一直尊重知識產權、重視知識產權保護”,所有行為均嚴格按照合同約定履行,但是“筆神作文的公開聲明已經對學而思品牌聲譽造成了傷害,我們將保留追究其名譽侵權責任的權利。”
三、數據版權問題
就目前雙方的聲明而言,下任何結論都為時尚早,但這也揭示了最近半年火熱的大模型市場,一個十分重要卻又極易被忽視的地方:AI訓練數據的版權歸屬問題。最近在外網鬧得滿城風雨的,號稱“美版貼吧”Reddit強制對API進行收費的決定也是出於這個原因。
Reddit上因為有最近多年積攢的豐富聊天內容,已成為谷歌、微軟、OpenAI等企業訓練大語言模型都在使用的素材,ChatGPT等的能說會道以及後來的火遍全球,Reddit同樣有貢獻。但是現在伴隨著這些類GPT產品的火爆,Reddit創始人&CEO就曾表示:“Reddit的語料庫數據非常有價值,但我們不想把這些內容免費提供給一些巨頭公司了。”繼這番表態後,另一家知名IT問答網站Stack Overflow也宣布,計劃從今年中時候起,向大型開發商收取數據訪問費用,其CEO也表示:“大語言模型最近的發展也得益於社區的推動,因此社區作出的貢獻也必須得到補償。”
毫無疑問,AGI,大模型在從小眾到大眾,從幕後到台前,智能程度越來越高的過程中,海量的訓練數據是不可或缺的。但從目前各家企業的表現來看,即便是目前的一哥OpenAI,對於訓練數據的版權問題都沒有很好的解決方案。原因倒也不難理解,GPT的早期版本幾乎沒有引起外界重視,當時人們對它能否實現產品化都很懷疑,自然沒人在意數據來源以及版權問題。等到ChatGPT上線了,巨大的使用價值,商業價值,社會熱潮撲面而來,傳統的法律體系,經濟模式,發展思路等,立刻都會成為困擾你的麻煩。